■ はじめに

https://dk521123.hatenablog.com/entry/2019/09/14/123206

の続き。

今回は、とりあえず、気軽に、Apache Spark を動かしてみたいので
Windows 上で環境設定を行う

なお、Linuxでの設定は、以下の関連記事を参照。

Apache Spark ～環境設定 / Linux編～
https://dk521123.hatenablog.com/entry/2019/11/01/000000

【2023/03/20追記】
Spark3.3.0での構築は、以下を参照。

Spark/Scalaの開発環境構築～ Windows編～
https://dk521123.hatenablog.com/entry/2023/03/20/115450

【１】構築環境

* OS : Windows 10
* Apache Spark : v2.4.4
* Java : JDK v13.0.0.0

【２】構築手順

１）JDKの設定

* 環境変数「JAVA_HOME」も設定しておくこと ★重要★
* JDK をダウンロードし、インストールしておく
（今回は「jdk-13_windows-x64_bin.exe」）

https://www.oracle.com/technetwork/java/javase/downloads/index.html

２）Sparkの設定

Apache Spark をダウンロードし、任意の場所に解凍する
（tarファイルの解凍は「※補足：Windows での tar の解凍について」を参照）
（今回は「spark-2.4.4-bin-hadoop2.7.tgz」）

https://spark.apache.org/downloads.html
https://archive.apache.org/dist/spark/

※補足：Windows での tar の解凍について

Windows 10 の場合は、tarコマンドが備わっている。
（Windows 10未満の場合なら7Zipなどで解凍）

# 確認のためにヘルプを表示
tar --help

# 解凍
tar -zxvf spark-2.4.4-bin-hadoop2.7.tgz

３）環境変数の設定

* もし、「JAVA_HOME」をJDKの時に設定していない場合は
　設定しておくこと ★重要★

[1] SPARK_HOME : Sparkインストール先

* C:\work\spark-2.4.4-bin-hadoop2.7

[2] HADOOP_HOME : Sparkインストール先

★重要★
* C:\work\spark-2.4.4-bin-hadoop2.7 or %SPARK_HOME%

[3] Path

* C:\Program Files\Java\jdk-13\bin; C:\work\spark-2.4.7-bin-hadoop2.7\bin

４）winutils.exeの設定

winutils.exe をダウンロードして、%SPARK_HOME%\bin配下に置く

https://github.com/steveloughran/winutils
https://github.com/steveloughran/winutils/blob/master/hadoop-3.0.0/bin/winutils.exe

５）構築確認

# まずは、バージョン確認
spark-shell --version

# spark-shell 実行
spark-shell
# => シェルを終了するときは「:q」を入力

scala> sc <<★入力
res0: org.apache.spark.SparkContext = org.apache.spark.SparkContext@7ccf845a

scala> val result=sc.parallelize(List("hello","world","hi","bye")) <<★入力
result: org.apache.spark.rdd.RDD[String] = ParallelCollectionRDD[1] at parallelize at <console>:23

scala> result.take(2).foreach(println) <<★入力
hello
world

https://www.atmarkit.co.jp/ait/articles/1809/10/news022.html

参考文献

https://qiita.com/tutttuwi/items/a570940c2b42069c5ddd
https://codezine.jp/article/detail/9347
https://qiita.com/tomotagwork/items/1431f692387242f4a636
https://qiita.com/ryo_naka/items/97ea6c8b63368fae1046

Spark/Scalaの開発環境構築～ Windows編～
https://dk521123.hatenablog.com/entry/2023/03/20/115450
分散処理フレームワーク
https://dk521123.hatenablog.com/entry/2019/09/13/212325
Apache Spark ～入門編～
https://dk521123.hatenablog.com/entry/2019/09/14/123206
Apache Spark ～環境設定 / Linux編～
https://dk521123.hatenablog.com/entry/2019/11/01/000000
Apache Hadoop ～環境設定 / Windows編～
https://dk521123.hatenablog.com/entry/2019/12/26/223506
PySpark ～環境構築編～
https://dk521123.hatenablog.com/entry/2019/11/14/221126
PySpark 環境構築時のトラブルシューティング
https://dk521123.hatenablog.com/entry/2021/03/30/000000

プログラムの超個人的なメモ

Memo for Programming.

【Spark】Apache Spark ～環境設定 / Windows編～

■ はじめに

目次

【１】構築環境

【２】構築手順

１）JDKの設定

２）Sparkの設定

３）環境変数の設定

４）winutils.exeの設定

５）構築確認

参考文献

関連記事