【Spark】Apache Spark ~ 環境設定 / Windows編 ~

■ はじめに

https://dk521123.hatenablog.com/entry/2019/09/14/123206

の続き。

今回は、とりあえず、気軽に、Apache Spark を動かしてみたいので
Windows 上で環境設定を行う

なお、Linuxでの設定は、以下の関連記事を参照。

Apache Spark ~ 環境設定 / Linux編 ~
https://dk521123.hatenablog.com/entry/2019/11/01/000000

【2023/03/20追記】
Spark3.3.0での構築は、以下を参照。

Spark/Scalaの開発環境構築 ~ Windows編 ~
https://dk521123.hatenablog.com/entry/2023/03/20/115450

目次

【1】構築環境
【2】構築手順
 1)JDKの設定
 2)Sparkの設定
 3)環境変数の設定
 4)winutils.exeの設定
 5)構築確認

【1】構築環境

* OS : Windows 10
* Apache Spark : v2.4.4
* Java : JDK v13.0.0.0

【2】構築手順

1)JDKの設定

* 環境変数「JAVA_HOME」も設定しておくこと ★重要★
* JDK をダウンロードし、インストールしておく
(今回は「jdk-13_windows-x64_bin.exe」)

https://www.oracle.com/technetwork/java/javase/downloads/index.html

2)Sparkの設定

Apache Spark をダウンロードし、任意の場所に解凍する
(tarファイルの解凍は「※補足:Windows での tar の解凍について」を参照)
(今回は「spark-2.4.4-bin-hadoop2.7.tgz」)

https://spark.apache.org/downloads.html
https://archive.apache.org/dist/spark/

※補足:Windows での tar の解凍について

Windows 10 の場合は、tarコマンドが備わっている。
(Windows 10未満の場合なら7Zipなどで解凍)

# 確認のためにヘルプを表示
tar --help

# 解凍
tar -zxvf spark-2.4.4-bin-hadoop2.7.tgz

3)環境変数の設定

* もし、「JAVA_HOME」をJDKの時に設定していない場合は
 設定しておくこと ★重要★

[1] SPARK_HOME : Sparkインストール先

* C:\work\spark-2.4.4-bin-hadoop2.7

[2] HADOOP_HOME : Sparkインストール先

★重要★
* C:\work\spark-2.4.4-bin-hadoop2.7 or %SPARK_HOME%

[3] Path

* C:\Program Files\Java\jdk-13\bin; C:\work\spark-2.4.7-bin-hadoop2.7\bin

4)winutils.exeの設定

winutils.exe をダウンロードして、%SPARK_HOME%\bin配下に置く

https://github.com/steveloughran/winutils
https://github.com/steveloughran/winutils/blob/master/hadoop-3.0.0/bin/winutils.exe

5)構築確認

# まずは、バージョン確認
spark-shell --version

# spark-shell 実行
spark-shell
# => シェルを終了するときは「:q」を入力

scala> sc <<★入力
res0: org.apache.spark.SparkContext = org.apache.spark.SparkContext@7ccf845a

scala> val result=sc.parallelize(List("hello","world","hi","bye")) <<★入力
result: org.apache.spark.rdd.RDD[String] = ParallelCollectionRDD[1] at parallelize at <console>:23

scala> result.take(2).foreach(println) <<★入力
hello
world

https://www.atmarkit.co.jp/ait/articles/1809/10/news022.html

参考文献

https://qiita.com/tutttuwi/items/a570940c2b42069c5ddd
https://codezine.jp/article/detail/9347
https://qiita.com/tomotagwork/items/1431f692387242f4a636
https://qiita.com/ryo_naka/items/97ea6c8b63368fae1046

関連記事

Spark/Scalaの開発環境構築 ~ Windows編 ~
https://dk521123.hatenablog.com/entry/2023/03/20/115450
分散処理フレームワーク
https://dk521123.hatenablog.com/entry/2019/09/13/212325
Apache Spark ~ 入門編 ~
https://dk521123.hatenablog.com/entry/2019/09/14/123206
Apache Spark ~ 環境設定 / Linux編 ~
https://dk521123.hatenablog.com/entry/2019/11/01/000000
Apache Hadoop ~ 環境設定 / Windows編 ~
https://dk521123.hatenablog.com/entry/2019/12/26/223506
PySpark ~ 環境構築編 ~
https://dk521123.hatenablog.com/entry/2019/11/14/221126
PySpark 環境構築時のトラブルシューティング
https://dk521123.hatenablog.com/entry/2021/03/30/000000