【分散処理】Apache Spark ~ 環境設定 / Windows編 ~

■ はじめに

https://dk521123.hatenablog.com/entry/2019/09/14/123206

の続き。

今回は、とりあえず、気軽に、Apache Spark を動かしてみたいので
Windows 上で環境設定を行う

なお、Linuxでの設定は、以下の関連記事を参照。

Apache Spark ~ 環境設定 / Linux編 ~
https://dk521123.hatenablog.com/entry/2019/11/01/000000

■ 設定環境

* OS : Windows 10
* Apache Spark : v2.4.4
* Java : JDK v13.0.0.0

■ 設定手順

【1】Javaの設定

JDK をダウンロード(今回は「jdk-13_windows-x64_bin.exe」)し、インストールしておく  

https://www.oracle.com/technetwork/java/javase/downloads/index.html
【2】Sparkの設定

Apache Spark をダウンロード(今回は「spark-2.4.4-bin-hadoop2.7.tgz」)し、任意の場所に解凍する(※)   

https://spark.apache.org/downloads.html
【3】環境変数の設定

[1] SPARK_HOME : Sparkインストール先
     (C:\work\spark-2.4.4-bin-hadoop2.7)
[2] HADOOP_HOME : Sparkインストール先 
     (C:\work\spark-2.4.4-bin-hadoop2.7 or %SPARK_HOME%) ★重要★
[3] Path : C:\Program Files\Java\jdk-13\bin; %SPARK_HOME%\bin

【4】winutils.exeの設定

winutils.exe をダウンロードして、%SPARK_HOME%\bin配下に置く

https://github.com/steveloughran/winutils/blob/master/hadoop-3.0.0/bin/winutils.exe
【5】確認

# まずは、バージョン確認
spark-shell --version

# spark-shell 実行
spark-shell
# => シェルを終了するときは「:q」を入力

https://www.atmarkit.co.jp/ait/articles/1809/10/news022.html

※ 補足:Windows での tar の解凍について

Windows 10 の場合は、tarコマンドが備わっている。
(Windows 10未満の場合なら7Zipなどで解凍)

# 確認のためにヘルプを表示
tar --help

# 解凍
tar -zxvf spark-2.4.4-bin-hadoop2.7.tgz

参考文献

https://qiita.com/tutttuwi/items/a570940c2b42069c5ddd
https://codezine.jp/article/detail/9347
https://qiita.com/tomotagwork/items/1431f692387242f4a636
https://qiita.com/ryo_naka/items/97ea6c8b63368fae1046

関連記事

分散処理フレームワーク
https://dk521123.hatenablog.com/entry/2019/09/13/212325
Apache Spark ~ 入門編 ~
https://dk521123.hatenablog.com/entry/2019/09/14/123206
Apache Spark ~ 環境設定 / Linux編 ~
https://dk521123.hatenablog.com/entry/2019/11/01/000000
Apache Hadoop ~ 環境設定 / Windows編 ~
https://dk521123.hatenablog.com/entry/2019/12/26/223506
PySpark ~ 環境構築編 ~
https://dk521123.hatenablog.com/entry/2019/11/14/221126
PySpark 環境構築時のトラブルシューティング
https://dk521123.hatenablog.com/entry/2021/03/30/000000