■ はじめに
https://dk521123.hatenablog.com/entry/2019/09/14/123206
の続き。 今回は、とりあえず、気軽に、Apache Spark を動かしてみたいので Windows 上で環境設定を行う なお、Linuxでの設定は、以下の関連記事を参照。
Apache Spark ~ 環境設定 / Linux編 ~
https://dk521123.hatenablog.com/entry/2019/11/01/000000
【2023/03/20追記】 Spark3.3.0での構築は、以下を参照。
Spark/Scalaの開発環境構築 ~ Windows編 ~
https://dk521123.hatenablog.com/entry/2023/03/20/115450
目次
【1】構築環境 【2】構築手順 1)JDKの設定 2)Sparkの設定 3)環境変数の設定 4)winutils.exeの設定 5)構築確認
【1】構築環境
* OS : Windows 10 * Apache Spark : v2.4.4 * Java : JDK v13.0.0.0
【2】構築手順
1)JDKの設定
* 環境変数「JAVA_HOME」も設定しておくこと ★重要★ * JDK をダウンロードし、インストールしておく (今回は「jdk-13_windows-x64_bin.exe」)
https://www.oracle.com/technetwork/java/javase/downloads/index.html
2)Sparkの設定
Apache Spark をダウンロードし、任意の場所に解凍する (tarファイルの解凍は「※補足:Windows での tar の解凍について」を参照) (今回は「spark-2.4.4-bin-hadoop2.7.tgz」)
https://spark.apache.org/downloads.html
https://archive.apache.org/dist/spark/
※補足:Windows での tar の解凍について
Windows 10 の場合は、tarコマンドが備わっている。 (Windows 10未満の場合なら7Zipなどで解凍) # 確認のためにヘルプを表示 tar --help # 解凍 tar -zxvf spark-2.4.4-bin-hadoop2.7.tgz
3)環境変数の設定
* もし、「JAVA_HOME」をJDKの時に設定していない場合は 設定しておくこと ★重要★
[1] SPARK_HOME : Sparkインストール先
* C:\work\spark-2.4.4-bin-hadoop2.7
[2] HADOOP_HOME : Sparkインストール先
★重要★ * C:\work\spark-2.4.4-bin-hadoop2.7 or %SPARK_HOME%
[3] Path
* C:\Program Files\Java\jdk-13\bin; C:\work\spark-2.4.7-bin-hadoop2.7\bin
4)winutils.exeの設定
winutils.exe をダウンロードして、%SPARK_HOME%\bin配下に置く
https://github.com/steveloughran/winutils
https://github.com/steveloughran/winutils/blob/master/hadoop-3.0.0/bin/winutils.exe
5)構築確認
# まずは、バージョン確認 spark-shell --version # spark-shell 実行 spark-shell # => シェルを終了するときは「:q」を入力 scala> sc <<★入力 res0: org.apache.spark.SparkContext = org.apache.spark.SparkContext@7ccf845a scala> val result=sc.parallelize(List("hello","world","hi","bye")) <<★入力 result: org.apache.spark.rdd.RDD[String] = ParallelCollectionRDD[1] at parallelize at <console>:23 scala> result.take(2).foreach(println) <<★入力 hello world
https://www.atmarkit.co.jp/ait/articles/1809/10/news022.html
参考文献
https://qiita.com/tutttuwi/items/a570940c2b42069c5ddd
https://codezine.jp/article/detail/9347
https://qiita.com/tomotagwork/items/1431f692387242f4a636
https://qiita.com/ryo_naka/items/97ea6c8b63368fae1046
関連記事
Spark/Scalaの開発環境構築 ~ Windows編 ~
https://dk521123.hatenablog.com/entry/2023/03/20/115450
分散処理フレームワーク
https://dk521123.hatenablog.com/entry/2019/09/13/212325
Apache Spark ~ 入門編 ~
https://dk521123.hatenablog.com/entry/2019/09/14/123206
Apache Spark ~ 環境設定 / Linux編 ~
https://dk521123.hatenablog.com/entry/2019/11/01/000000
Apache Hadoop ~ 環境設定 / Windows編 ~
https://dk521123.hatenablog.com/entry/2019/12/26/223506
PySpark ~ 環境構築編 ~
https://dk521123.hatenablog.com/entry/2019/11/14/221126
PySpark 環境構築時のトラブルシューティング
https://dk521123.hatenablog.com/entry/2021/03/30/000000