【分散処理】Apache Spark ~ 環境設定 / Linux編 ~

■ はじめに

https://dk521123.hatenablog.com/entry/2019/09/18/214814

では、Apache Spark を Windows に設定したが
今回は、 Linux (CentOS8) で行う。

■ 環境

OS : CentOS8
Java : OpenJDK 1.8.0 232
Apache Spark : spark v2.4.4

■ 手順

【1】Java を設定
【2】Apache Sparkの設定
【3】環境変数の追加
【4】確認

【1】Java を設定

sudo yum install java-1.8.0-openjdk -y
sudo yum install java-1.8.0-openjdk-devel -y

【2】Apache Sparkの設定

[1] Apache Sparkをダウンロードする

以下のサイトからApache Sparkをダウンロードする
(今回は「spark-2.4.4-bin-hadoop2.7.tgz」をダウンロードする)

https://spark.apache.org/downloads.html

[2] Apache Sparkをインストールする

sudo tar -zxvf spark-2.4.4-bin-hadoop2.7.tgz -C /usr/local/lib/

[3] Apache Sparkのシンボリンクを設定する

sudo ln -s /usr/local/lib/spark-2.4.4-bin-hadoop2.7 /usr/local/lib/spark

【3】環境変数の追加

[1] 2つの環境変数を追加する

sudo vi /etc/profile.d/spark.sh
~~~~
export SPARK_HOME=/usr/local/lib/spark
export PATH=$SPARK_HOME/bin:$PATH
~~~~

[2] 再読み込み

source /etc/profile

【4】確認

spark-shell --version

参考文献

https://qiita.com/oic0310/items/d708639b9fe4d92b6d79

関連記事

Apache Spark ~ 環境設定 / Windows編 ~

https://dk521123.hatenablog.com/entry/2019/09/18/214814

AWS Glue ~ ローカル環境を構築する ~

https://dk521123.hatenablog.com/entry/2019/11/10/205535