■ はじめに

では、Apache Spark を Windows に設定したが
今回は、 Linux (CentOS8) で行う。

■ 環境

OS : CentOS8
Java : OpenJDK 1.8.0 232
Apache Spark : spark v2.4.4

【１】Java を設定
【２】Apache Sparkの設定
【３】環境変数の追加
【４】確認

sudo yum install java-1.8.0-openjdk -y
sudo yum install java-1.8.0-openjdk-devel -y

[1] Apache Sparkをダウンロードする

以下のサイトからApache Sparkをダウンロードする
(今回は「spark-2.4.4-bin-hadoop2.7.tgz」をダウンロードする)

[2] Apache Sparkをインストールする

sudo tar -zxvf spark-2.4.4-bin-hadoop2.7.tgz -C /usr/local/lib/

[3] Apache Sparkのシンボリンクを設定する

sudo ln -s /usr/local/lib/spark-2.4.4-bin-hadoop2.7 /usr/local/lib/spark

[1] 2つの環境変数を追加する

sudo vi /etc/profile.d/spark.sh
~~~~
export SPARK_HOME=/usr/local/lib/spark
export PATH=$SPARK_HOME/bin:$PATH
~~~~

[2] 再読み込み

source /etc/profile

spark-shell --version