■ はじめに
https://dk521123.hatenablog.com/entry/2019/09/18/214814
では、Apache Spark を Windows に設定したが 今回は、 Linux (CentOS8) で行う。
■ 環境
OS : CentOS8 Java : OpenJDK 1.8.0 232 Apache Spark : spark v2.4.4
■ 手順
【1】Java を設定 【2】Apache Sparkの設定 【3】環境変数の追加 【4】確認
【1】Java を設定
sudo yum install java-1.8.0-openjdk -y sudo yum install java-1.8.0-openjdk-devel -y
【2】Apache Sparkの設定
[1] Apache Sparkをダウンロードする
以下のサイトからApache Sparkをダウンロードする (今回は「spark-2.4.4-bin-hadoop2.7.tgz」をダウンロードする)
https://spark.apache.org/downloads.html
[2] Apache Sparkをインストールする
sudo tar -zxvf spark-2.4.4-bin-hadoop2.7.tgz -C /usr/local/lib/
[3] Apache Sparkのシンボリンクを設定する
sudo ln -s /usr/local/lib/spark-2.4.4-bin-hadoop2.7 /usr/local/lib/spark
【3】環境変数の追加
[1] 2つの環境変数を追加する
sudo vi /etc/profile.d/spark.sh ~~~~ export SPARK_HOME=/usr/local/lib/spark export PATH=$SPARK_HOME/bin:$PATH ~~~~
[2] 再読み込み
source /etc/profile
【4】確認
spark-shell --version
参考文献
https://qiita.com/oic0310/items/d708639b9fe4d92b6d79
関連記事
Apache Spark ~ 環境設定 / Windows編 ~
https://dk521123.hatenablog.com/entry/2019/09/18/214814