Spark / PySpark

【トラブル】【PySpark】PySpark でエラー「Exception: It appears ...」が表示された

■ 現象 https://dk521123.hatenablog.com/entry/2020/07/09/000832 の機能を、クラス内部に組み込んだ際(詳細は後述の「修正後」を参照)に 以下「■ エラーメッセージ」が表示された ■ エラーメッセージ Exception: It appears that you are attempting to …

【分散処理】PySpark ~ エスケープされた区切り文字が含んだデータを扱う ~

■ はじめに https://dk521123.hatenablog.com/entry/2019/11/24/225534 で、PySpark で、CSVファイルを扱った。 ただ、以下のサイト「Spark 2.0 Scala - Read csv files with escaped delimiters」 https://stackoverrun.com/ja/q/10868798 のように、項目「…

【分散処理】PySpark ~ データをクリーニングする ~

■ はじめに https://dk521123.hatenablog.com/entry/2020/07/06/232350 で行った処理を、PySpackで行ってみた 目次 【1】CASE文を使って値を置き換える 【1】CASE文を使って値を置き換える from pyspark import SparkContext from pyspark.sql import Spar…

【分散処理】PySpark ~ PySpark経由でDBに接続する ~

■ はじめに PySpark経由でDB(今回は「PostgreSQL」)に接続する方法を メモっておく。 ■ 準備 JDBC 接続するので、DB の JDBC ドライバを用意しておくこと 今回は、PostgreSQLなので、以下のサイトからダウンロードした (今回は、「postgresql-42.2.14.jar」)…

【Spark】Parquet ファイル

■ はじめに 以下のサイトにある Parquet ファイル に関するメモ。 http://mogile.web.fc2.com/spark/sql-data-sources-parquet.html ■ Apache Parquet ファイル * Twitter 社で開発 * 列指向(カラムナ)フォーマット ※ 列指向型については、以下の関連記事…

【分散処理】PySpark ~ ユーザ定義関数 UDF 編 ~

■ はじめに PySpark の UDF (User Defined Function) っての学ぶ。 目次 【1】UDF とは 【2】UDF定義方法 1)udf関数から取り込む 2)デコレータを利用する方法 3)spark.udf.register() で登録する 【3】使用上の注意 【4】サンプル なお、以下の関…

【分散処理】PySpark ~ DataFrame / テーブル・項目操作編 ~

■ はじめに https://dk521123.hatenablog.com/entry/2020/01/04/150942 の続き。 今回は、PySpark でのデータフレーム(DataFrame)の データ項目を操作する方法を纏める。 目次 【1】データ項目名 1)データ項目の定義 2)データ項目名の変更 3)データ…

【分散処理】PySpark ~ Hive ~

■ はじめに https://dk521123.hatenablog.com/entry/2019/11/14/221126 https://dk521123.hatenablog.com/entry/2019/11/24/225534 https://dk521123.hatenablog.com/entry/2020/01/04/150942 の続き。 今回は、Python から Hive / HiveQL を使えるやり方を …

【分散処理】PySpark ~ DataFrame / データ操作編 ~

■ はじめに https://dk521123.hatenablog.com/entry/2019/11/14/221126 https://dk521123.hatenablog.com/entry/2019/11/24/225534 の続き。 PySpark でのデータの基本操作について、学ぶ。 目次 【0】collect(ループさせる) 【1】filter (抽出) 【2】g…

【分散処理】PySpark ~ CSV / 基本編 ~

■ はじめに https://dk521123.hatenablog.com/entry/2019/11/14/221126 https://dk521123.hatenablog.com/entry/2021/04/03/004254 の続き。 今回は、PySpark で CSV を扱う。 補足 エスケープされた区切り文字が含んだデータを扱う場合は 以下の関連記事を…

【Spark】PySpark ~ 環境構築編 ~

■ はじめに https://dk521123.hatenablog.com/entry/2019/09/18/214814 で、Windows環境でSparkを設定したが、 今回は、その続きで、PySparkの環境設定を行う 目次 【1】前提条件 【2】設定環境 【3】PySparkの設定 【4】サンプル 1)動作確認用・Hello…

【分散処理】Apache Spark ~ 環境設定 / Linux編 ~

■ はじめに https://dk521123.hatenablog.com/entry/2019/09/18/214814 では、Apache Spark を Windows に設定したが 今回は、 Linux (CentOS8) で行う。 ■ 環境 OS : CentOS8 Java : OpenJDK 1.8.0 232 Apache Spark : spark v2.4.4 ■ 手順 【1】Java を設…

【Spark】Apache Spark ~ 環境設定 / Windows編 ~

■ はじめに https://dk521123.hatenablog.com/entry/2019/09/14/123206 の続き。 今回は、とりあえず、気軽に、Apache Spark を動かしてみたいので Windows 上で環境設定を行う なお、Linuxでの設定は、以下の関連記事を参照。 Apache Spark ~ 環境設定 / L…

【Spark】Apache Spark ~ 入門編 ~

■ はじめに https://dk521123.hatenablog.com/entry/2019/09/13/212325 の続き。 Apache Spark について調べてみた 目次 【1】Apache Spark 【2】公式サイト 【3】動画 【4】環境設定 【5】関連用語 1)RDD 2)Spark SQL 3)PySpark 【1】Apache Sp…

【分散処理】分散処理フレームワーク

■ はじめに 次のプロジェクトで、ビッグデータを扱う仕事になりそうで、 Hadoop とか Spark とか Hive とかってキーワードがでてきたので 足掛かりに「分散処理フレームワーク」を調べてみる 目次 【1】分散処理 (Distributed Processing) とは? 【2】分…