【Spark】Spark ～ FutureAction ～

Spark / PySpark Scala

■ はじめに Spark の FutureAction について、業務上でてきたので、調べてみた。あんまり情報がないので、随時更新していく、、、目次【１】FutureAction に関する記述【２】サンプル【１】FutureAction に関する記述 http://mogile.web.fc2.com/spark/…

2023-03-25

【Docker】Docker compose ～ LocalStack/Glue4.0 ～

AWS Docker Spark / PySpark Scala

■ はじめに Spark/Scalaの開発環境構築～ Windows編～ https://dk521123.hatenablog.com/entry/2023/03/20/115450 で、『本当は、Dockerで一発でばーんって作りたい、、、』って言ったのだが、それを実践してみた以前やった https://dk521123.hatenablog…

2023-03-20

【Scala】Spark/Scalaの開発環境構築～ Windows編～

Scala Spark / PySpark

■ はじめに https://dk521123.hatenablog.com/entry/2019/09/18/214814 で、Windows で Spark の実行環境を構築した。で、最近、AWS Glue4.0になり、Sparkのバージョンもv3.3.0になりかつ、今の仕事で、Scalaを使うことになった。そこで、今回は、「Windo…

2023-03-19

【Snowflake】SparkからSnowflakeへの接続について考える

Snowflake Spark / PySpark

■ はじめに AWS Glue（Spark）から Snowflake へ接続する必要がでてきたので方法について、調べてみた目次【０】単純にSQLを実行する【１】Sparkコネクタ【２】全体構成【３】転送モード１）内部転送２）外部転送【４】Snowflakeコネクタの設定１…

2022-02-14

【分散処理】PySpark ～ _corrupt_record ～

Spark / PySpark

■ はじめに https://dk521123.hatenablog.com/entry/2021/06/01/142457 の続き。 PySpark で「columnNameOfCorruptRecord」とか「_corrupt_record」などでてきたので、調べてみた。目次【１】Corrupt Record １）何ができる？２）使用用途【２】使用方…

2022-02-04

【分散処理】PySpark ～ CSV / MultiLine対応～

Spark / PySpark

■ はじめに https://dk521123.hatenablog.com/entry/2019/11/24/225534 https://dk521123.hatenablog.com/entry/2020/07/30/195226 の続き。今回は、PySparkにおいて、 CSVなどで改行が入った時の複数行（MultiLine）の対応について触れたので、メモしてお…

2021-07-07

【分散処理】PySpark ～パーティション単位で上書きするには～

Spark / PySpark

■ はじめに https://dk521123.hatenablog.com/entry/2021/07/06/120134 で、パーティション付のテーブルにアクセスした際に実ファイルがなくなっていた現象が発生していた。この現象のそもそも原因が、ファイルを書きだすときのモード mode = overwrite …

2021-06-01

【分散処理】PySpark ～ CSV / Null・空文字・異常値の扱い～

Spark / PySpark

■ はじめに https://dk521123.hatenablog.com/entry/2021/04/29/075903 の続き。今回は、Null および空文字について、扱う。調べてみると、読み込み時において、それ以外の異常値（e.g. non-number）についても指定できるらしいので、それらについても…

2021-05-27

【分散処理】PySpark ～ UDFの各定義方法でのサンプル～

Spark / PySpark

■ はじめに https://dk521123.hatenablog.com/entry/2020/05/20/195621 で、PySpark の UDF (User Defined Function) 定義方法について、扱ったが Udacity（ユダシティ）の Freeコース「Spark」で別の方法を取り扱っていた。 https://www.udacity.com/cour…

2021-05-25

【分散処理】PySpark ～ DataFrame / データ集計編～

Spark / PySpark

■ はじめに https://dk521123.hatenablog.com/entry/2020/01/04/150942 の続き。今回は、テーブルデータの集計に関して扱う。目次【０】agg (集計) 【１】min/max (最小/最大) 【２】count (カウント) 【３】countDistinct (重複カウント) 他にも、sum (…

2021-05-24

【分散処理】PySpark ～ DB・テーブル・項目取得編～

Spark / PySpark

■ はじめに https://dk521123.hatenablog.com/entry/2020/01/04/150942 https://dk521123.hatenablog.com/entry/2020/05/18/154829 https://dk521123.hatenablog.com/entry/2020/08/28/183706 の続き。今回は、テーブルデータを集計するにあたり、テーブル…

2021-05-21

【分散処理】PySpark ～出力ファイル / 空ファイル対応, 1ファイルに纏める～

Spark / PySpark

■ はじめに PySpark でファイルを出力した際に、サイズが0Byteの空ファイルが出力されたので対応について調べてみた。ついでに、ファイルを1つにまとめることも載せておく。目次【１】対応方法【２】出力ファイルが空ファイルになる１）出力される原…

2021-05-20

【分散処理】PySpark ～ UDF の使用上の注意～

Spark / PySpark

■ はじめに https://dk521123.hatenablog.com/entry/2020/05/20/195621 の続き。 PySpark の UDF (User Defined Function) でミスった点や注意点などをあげておく。目次【１】メモリ消費について【２】デコレータによる実装方法に関する注意点【３】引…

2021-05-19

【分散処理】PySpark ～ RDD <=> DataFrame の相互変換～

Spark / PySpark

■ はじめに https://dk521123.hatenablog.com/entry/2021/04/06/001709 より分冊および追記。 RDD <=> DataFrame の相互変換について扱う。目次【１】RDD => DataFrame １）createDataFrame() ２）spark.read.csv() 補足：TSVなど区切り文字を変更して変更…

2021-05-18

【トラブル】AWS Glue上で saveAsTextFile() を使ったらエラー「DirectOutputCommitter not found」が発生する

Spark / PySpark AWS トラブル

■ はじめに AWS Glue 上で RDD.saveAsTextFile() を使ったらエラー「DirectOutputCommitter not found」が発生したのでその際のトラブルシュートをメモする。目次【１】エラー内容【２】発生したコード（一部）【３】解決案案１：DirectFileOutputCom…

2021-05-17

【トラブル】AWS Glue上でエラー「Dynamic partition strict mode requires ...」が発生する

Spark / PySpark AWS トラブル

■ はじめに https://dk521123.hatenablog.com/entry/2021/05/15/130604 を調査している際に、以下「参考サイト」で『GlueのSparkバージョンが2.3.0になれば』って記載されていた。で、以下のAWS Glue の公式サイト https://docs.aws.amazon.com/ja_jp/glue…

2021-05-13

【分散処理】PySpark ～パーティション～

Spark / PySpark

■ はじめに PySpark に関して、パーティション (Partition) 付きでファイル出力があったのでそのことを含めて、パーティションにまつわるTipsをまとめておく cf. Partition = 仕切り壁、分割、分配目次【１】パーティションの基本操作１）現在のパーテ…

2021-05-12

【分散処理】PySpark で出力ファイル名を変更する

Spark / PySpark

■ はじめに PySpark でファイルを出力した場合出力先パスは指定できるが、ファイル名は勝手に決められる。このファイル名を変更するやり方を調べてみた。目次【１】PySpark でのリネーム方法【２】サンプル【３】補足１：拡張子 CRCファイルについ…

2021-04-29

【分散処理】PySpark ～ CSV / White Spaceの扱い～

Spark / PySpark

■ はじめに https://dk521123.hatenablog.com/entry/2019/11/24/225534 https://dk521123.hatenablog.com/entry/2020/07/09/000832 https://dk521123.hatenablog.com/entry/2020/11/23/224349 https://dk521123.hatenablog.com/entry/2020/07/30/195226 の続…

2021-04-26

【分散処理】PySpark ～ DataFrame / show() ～

Spark / PySpark

■ はじめに https://dk521123.hatenablog.com/entry/2020/01/04/150942 https://dk521123.hatenablog.com/entry/2020/05/18/154829 https://dk521123.hatenablog.com/entry/2020/07/02/000000 の続き。調査する際に PySpark の DataFrame の show()などを使…

2021-04-22

【トラブル】PySpark でエラー「Total size ... is bigger than spark.driver.maxResultSize」が発生する

トラブル Spark / PySpark

■ はじめに大きいファイルサイズのデータを扱った際にエラー「Total size ... is bigger than spark.driver.maxResultSize」が発生したので、調べてみた。 => 凄く勉強になった、、、なお、余談だが大きいテキストファイルを扱った際の調査に、以下のコ…

2021-04-12

【PySpark】PySparkで入力ファイル名を取得するには

Spark / PySpark

■ はじめに https://dk521123.hatenablog.com/entry/2020/11/16/162114 の PySpark版。小ネタだが、ファイル名のみを取得する場合（以下の「【２】入力ファイルのみを取得するには」の「方法１：UDFで行う」）、前に扱った UDF (User Defined Function)の…

2021-04-11

【分散処理】PySpark ～ Parquet / 基本編～

Spark / PySpark

■ はじめに PySpark で、Parquet フォーマットで保存する必要ができたので調べてみた Parquet ファイルに関しては、以下の関連記事を参照のこと。 Parquet ファイル https://dk521123.hatenablog.com/entry/2020/06/03/000000 目次【１】サポートされてい…

2021-04-06

【分散処理】PySpark ～ RDD / あれこれ編～

Spark / PySpark

■ はじめに https://dk521123.hatenablog.com/entry/2019/11/14/221126 https://dk521123.hatenablog.com/entry/2021/04/03/004254 https://dk521123.hatenablog.com/entry/2021/04/04/111057 の続き。 RDD（Resilient Distributed Dataset）について、ちょ…

2021-04-04

【分散処理】PySpark ～ RDD / 基本編～

Spark / PySpark

■ はじめに https://dk521123.hatenablog.com/entry/2019/11/14/221126 https://dk521123.hatenablog.com/entry/2021/04/03/004254 の続き。 RDD（Resilient Distributed Dataset）をもう少し深堀する。目次【１】RDDの生成１）parallelize ２）textFile …

2021-04-03

【分散処理】PySpark ～入門編～

Spark / PySpark

■ はじめに https://dk521123.hatenablog.com/entry/2019/11/14/221126 の続き。 PySpark を使って、データ処理をすることになったので、メモする。目次【１】関連用語１）RDD（Resilient Distributed Dataset）２）DataFrame 【２】サンプル例１：テキ…

2021-03-30

【トラブル】PySpark 環境構築時のトラブルシューティング

トラブル Spark / PySpark

■ はじめに https://dk521123.hatenablog.com/entry/2019/09/18/214814 https://dk521123.hatenablog.com/entry/2019/11/14/221126 で、PySpark を構築した際に発生したトラブルを纏める目次【１】エラー「Py4JError: xxx does not exist in the JVM」が表…

2020-11-23

【分散処理】PySpark ～ CSV / escape ～

Spark / PySpark

■ はじめに https://dk521123.hatenablog.com/entry/2019/11/24/225534 https://dk521123.hatenablog.com/entry/2020/07/30/195226 https://dk521123.hatenablog.com/entry/2020/07/09/000832 の続き。 PandasでCSVを正しくパースされていたファイルが PySpa…

2020-08-28

【分散処理】PySpark ～ DataFrame / 項目数を取得するには～

Spark / PySpark

■ はじめに https://dk521123.hatenablog.com/entry/2020/05/18/154829 の続き。小ネタ。デフォルト項目名「_c0」などの項目を変更するのに項目数を取得したかったのでメモする目次【１】項目数を取得するには【２】サンプル例１：簡単なサンプル例…

2020-07-30

【分散処理】PySpark ～ CSV / Read/Writeのプロパティ～

Spark / PySpark

■ はじめに https://dk521123.hatenablog.com/entry/2019/11/24/225534 https://dk521123.hatenablog.com/entry/2020/07/09/000832 https://dk521123.hatenablog.com/entry/2020/11/23/224349 の続き。今回は、PySpark において、 CSV の Read/Writeのプロ…

プログラムの超個人的なメモ

Memo for Programming.

Spark / PySpark

【Spark】Spark ～ FutureAction ～

【Docker】Docker compose ～ LocalStack/Glue4.0 ～

【Scala】Spark/Scalaの開発環境構築～ Windows編～

【Snowflake】SparkからSnowflakeへの接続について考える

【分散処理】PySpark ～ _corrupt_record ～

【分散処理】PySpark ～ CSV / MultiLine対応～

【分散処理】PySpark ～パーティション単位で上書きするには～

【分散処理】PySpark ～ CSV / Null・空文字・異常値の扱い～

【分散処理】PySpark ～ UDFの各定義方法でのサンプル～

【分散処理】PySpark ～ DataFrame / データ集計編～

【分散処理】PySpark ～ DB・テーブル・項目取得編～

【分散処理】PySpark ～出力ファイル / 空ファイル対応, 1ファイルに纏める～

【分散処理】PySpark ～ UDF の使用上の注意～

【分散処理】PySpark ～ RDD <=> DataFrame の相互変換～

【トラブル】AWS Glue上で saveAsTextFile() を使ったらエラー「DirectOutputCommitter not found」が発生する

【トラブル】AWS Glue上でエラー「Dynamic partition strict mode requires ...」が発生する

【分散処理】PySpark ～パーティション～

【分散処理】PySpark で出力ファイル名を変更する

【分散処理】PySpark ～ CSV / White Spaceの扱い～

【分散処理】PySpark ～ DataFrame / show() ～

【トラブル】PySpark でエラー「Total size ... is bigger than spark.driver.maxResultSize」が発生する

【PySpark】PySparkで入力ファイル名を取得するには

【分散処理】PySpark ～ Parquet / 基本編～

【分散処理】PySpark ～ RDD / あれこれ編～

【分散処理】PySpark ～ RDD / 基本編～

【分散処理】PySpark ～入門編～

【トラブル】PySpark 環境構築時のトラブルシューティング

【分散処理】PySpark ～ CSV / escape ～

【分散処理】PySpark ～ DataFrame / 項目数を取得するには～

【分散処理】PySpark ～ CSV / Read/Writeのプロパティ～