2021-04-01から1ヶ月間の記事一覧

【分散処理】PySpark ~ CSV / White Spaceの扱い ~

■ はじめに https://dk521123.hatenablog.com/entry/2019/11/24/225534 https://dk521123.hatenablog.com/entry/2020/07/09/000832 https://dk521123.hatenablog.com/entry/2020/11/23/224349 https://dk521123.hatenablog.com/entry/2020/07/30/195226 の続…

【AWS】AWS Data Wrangler ~ 入門編 ~

AWS

■ はじめに AWS Data Wrangler ってのがあるようなので調べてみた。 目次 【1】AWS Data Wrangler 0)公式ドキュメント 1)AWS Data Wranglerとは? 【2】環境設定 1)pip / conda 2)AWS Glue 3)その他AWSサービス 【1】AWS Data Wrangler 0)公…

コンピュータサイエンス(CS) ~ 修士 / Master ~

■ はじめに https://dk521123.hatenablog.com/entry/2021/02/28/000000 の続き。 今回は、コンピュータサイエンス (Computer Science; CS) の 大学院 (Master) 編。 目次 【1】個人的な条件 【2】調べた際に分からなかった英単語 【3】ジョージア工科大学…

【分散処理】PySpark ~ DataFrame / show() ~

■ はじめに https://dk521123.hatenablog.com/entry/2020/01/04/150942 https://dk521123.hatenablog.com/entry/2020/05/18/154829 https://dk521123.hatenablog.com/entry/2020/07/02/000000 の続き。 調査する際に PySpark の DataFrame の show()などを使…

【Batch】バッチで簡易テストデータを作ることを考える

■ はじめに バッチでテストデータ(今回は、CSVファイル)を作ることを考える はじめは、コピーして保存し実行すれば、 簡単なテストデータができればいいなーっと思ったが ちょっとだけ凝ったもの 例えば、ランダムで文字列データ生成や指定サイズでデータ…

【AWS】AWS Glue ~ CloudWatch Metrics ~

AWS

■ はじめに AWS Glue の CloudWatch Metrics(メトリクス) について、 徐々にメモする。 目次 【1】公式ドキュメント 【2】関連用語 1)ステージ(Stages) 2)タスク(Tasks) 3)ドライバ(Driver) 4)エグゼキュタ(Executors) 【3】メトリクスの…

【トラブル】PySpark でエラー「Total size ... is bigger than spark.driver.maxResultSize」が発生する

■ はじめに 大きいファイルサイズのデータを扱った際に エラー「Total size ... is bigger than spark.driver.maxResultSize」 が発生したので、調べてみた。 => 凄く勉強になった、、、 なお、余談だが 大きいテキストファイルを扱った際の調査に、以下のコ…

【AWS】AWS Glue ~ Boto3 / 基本編 ~

AWS

■ はじめに https://dk521123.hatenablog.com/entry/2019/10/14/000000 の続き。長くなったので、分冊。 今回は、boto3 API を使って、 PythonでGlueのコンポーネント(Workflow/Job/Trigger ※)を デプロイする簡単なサンプルの実装および 環境周りなどの注…

【AWS】AWS Glue ~ Boto3 / クローラ編 ~

AWS

■ はじめに https://dk521123.hatenablog.com/entry/2019/10/14/000000 https://dk521123.hatenablog.com/entry/2021/04/17/001930 の続き。 boto3 を使ったクローラ作成時に結構エラーが出たので、 備忘録的にメモしておく。 目次 【1】各設定値について …

【PySpark】PySparkで入力ファイル名を取得するには

■ はじめに https://dk521123.hatenablog.com/entry/2020/11/16/162114 の PySpark版。 小ネタだが、ファイル名のみを取得する場合(以下の 「【2】入力ファイルのみを取得するには」の「方法1:UDFで行う」)、 前に扱った UDF (User Defined Function)の…

【分散処理】PySpark ~ Parquet / 基本編 ~

■ はじめに PySpark で、Parquet フォーマットで 保存する必要ができたので調べてみた Parquet ファイルに関しては、以下の関連記事を参照のこと。 Parquet ファイル https://dk521123.hatenablog.com/entry/2020/06/03/000000 目次 【1】サポートされてい…

【Python】 Pandas ~ to_xxxx / 出力編 ~

■ はじめに https://dk521123.hatenablog.com/entry/2019/10/22/014957 https://dk521123.hatenablog.com/entry/2020/10/14/000000 https://dk521123.hatenablog.com/entry/2021/04/07/105858 の続き。 to_dict / to_json などを使用したのだが、 他にも色々…

【Python】 Pandas ~ データ集計編 ~

■ はじめに https://dk521123.hatenablog.com/entry/2019/10/22/014957 https://dk521123.hatenablog.com/entry/2020/10/14/000000 の続き。 Pandas のデータフレームでちょっとした集計する実装にも かなり便利なので、メモする 目次 【1】データ集計 【2…

【分散処理】PySpark ~ RDD / あれこれ編 ~

■ はじめに https://dk521123.hatenablog.com/entry/2019/11/14/221126 https://dk521123.hatenablog.com/entry/2021/04/03/004254 https://dk521123.hatenablog.com/entry/2021/04/04/111057 の続き。 RDD(Resilient Distributed Dataset)について、 ちょ…

【Python】単体試験 / unittest ~ mock編 ~

■ はじめに https://dk521123.hatenablog.com/entry/2019/10/02/223658 https://dk521123.hatenablog.com/entry/2021/03/31/000000 の続き。 今回は、unittest の Mock を使ってみる。 これで、ほとんど標準で単体試験ができる。 目次 【1】unittest.mock …

【分散処理】PySpark ~ RDD / 基本編 ~

■ はじめに https://dk521123.hatenablog.com/entry/2019/11/14/221126 https://dk521123.hatenablog.com/entry/2021/04/03/004254 の続き。 RDD(Resilient Distributed Dataset)をもう少し深堀する。 目次 【1】RDDの生成 1)parallelize 2)textFile …

【分散処理】PySpark ~ 入門編 ~

■ はじめに https://dk521123.hatenablog.com/entry/2019/11/14/221126 の続き。 PySpark を使って、データ処理をすることになったので、メモする。 目次 【1】関連用語 1)RDD(Resilient Distributed Dataset) 2)DataFrame 【2】サンプル 例1:テキ…

【Python】 Python ~ 基本編 / 集合 Set ~

■ はじめに https://dk521123.hatenablog.com/entry/2019/10/12/084943 https://dk521123.hatenablog.com/entry/2020/11/01/000000 https://dk521123.hatenablog.com/entry/2019/10/27/100014 https://dk521123.hatenablog.com/entry/2020/10/11/000000 の続…

【Linux】Cron に関する使用上の注意

■ はじめに https://dk521123.hatenablog.com/entry/2019/11/29/221207 で、開始トリガーとして、Cron式を使っているのだが、 意図したタイミングでならないことが起こるので 使用する上での注意点を纏める 目次 【1】X日ごとに実行する際の注意点 【X】そ…