2021-04-03から1日間の記事一覧

【分散処理】PySpark ~ 入門編 ~

■ はじめに https://dk521123.hatenablog.com/entry/2019/11/14/221126 の続き。 PySpark を使って、データ処理をすることになったので、メモする。 目次 【1】関連用語 1)RDD(Resilient Distributed Dataset) 2)DataFrame 【2】サンプル 例1:テキ…