2021-04-04から1日間の記事一覧

【分散処理】PySpark ~ RDD / 基本編 ~

■ はじめに https://dk521123.hatenablog.com/entry/2019/11/14/221126 https://dk521123.hatenablog.com/entry/2021/04/03/004254 の続き。 RDD(Resilient Distributed Dataset)をもう少し深堀する。 目次 【1】RDDの生成 1)parallelize 2)textFile …