2021-05-19から1日間の記事一覧

【分散処理】PySpark ~ RDD <=> DataFrame の相互変換 ~

■ はじめに https://dk521123.hatenablog.com/entry/2021/04/06/001709 より分冊および追記。 RDD <=> DataFrame の相互変換について扱う。 目次 【1】RDD => DataFrame 1)createDataFrame() 2)spark.read.csv() 補足:TSVなど区切り文字を変更して変更…