2021-05-25から1日間の記事一覧

【分散処理】PySpark ~ DataFrame / データ集計編 ~

■ はじめに https://dk521123.hatenablog.com/entry/2020/01/04/150942 の続き。 今回は、テーブルデータの集計に関して扱う。 目次 【0】agg (集計) 【1】min/max (最小/最大) 【2】count (カウント) 【3】countDistinct (重複カウント) 他にも、sum (…