■ はじめに
https://dk521123.hatenablog.com/entry/2019/09/15/100727
https://dk521123.hatenablog.com/entry/2022/05/01/000000
の続き。 今回は、MapReduce についてメモ。
目次
【1】MapReduce 【2】MapReduce の構成 1)Map(出力) 2)Shuffle(並べ替え) 3)Reduce(集計)
【1】MapReduce
* HDFSから取り出したデータを、複数マシンに分散させ、並列処理させる仕組み
【2】MapReduce の構成
* MapReduce は、大きく分けて 以下の3段階に分けられる 1)Map(出力) 2)Shuffle(並べ替え) 3)Reduce(集計)
1)Map
* 断片化された DataNode に散在しているデータを 読み込んで、集計したいデータを出力する
主な処理
1) 不要な情報を取り除く 2) 値を別の形式に変換する
2)Shuffle
* 集計しやすいようにデータを並べ替える
3)Reduce
* 複数の DataNode から集められたデータを 取りまとめて最終的な集計を行う
主な処理
1) データの集計
関連記事
Hadoop ~ 入門編 ~
https://dk521123.hatenablog.com/entry/2019/09/15/100727
Hadoop ~ 基本編 / HDFS ~
https://dk521123.hatenablog.com/entry/2022/05/01/000000