■ はじめに

の続き。

今回は、MapReduce についてメモ。

【１】MapReduce

* HDFSから取り出したデータを、複数マシンに分散させ、並列処理させる仕組み

* MapReduce は、大きく分けて 以下の3段階に分けられる  

１）Map(出力)
２）Shuffle(並べ替え)
３）Reduce(集計)

* 断片化された DataNode に散在しているデータを
　読み込んで、集計したいデータを出力する

主な処理

1) 不要な情報を取り除く
2) 値を別の形式に変換する

* 集計しやすいようにデータを並べ替える

* 複数の DataNode から集められたデータを
　取りまとめて最終的な集計を行う

主な処理

1) データの集計

Hadoop ～入門編～
https://dk521123.hatenablog.com/entry/2019/09/15/100727
Hadoop ～基本編 / HDFS ～
https://dk521123.hatenablog.com/entry/2022/05/01/000000