【Hadoop】Hadoop ~ 基本編 / MapReduce ~

■ はじめに

https://dk521123.hatenablog.com/entry/2019/09/15/100727
https://dk521123.hatenablog.com/entry/2022/05/01/000000

の続き。

今回は、MapReduce についてメモ。

目次

【1】MapReduce
【2】MapReduce の構成
 1)Map(出力)
 2)Shuffle(並べ替え)
 3)Reduce(集計)

【1】MapReduce

* HDFSから取り出したデータを、複数マシンに分散させ、並列処理させる仕組み

【2】MapReduce の構成

* MapReduce は、大きく分けて 以下の3段階に分けられる  

1)Map(出力)
2)Shuffle(並べ替え)
3)Reduce(集計)

1)Map

* 断片化された DataNode に散在しているデータを
 読み込んで、集計したいデータを出力する

主な処理

1) 不要な情報を取り除く
2) 値を別の形式に変換する 

2)Shuffle

* 集計しやすいようにデータを並べ替える  

3)Reduce

* 複数の DataNode から集められたデータを
 取りまとめて最終的な集計を行う  

主な処理

1) データの集計

関連記事

Hadoop ~ 入門編 ~
https://dk521123.hatenablog.com/entry/2019/09/15/100727
Hadoop ~ 基本編 / HDFS
https://dk521123.hatenablog.com/entry/2022/05/01/000000