【Hadoop】Hadoop ~ 設定プロパティ ~

■ はじめに

https://dk521123.hatenablog.com/entry/2020/09/19/152136

の続き。

今回は、Apache Hadoop に関する設定プロパティについて
メモしておく。

目次

【1】mapreduce.{map|reduce}
 1)mapreduce.{map|reduce}.memory.md
 2)mapreduce.{map|reduce}.java.opts
【2】mapreduce.job

【1】mapreduce.{map|reduce}

1)mapreduce.{map|reduce}.memory.md

* Mapper / Reducer の 割り当てるメモリの量を設定する

mapreduce.map.memory.md

* 各 Mapper に割り当てるメモリの量

mapreduce.reduce.memory.md

* 各 Reducer に割り当てるメモリの量

設定例

set mapreduce.map.memory.md=2000;
set mapreduce.reduce.memory.md=2000;

2)mapreduce.{map|reduce}.java.opts

* Mapper / Reducer の JVM のメモリを設定する

mapreduce.map.java.opts

* 各 Mapper に割り当てるJVM のメモリ

mapreduce.reduce.java.opts

* 各 Reducer に割り当てるJVM のメモリ

設定例

set mapreduce.map.java.opts=-Xmx1500m;
set mapreduce.reduce.java.opts=-Xmx1500m;

【2】mapreduce.job

* Mapper や Reducer の最大数を指定する
* 分割の数によって MapReduce ジョブに作成される Mapper の数が決まるため、
 要求した Mapper の数よりも分割が少ないと、
 要求したよりも少ない数の Mapper を取得する場合がある

mapreduce.job.maps

* ジョブごとの Map タスクの数

mapreduce.job.reduces

* ジョブごとの Reduce タスクの数

参考文献

https://docs.microsoft.com/ja-jp/azure/storage/blobs/data-lake-storage-performance-tuning-mapreduce
https://okzk.hatenablog.com/entry/2013/03/02/005422

関連記事

Apache Hadoop ~ 入門編 ~
https://dk521123.hatenablog.com/entry/2019/09/15/100727
Hive / HiveQL ~ 設定プロパティ ~
https://dk521123.hatenablog.com/entry/2020/09/19/152136