【分散処理】分散処理フレームワーク

■ はじめに

次のプロジェクトで、ビッグデータを扱う仕事になりそうで、
Hadoop  とか Spark とか Hive とかってキーワードがでてきたので
足掛かりに「分散処理フレームワーク」を調べてみる

目次

【1】分散処理 (Distributed Processing) とは?
【2】分散処理フレームワーク
 1)Apache Hadoop  
 2)Apache Spark
【3】MapReduce

【1】分散処理 (Distributed Processing) とは?

*  処理速度の向上と負荷軽減のために、
 複数のコンピュータで分散して処理すること

【2】分散処理フレームワーク

1)Apache Hadoop
2)Apache Spark
- Hadoop Spark
プログラム言語 Java Scala
対応OS Linux Windows
MacOS
Linux
初リリース日 2011/12/10 2012/10/15

1)Apache Hadoop

* メモリに乗り切る以上の大きいデータを処理する場合

2)Apache Spark

* リアルタイムの高速処理を行う場合

【3】MapReduce

* 複数マシンで効率的にデータ処理を行う仕組み

参考文献

https://data.wingarc.com/hadoop_spark-20912/2
https://www.atmarkit.co.jp/ait/articles/1608/24/news014.html#02

関連記事

Apache Hadoop

Hadoop ~ 入門編 ~
https://dk521123.hatenablog.com/entry/2019/09/15/100727

Apache Spark

Apache Spark ~ 入門編 ~ https://dk521123.hatenablog.com/entry/2019/09/14/123206