■ はじめに
次のプロジェクトで、ビッグデータを扱う仕事になりそうで、 Hadoop とか Spark とか Hive とかってキーワードがでてきたので 足掛かりに「分散処理フレームワーク」を調べてみる
目次
【1】分散処理 (Distributed Processing) とは? 【2】分散処理フレームワーク 1)Apache Hadoop 2)Apache Spark 【3】MapReduce
【1】分散処理 (Distributed Processing) とは?
* 処理速度の向上と負荷軽減のために、 複数のコンピュータで分散して処理すること
【2】分散処理フレームワーク
1)Apache Hadoop 2)Apache Spark
- | Hadoop | Spark |
---|---|---|
プログラム言語 | Java | Scala |
対応OS | Linux | Windows MacOS Linux |
初リリース日 | 2011/12/10 | 2012/10/15 |
1)Apache Hadoop
* メモリに乗り切る以上の大きいデータを処理する場合
2)Apache Spark
* リアルタイムの高速処理を行う場合
【3】MapReduce
* 複数マシンで効率的にデータ処理を行う仕組み
参考文献
https://data.wingarc.com/hadoop_spark-20912/2
https://www.atmarkit.co.jp/ait/articles/1608/24/news014.html#02
関連記事
Apache Hadoop
Hadoop ~ 入門編 ~
https://dk521123.hatenablog.com/entry/2019/09/15/100727
Apache Spark
Apache Spark ~ 入門編 ~ https://dk521123.hatenablog.com/entry/2019/09/14/123206