【分散処理】分散処理フレームワーク

■ はじめに

次のプロジェクトで、ビッグデータを扱う仕事になりそうで、
Hadoop  とか Spark とか Hive とかってキーワードがでてきたので
足掛かりに「分散処理フレームワーク」を調べてみる

■ 分散処理 (Distributed Processing) とは?

*  処理速度の向上と負荷軽減のために、
 複数のコンピュータで分散して処理すること

■ 分散処理フレームワーク

1)Apache Hadoop  
2)Apache Spark  

■ 使い分け

1)Apache Hadoop

* メモリに乗り切る以上の大きいデータを処理する場合

2)Apache Spark

* リアルタイムの高速処理を行う場合

■ 比較

- Hadoop Spark
プログラム言語 Java Scala
対応OS Linux Windows
MacOS
Linux
初リリース日 2011/12/10 2012/10/15

参考文献

https://data.wingarc.com/hadoop_spark-20912/2
https://www.atmarkit.co.jp/ait/articles/1608/24/news014.html#02

関連記事

Apache Hadoop

Hadoop ~ 入門編 ~
https://dk521123.hatenablog.com/entry/2019/09/15/100727

Apache Spark

Apache Spark ~ 入門編 ~ https://dk521123.hatenablog.com/entry/2019/09/14/123206