■ はじめに

Apache Flink (アパッチフリンク) ってのが
話題にあがったので、調べてみた。

【０】Top Big Data frameworks in 2023
【１】Apache Flink
　０）公式サイト
　１）ライセンス
　２）最新バージョン
　３）プログラム言語
【２】その他の特徴
　１）Exactly-once（正確に1回だけ実行）
　２）他のツールとの統合
【３】他のフレームワークとの比較
　１）米Yahoo社のベンチマークテスト

【０】Top Big Data frameworks in 2023

https://jelvix.com/blog/top-5-big-data-frameworks

によると、2023年度 Top Big Data frameworks は、以下の通り。
（しかし、「Apache」ばっかだな、、、）

Rank	Big Data framework name	Link	Memo
1	Apache Hadoop	https://hadoop.apache.org/	お馴染みHadoop
2	MapReduce	https://en.wikipedia.org/wiki/MapReduce	Frameworkなのか？Hadoopのデータ処理エンジン
3	Apache Spark	https://spark.apache.org/	こちらもお馴染みSpark。Hadoop基盤のデータ処理エンジン
4	Apache Hive	https://hive.apache.org/	こちらもお馴染みHive。Hadoop 分散ファイルシステム (HDFS) に対して、SQL クエリで操作できるソフトウェア
5	Apache Storm	https://storm.apache.org/	Twitter社で開発。耐障害性に優れた高速分散ストリーム処理エンジン
6	Apache Samza	https://samza.apache.org/	LinkedIn社で開発。ストリーム処理向けの非同期処理フレームワーク
7	Apache Flink	https://samza.apache.org/	★今回のテーマ★
8	Apache Heron	https://incubator.apache.org/projects/heron.html	左記サイトより「2023-01-18 Project was retired.」
9	Apache Kudu	https://kudu.apache.org/	高いスケーラビリティを持つ分散型列指向ストレージ。大量のデータをリアルタイムに更新することに特化
10	Presto	https://prestodb.io/	Frameworkなのか？SQLクエリエンジン

【１】Apache Flink

* 分散ストリーム処理プラットフォーム
=> ストリームデータからデータを受け取り、
　　ETL処理して、別のデータストアへデータを流すことができる
=> リアルタイムで分析するのに優れたプラットフォーム
=> まずは、以下のサイトのスライドを読んでみるといいかも。

https://www.acroquest.co.jp/technical/20190114/10603

動画

* なお、英語だが、Apache Flink が学べるコースがある

https://developer.confluent.io/courses/apache-flink/intro/

０）公式サイト

https://flink.apache.org/
日本語訳
http://mogile.web.fc2.com/flink/
Github
https://github.com/apache/flink

１）ライセンス

* Apache License Version 2

２）最新バージョン

* 2023-03-01現在では「v1.16.1」が最新
 => 以下を参照

https://flink.apache.org/downloads/

３）プログラム言語

開発された言語

* Scala製

使用可能な言語

* Scala (Java)
* Python
* SQL

【２】その他の特徴

１）Exactly-once（正確に1回だけ実行）

* 各イベントが正確に一度だけ配信されることを保証する仕組み
 => システム障害がクラスター全体に影響しないように設計されている
 => 障害発生後も、前回処理した内容を保持しており、
　　その途中状態から、処理を再開することが可能

補足：At-most once / At-least once

* At-most once: 1回は実行を試みる (最大でも1回しか実行されない)

* At-least once: 少なくとも1回は実行する (複数回実行される場合もある)
 => AWS Lambda や AWS Glue は、こっち。

２）他のツールとの統合

KafkaやHadoopなどの他OSSのビッグデータ処理ツールとの統合が容易

AWSとの親和性

* EMR で動かすことが可能

https://docs.aws.amazon.com/ja_jp/emr/latest/ReleaseGuide/emr-flink.html

Amazon EMR	Flink	Remarks
emr 6.9.0	Flink 1.15.2	2023-03-01現在では「v1.16.1」が最新
emr-5.36.0	Flink 1.14.2

【４】他のフレームワークとの比較

１）米Yahoo社のベンチマークテスト

* 米Yahoo社が、Apache Flink, Spark, Stormでベンチマークテスト

https://yahooeng.tumblr.com/post/135321837876/benchmarking-streaming-computation-engines-at
https://github.com/yahoo/streaming-benchmarks

結論
https://www.infoq.com/jp/news/2016/02/yahoo-flink-spark-storm/

より抜粋
~~~~~~~~~~~~~
* Yahoo!によると，FlinkとStormの動作には類似点があり
　いずれもレイテンシが指数的に増加する場合の遅延率は99%まで
　ほぼ直線的に変化した
* ackを無効にした場合のStorm 0.11のパフォーマンスは良好でFlinkを凌駕した。
　しかしYahoo!によると
　“ackを無効にした状態ではタプルエラーの通知や処理も無効”になる
~~~~~~~~~~~~~
 => Yahooは、自分たちが採用しているStormの有効性を強調したいのだろうけど
　　“ackを無効にした状態ではタプルエラーの通知や処理も無効”じゃ実質使えないから
　　やっぱり、「Apache Flink」が優れているんじゃないか？

参考文献

https://qiita.com/takanorig/items/e9880813798f0ac5679d
https://www.ossnews.jp/oss_info/Apache_Flink
https://x1.inkenkun.com/archives/5406

プログラムの超個人的なメモ

Memo for Programming.

【Flink】Apache Flink ～基礎知識編～

■ はじめに

目次

【０】Top Big Data frameworks in 2023

【１】Apache Flink

０）公式サイト

１）ライセンス

２）最新バージョン

３）プログラム言語

【２】その他の特徴

１）Exactly-once（正確に1回だけ実行）

２）他のツールとの統合

【４】他のフレームワークとの比較

１）米Yahoo社のベンチマークテスト

参考文献

関連記事