■ はじめに

Amazon Redshift について、徐々にメモっていく

【１】Amazon Redshift
【２】特徴
【３】メリット・デメリット
　１）メリット
　２）デメリット
【４】他DB・サービスとの違い
【５】Redshift の システム構成
　１）Redshiftクラスタ
　２）システム構成
【６】関連用語
　１）Redshift Spectrum

【１】Amazon Redshift

* フルマネージド型のデータウェアハウス
* 名前の由来は、「赤方偏移（せきほうへんい、英: redshift）」かららしい

※ データウェアハウス（DWH：Data WareHouse）

* 基幹系などの複数システムから、必要なデータを収集し、
   目的別に再構成した統合データベース

* データ分析や意思決定に役立てる目的で編成され作られるため、
   BI（ビジネスインテリジェンス）に位置づけられている

* 在庫、財務、小売販売システムなど、
  さまざまなソースからのデータを集めるように設計

【２】特徴

１）PostgreSQL 8.0.2 に基づいている 
２）列指向型（カラムナ）データベース　（※ 補足１ を参照）
３）超並列処理（MPP：Massively Parallel Processing）
 => 複数ノードによる分散実行を行う
　（「【５】Redshift の システム構成」を参照）
  cf massively(マッシブリー) = 大規模に、とてつもなく
４）シェアード・ナッシング（Shared Nothing; SN）（※ 補足２ を参照）
５）ゾーンマップ

※ 補足１：列指向型（カラムナ）

* 類似したデータが集まるため、高い圧縮率
* 詳細は、以下の関連記事を参照のこと

https://dk521123.hatenablog.com/entry/2011/02/16/205224

※ 補足２：シェアード・ナッシング
https://www.atmarkit.co.jp/fdb/rensai/10_dwh/02/dwh02_1.html

* DB処理を複数のノードに分散することにより
　処理性能を向上させる仕組み
 => ディスクをノードで共有しない（非共有＝シェアード・ナッシング）

補足３：ゾーンマップ

* Redshift では、ブロック単位(1ブロック=1MB)でデータを格納している
* ゾーンマップとは、このブロック内で格納されているデータの
　最小・最大地をメモリに保存する仕組み
 => この仕組みにより、検索条件に該当するかを効率的に判断し
　　読み飛ばしたりして高速化を図っている

【３】メリット・デメリット

１）メリット

DBに対するアクセス競合が発生せず、ノードを増やせば増やすほど
リニアに性能が向上する

２）デメリット

あるノードで障害が発生したとき、ほかのノードは障害が
発生したノードのディスク領域にアクセスできないため、
共有ディスク方式（シェアードエヴリシング）と比べると
耐障害性に劣るとされている

【４】他DB・サービスとの違い

* 以下の関連記事を参照のこと。

Amazon Redshift ～他DB・サービスとの違い～
https://dk521123.hatenablog.com/entry/2021/08/29/000000

【５】Redshift のシステム構成

１）Redshiftクラスタ

* Redshiftを構成する複数ノードの集まり
* Redshiftクラスタには、
　「１）リーダーノード」と「２）コンピュートノード」とある

２）システム構成

* 構成は以下で成り立っている。
~~~~~~~~~~~~~~
１）リーダーノード（Leader Node）
２）コンピュートノード（Compute Node）
３）マネージドストレージ <= 新しくできた部分
~~~~~~~~~~~~~~

* システム構成図は、以下の公式サイトを参照。

https://docs.aws.amazon.com/ja_jp/redshift/latest/dg/c_high_level_system_architecture.html

１）リーダーノード（Leader Node）

* SQL処理コードの解析や実行プラン作成
 => その後、「２）コンピュートノード」に対して実行を促す
 => 司令塔的な存在
* 各クラスタに1台のみ存在

２）コンピュートノード（Compute Node）

* 「１）リーダーノード」から指示されたクエリを処理する
 => ワーカー的な存在
* 『ノードスライス』というRedshiftが分割処理をする最小単位で
　処理を行う

３）マネージドストレージ

* Redshift 管理 S3 バケット

【６】関連用語

１）Redshift Spectrum

* S3上のデータを外部テーブルとして定義し、
　Redshift内に実データを取り込むことなく
　クエリ実行可能にする拡張サービス

https://aws.amazon.com/jp/blogs/news/amazon-redshift-spectrum-exabyte-scale-in-place-queries-of-s3-data/

参考文献

https://www.slideshare.net/AmazonWebServicesJapan/amazon-redshift-20
https://codezine.jp/article/detail/7234
https://developer.medley.jp/entry/2019/07/01/193427
https://dev.classmethod.jp/cloud/aws/cm-advent-calendar-2015-getting-started-again-aws-redshift/
Redshift のシステム構成
https://gihyo.jp/dev/serial/01/redshift/0005

プログラムの超個人的なメモ

Memo for Programming.

【AWS】Amazon Redshift ～入門編～

■ はじめに

目次

【１】Amazon Redshift

【２】特徴

【３】メリット・デメリット

１）メリット

２）デメリット

【４】他DB・サービスとの違い

【５】Redshift のシステム構成

１）Redshiftクラスタ

２）システム構成

【６】関連用語

１）Redshift Spectrum

参考文献

関連記事

■ はじめに

目次

【１】Amazon Redshift

【２】特徴

【３】メリット・デメリット

１）メリット

２）デメリット

【４】他DB・サービスとの違い

【５】Redshift の システム構成

１）Redshiftクラスタ

２）システム構成

【６】関連用語

１）Redshift Spectrum

参考文献

関連記事

【５】Redshift のシステム構成