■ はじめに

https://dk521123.hatenablog.com/entry/2023/03/04/222610

の続き。

今回は、Snowflakeのパフォーマンスのキーとなる
「プルーニング」、「マイクロパーティション」、「スピル」
について扱う

【１】プルーニング（Pruning）
　１）どうやって確認するのか？
【２】マイクロパーティション（Micro-partition）
　１）データ構造
　２）特徴
　３）利点
　４）クラスタリングの深さとの関係
　５）クラスタリングの深さの確認方法
【３】スピル（Spill）
　１）スピル対策

【１】プルーニング（Pruning）

https://docs.snowflake.com/ja/user-guide/tables-clustering-micropartitions#query-pruning

* クエリ実行時に、不要とわかっているパーティションを読みに行かない
 => ストレージIOを減らし、パフォーマンスを向上してくれる
 => プルーニングが出来れば出来るほど良いことになる
 => ★この「プルーニング」がキモになる

cf. Pruning = 枝刈り、間引き、剪定（せんてい）

１）どうやって確認するのか？

　クエリプロファイルの統計欄に、
テーブル全体のパーティション数「パーティションの合計（Partitions total）」に対し、
実際にアクセスしたパーティション数
「スキャン済みパーティション（Partitions scanned）」が小さければ小さい程、
プルーニングが効果的に行われたことになる
 => 詳細は、以下の関連記事を参照のこと

Snowflakeのパフォーマンス改善～クエリプロファイル / 実行計画～
https://dk521123.hatenablog.com/entry/2023/09/12/194705

【２】マイクロパーティション（Micro-partition）

* Snowflake では、デフォルトで「マイクロパーティション」という
　ストレージ単位で自動的にデータ分割される
 => 自体は、小規模なファイル群
 => Snowflake の特徴のひとつ

https://docs.snowflake.com/ja/user-guide/tables-clustering-micropartitions#what-are-micro-partitions

１）データ構造

* まずは、公式サイトの以下の図が分かりやすいかも。
 => ただし、実際のデータ構造ではない
 => Snowflakeがマイクロパーティションで使用する
　　データクラスタリングの小規模な概念的表現としてのみ意図した図

https://docs.snowflake.com/ja/_images/tables-clustered1.png
https://docs.snowflake.com/ja/user-guide/tables-clustering-micropartitions#what-is-data-clustering

* マイクロパーティションの分割単位は、「行」
* マイクロパーティションの内部では、「列」ごとにデータがまとめて圧縮

２）特徴

* マイクロパーティション１個の容量は、圧縮ファイルで約16MB
* 列指向ストレージ
* 不変(immutable)

３）利点

https://docs.snowflake.com/ja/user-guide/tables-clustering-micropartitions#benefits-of-micro-partitioning

[1] Hiveのような従来なパーティションと違って
　Snowflake内で自動的に行われる

[2] 非常に効率的な DML および
　きめ細かいプルーニングにより、
　クエリを高速化してくれる

[3] 値の範囲内で重複する可能性があり、
　均一に小さいサイズと組み合わせて、
　スキュー（Skew；データの偏り）を防ぐ

[4] 列指向により列のみを効率的にスキャン

[5] Snowflakeは、各マイクロパーティションの列に対して
　最も効率的な圧縮アルゴリズムを自動的に決定

４）クラスタリングの深さとの関係

https://docs.snowflake.com/ja/user-guide/tables-clustering-micropartitions#clustering-depth-illustrated

平均クラスタリング深度（Clustering Average Depth）とは？

* どの程度マイクロパーティションが
　オーバーラップ（一部の範囲のみ重なる）しているかを図る指標

 => 理想的なマイクロパーティション状態としては、
　　他のマイクロパーティションとオーバーラップしていない状態が良い
 => 1以上の数値で、この値が大きいほど理想状態から離れていることになる

理想としては

[1] マイクロパーティションの重複(Overlapping micro-petitions)が少ない程
　マイクロパーティションを読む数が減る（＝プルーニングが効く）ので
　パフォーマンス向上する

[2] 重なり合うマイクロパーティションの数が減少すると、
　マイクロパーティションの重なりの深さ（Overlap depth）が現象するので
　深さが少ない程良いことになる。

５）クラスタリングの深さの確認方法

https://docs.snowflake.com/ja/sql-reference/functions/system_clustering_information

* SYSTEM$CLUSTERING_INFORMATION によって確認できる
 => 詳細は、以下の関連記事を参照のこと

https://dk521123.hatenablog.com/entry/2023/03/04/222610
構文

SYSTEM$CLUSTERING_INFORMATION( '<table_name>' [ , '( <expr1> [ , <expr2> ... ] )' ] )

【３】スピル（Spill）

Snowflake ではメモリで処理できなくなったら、
データをローカルディスクに保持し、
さらにデータが増幅して溢れると、リモートストレージに保持される
 => この「溢れる」ことを、「スピル」という
 => この「スピル」は、起これば起こる程、パフォーマンス劣化する

cf. Spill = こぼす、あふれさせる、ばらまく、

https://docs.snowflake.com/ja/user-guide/performance-query-warehouse-memory

１）スピル対策

[1] ウェアハウスのサイズを増やす

* ウェアハウスのサイズがデカければ、
　ローカルディスク容量も大きいので、スピル防止になる
 => 値段は上がるが、一時しのぎであれば、1つの手

[2] Spill が発生している操作に入力されるデータ量・行数を減らす

* 先出しできる集約を先出しする
* WHERE 句の条件を追加・変更する
* 不要なカラム・テーブルをクエリから削除する
* select * より、select [項目] でできる限り絞る
 => （DBと違い？）Snowflakeを始め、列志向型は、SELECTの項目を絞ることにより
　　メモリ消費を抑えられる
 => Tipsとして、SELECT文のEXCLUDE により除外する方法もあり
 => SELECT ... EXCLUDE については、以下の関連記事を参照のこと

Snowflake ～ SELECT ... EXCLUDE ～
https://dk521123.hatenablog.com/entry/2024/10/01/195225