【Spark】Parquet ファイル

■ はじめに

以下のサイトにある Parquet ファイル に関するメモ。

http://mogile.web.fc2.com/spark/sql-data-sources-parquet.html

Apache Parquet ファイル

* Twitter 社で開発
* 列指向(カラムナ)フォーマット

※ 列指向型については、以下の関連記事を参照のこと

https://dk521123.hatenablog.com/entry/2011/02/16/205224

■ Parquet ファイルを開くには

Parquet ファイルは、テキストじゃないので、
簡単に確認できなかった。

AWS 上で開く

以下のサイトによると、
AWS・S3上であれば、簡単に確認できるらしいので
試してみた。

https://qiita.com/pioho07/items/402a3620898e95b6a03d
https://www.cloudnotes.tech/entry/s3-select
簡易手順

[1] S3のAWS管理コンソール画面で、対象ファイルを選択する
[2] [Select from]を選択
[3] 「File format : Parquet」を選択し、「Show file preview」ボタン押下
 ⇒ ファイル内容を確認できる(ただし、デフォルトは5つのみ表示)
[4] 「Next」ボタン押下し、SQL editorを編集(今回は「select * from s3object s limit 1000」)
[5] 「Run SQL」ボタン押下
 ⇒ 結果が表示される

関連記事

NoSQL(Not Only SQL) ~概要~
https://dk521123.hatenablog.com/entry/2011/02/16/205224
Python ~ Parquet ~
https://dk521123.hatenablog.com/entry/2021/11/13/095519
Pandas ~ Parquet ~
https://dk521123.hatenablog.com/entry/2024/09/06/004125