■ はじめに
以下のサイトにある Parquet ファイル に関するメモ。
http://mogile.web.fc2.com/spark/sql-data-sources-parquet.html
■ Apache Parquet ファイル
* Twitter 社で開発 * 列指向(カラムナ)フォーマット ※ 列指向型については、以下の関連記事を参照のこと
https://dk521123.hatenablog.com/entry/2011/02/16/205224
■ Parquet ファイルを開くには
Parquet ファイルは、テキストじゃないので、 簡単に確認できなかった。
AWS 上で開く
以下のサイトによると、 AWS・S3上であれば、簡単に確認できるらしいので 試してみた。
https://qiita.com/pioho07/items/402a3620898e95b6a03d
https://www.cloudnotes.tech/entry/s3-select
簡易手順
[1] S3のAWS管理コンソール画面で、対象ファイルを選択する [2] [Select from]を選択 [3] 「File format : Parquet」を選択し、「Show file preview」ボタン押下 ⇒ ファイル内容を確認できる(ただし、デフォルトは5つのみ表示) [4] 「Next」ボタン押下し、SQL editorを編集(今回は「select * from s3object s limit 1000」) [5] 「Run SQL」ボタン押下 ⇒ 結果が表示される
関連記事
NoSQL(Not Only SQL) ~概要~
https://dk521123.hatenablog.com/entry/2011/02/16/205224
Python ~ Parquet ~
https://dk521123.hatenablog.com/entry/2021/11/13/095519
Pandas ~ Parquet ~
https://dk521123.hatenablog.com/entry/2024/09/06/004125