■ はじめに
小ネタ。 今回は、Hiveクエリで入力ファイル名を取得する方法をメモする。 なお、PySparkでは、以下の関連記事を参照のこと。
https://dk521123.hatenablog.com/entry/2021/04/12/145133
■ Hiveクエリで入力ファイル名を取得するには
* INPUT__FILE__NAME から取得できる => 区切り文字「_」が2つづつ。 => フルパスで取得。
■ サンプル
SELECT INPUT__FILE__NAME AS file_name FROM sample_table;
出力結果
file_name ----------------------------------------------------- s3://your-s3-bucket/xxx/xxx/hello_world_01.csv s3://your-s3-bucket/xxx/xxx/hello_world_01.csv s3://your-s3-bucket/xxx/xxx/hello_world_01.csv s3://your-s3-bucket/xxx/xxx/hello_world_02.csv ...
参考文献
関連記事
Hive / HiveQL ~ 基礎知識編 ~
https://dk521123.hatenablog.com/entry/2019/11/25/235219
Hive / HiveQL ~ 入門編 ~
https://dk521123.hatenablog.com/entry/2020/02/25/231235
Hive / HiveQL ~ 基本編 ~
https://dk521123.hatenablog.com/entry/2020/06/02/183823
PySparkで入力ファイル名を取得するには
https://dk521123.hatenablog.com/entry/2021/04/12/145133