【Hive】Hiveクエリで入力ファイル名を取得するには

■ はじめに

小ネタ。

今回は、Hiveクエリで入力ファイル名を取得する方法をメモする。

なお、PySparkでは、以下の関連記事を参照のこと。

https://dk521123.hatenablog.com/entry/2021/04/12/145133

■ Hiveクエリで入力ファイル名を取得するには

* INPUT__FILE__NAME から取得できる
 => 区切り文字「_」が2つづつ。
 => フルパスで取得。

■ サンプル

SELECT
 INPUT__FILE__NAME AS file_name
FROM
 sample_table;

出力結果

file_name
-----------------------------------------------------
s3://your-s3-bucket/xxx/xxx/hello_world_01.csv
s3://your-s3-bucket/xxx/xxx/hello_world_01.csv
s3://your-s3-bucket/xxx/xxx/hello_world_01.csv
s3://your-s3-bucket/xxx/xxx/hello_world_02.csv
...

参考文献

https://www.it-swarm-ja.tech/ja/hadoop/hive%E3%82%AF%E3%82%A8%E3%83%AA%E5%86%85%E3%81%AE%E5%88%97%E3%81%A8%E3%81%97%E3%81%A6%E5%85%A5%E5%8A%9B%E3%83%95%E3%82%A1%E3%82%A4%E3%83%AB%E5%90%8D%E3%82%92%E5%8F%96%E5%BE%97%E3%81%99%E3%82%8B%E6%96%B9%E6%B3%95/1073402434/

関連記事

Hive / HiveQL ~ 基礎知識編 ~
https://dk521123.hatenablog.com/entry/2019/11/25/235219
Hive / HiveQL ~ 入門編 ~
https://dk521123.hatenablog.com/entry/2020/02/25/231235
Hive / HiveQL ~ 基本編 ~
https://dk521123.hatenablog.com/entry/2020/06/02/183823
PySparkで入力ファイル名を取得するには
https://dk521123.hatenablog.com/entry/2021/04/12/145133