■ はじめに

https://dk521123.hatenablog.com/entry/2020/02/25/231235
https://dk521123.hatenablog.com/entry/2020/06/02/183823

の続き。

長くなったので、テーブル作成だけで分冊。

【１】テーブル作成
　１）CREATE TABLE：内部テーブル作成
　２）CREATE EXTERNAL TABLE：外部テーブル作成
【２】Partition 機能
【３】テーブル・オプション
　１）行の区切りフォーマット
　２）ファイルフォーマットを指定
　３）ヘッダー行を飛ばす
【４】その他
　１）SHOW CREATE TABLE [テーブル名]

【１】テーブル作成

* テーブルは、以下の2種類ある
～～～～～
１）内部テーブル
２）外部テーブル
～～～～～

１）CREATE TABLE：内部テーブル作成

内部テーブルを作成する
　⇒ 実体は、HDFS（Hadoop Distributed File System）上のファイル
　⇒ /user/hive/warehouseの下に、データ置き場用のディレクトリが作られる

構文

-- テーブル作成
CREATE TABLE <テーブル名> (
  <項目名> <データ型>,
  …
)
[オプション項目] ...;
-- [LOCATION 'hdfs_path'] (e.g. LOCATION '/user/hive/warehouse')

-- あったら、作成
CREATE TABLE IF NOT EXISTS  <テーブル名> (
...

データ型

以下の公式サイトを参照。

https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Types

使用上の注意

* DROP TABLE を実行すると、データ置場のディレクトリも削除される

サンプル

-- 例１：HDFS 内にテーブルを作成
CREATE TABLE sample_table (
  id STRING,
  name STRING
)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ','
LINES TERMINATED BY '\n'
STORED AS TEXTFILE
LOCATION '/user/hive/warehouse'
;

-- 例２：SELECT文 から作成することも可能。
CREATE TABLE hello_world_clone
AS
SELECT
  *
FROM
  hello_world
;

２）CREATE EXTERNAL TABLE：外部テーブル作成

* 外部テーブル(※)を作成する
　=> ディレクトリパス（データ置場）を指定してテーブルを作成する
　=> データ自体は、外部ファイル

※ 外部ファイル について
ローカルファイルシステム又はAmazon S3上に置かれているデータファイルを
まるで内部テーブルのように扱える仕組み

https://qiita.com/holy_road_ss/items/d55f2d539bf146c2e38d
https://www.atmarkit.co.jp/ait/articles/1701/01/news022_3.html
構文

-- データ置場を指定してテーブルを作成する
CREATE EXTERNAL TABLE <テーブル名> (
  項目名 型,
  …
)
-- パスであってファイル名含むフルパスではない
LOCATION 'ディレクトリパス';

-- あったら作る
CREATE EXTERNAL TABLE IF NOT EXISTS <テーブル名>(
  …

サンプル

CREATE EXTERNAL TABLE hello (
  name STRING
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
LOCATION "s3://your-s3-buket/hello";

-- AWS 上での例
CREATE EXTERNAL TABLE person (
  id BIGINT,
  name STRING
)
PARTITIONED BY (created_date INT)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
LINES TERMINATED BY '\n'
LOCATION 's3://your-s3-buket/demo/';
-- s3://your-s3-buket/demo/created_date=20200602/xxxx.csv

使用上の注意

* LOCATION は、パスであって、ファイル名含むフルパスではない
* DROP TABLE を実行しても、データ置場のディレクトリも削除されない

【２】Partition 機能

以下の関連記事を参照のこと。

https://dk521123.hatenablog.com/entry/2020/07/16/224332

【３】テーブル・オプション

１）行の区切りフォーマット

サンプル

CREATE TABLE xxx (
  id BIGINT
)
ROW FORMAT DELIMITED
  -- 項目の区切り文字が「,」
  FIELDS TERMINATED BY ","
  -- 行の区切り文字が「\n」
  LINES TERMINATED BY '\n';

２）ファイルフォーマットを指定

サンプル

CREATE TABLE xxx (
  id BIGINT
)
-- PARQUET形式として指定
-- (列志向・カラムナフォーマット: Parquet, ORC / TEXTFILE etc)
STORED AS PARQUET
-- 圧縮形式：snappy
TBLPROPERTIES("parquet.compression"="SNAPPY")
;

https://qiita.com/yskazuma/items/db543d45d32013cfcbb9

３）ヘッダー行を飛ばす

CREATE TABLE xxx (
  id BIGINT
)
-- TBLPROPERTIES = table properties
TBLPROPERTIES ('skip.header.line.count'='1');

https://qiita.com/Takemura-T/items/5f683753063d7bc52cc9

【４】その他

１）SHOW CREATE TABLE [テーブル名]

* 既存のテーブル定義を出力してくれる

サンプル

hive> SHOW CREATE TABLE sample_table;

OK
CREATE TABLE sample_table
  id string,
 ....

プログラムの超個人的なメモ

Memo for Programming.

【Hive】Hive / HiveQL ～テーブル作成～

■ はじめに

目次

【１】テーブル作成

１）CREATE TABLE：内部テーブル作成

２）CREATE EXTERNAL TABLE：外部テーブル作成

【２】Partition 機能

【３】テーブル・オプション

１）行の区切りフォーマット

２）ファイルフォーマットを指定

３）ヘッダー行を飛ばす

【４】その他

１）SHOW CREATE TABLE [テーブル名]

関連記事