2021-06-01から1ヶ月間の記事一覧

【Hive】Hive / HiveQL ~ コメント文 ~

■ はじめに Hiveで実行した際に、コメント文でエラーになった。 詳細は、以下の「【3】補足:コメント文に関するトラブルについて」で扱うが その際に色々と調べたので、記録しておく。 目次 【1】Hive のコメント文 【2】使用上の注意 1)コメント「/*…

【Hive】Hive / HiveQL ~ Hiveの変数 ~

■ はじめに hive の変数 hiveconf について扱ったのでまとめておく。 目次 【0】公式ドキュメント 【1】Hiveの変数の種類 1)hivevar 2)hiveconf 3)env 4)system 【2】指定の仕方 1)コマンドラインからの指定 2)ファイル内での指定 【3】デバ…

【Hadoop】Hadoop ~ 設定プロパティ ~

■ はじめに https://dk521123.hatenablog.com/entry/2020/09/19/152136 の続き。 今回は、Apache Hadoop に関する設定プロパティについて メモしておく。 目次 【1】mapreduce.{map|reduce} 1)mapreduce.{map|reduce}.memory.md 2)mapreduce.{map|reduc…

【Hive】Hive / HiveQL ~ HiveQL関数 / NULL関連編 ~

■ はじめに https://dk521123.hatenablog.com/entry/2020/03/10/224640 https://dk521123.hatenablog.com/entry/2021/06/18/184713 https://dk521123.hatenablog.com/entry/2021/06/21/231033 の続き。 COALESCEを使っている処理があったので、 COALESCE や …

【Hive】Hive / HiveQL ~ HiveQL関数・文字列関数編 ~

■ はじめに https://dk521123.hatenablog.com/entry/2020/03/10/224640 https://dk521123.hatenablog.com/entry/2021/06/18/184713 の続き。 今回は、文字列操作する際の関数群をまとめておく。 目次 【0】API仕様 【1】lower() / lcase() 【2】upper() /…

【Hive】Hive / HiveQL ~ CASE文 ~

■ はじめに https://dk521123.hatenablog.com/entry/2021/06/18/184713 で、CASE文を使った際に、 構文エラーになった (ただ単に「end」が抜けていた) ので hive の CASE文について、整理しておく。 目次 【1】CASE文 - CASE statements 【2】構文 1)単…

【Hive】Hive / HiveQL ~ HiveQL関数・regexp_replace編 ~

■ はじめに https://dk521123.hatenablog.com/entry/2020/03/10/224640 の続き。 長いHQLを実行した際にエラーになったので、 その長いHQLのサブクエリを単独で実行してどこに原因があるかを 調査していた。 その際、regexp_replace を使っていたので、メモ…

【トラブル】【AWS】EMR / DBアクセス に関するトラブルシューティング

■ はじめに Amazon EMR 上で エラー「Error encountered near token 'TOK_TMP_FILE'」や エラー「NoRouteToHostException: No route to host」が発生した。 その際の調査方法や解決案などを記しておく。 目次 【1】発生現象 / エラー内容 1)Create table …

【Hive】Hive / HiveQL ~ JOIN文 ~

■ はじめに https://dk521123.hatenablog.com/entry/2021/06/12/093046 に関して、細かく調査したら、JOIN の ON がないので、 交差結合(CROSS JOIN, Cartesian product)になり エラーが起きてたのが分かった。 そこで、今回は JOIN文について、改めて纏め…

【トラブル】【Hive】エラー「SemanticException Cartesian products are disabled for safety reasons」が発生する

■ はじめに https://dk521123.hatenablog.com/entry/2020/05/28/175428 https://dk521123.hatenablog.com/entry/2020/11/20/174039 の続き。 今回は、別環境で動いているHQLを実行したら エラーになった際のトラブルシュートをメモする。 目次 【1】概要 【…

【AWS】AWS Glue ~ Boto3 / DB・テーブル操作編 ~

AWS

■ はじめに https://dk521123.hatenablog.com/entry/2021/06/09/113458 の続き。 今回は、Glue で使用するテーブル情報取得および作成について扱う。 (本当は、テーブル操作までにするつもりだったが) 「【2】テーブル作成」の際に「EntityNotFoundExcept…

【AWS】AWS Glue ~ Boto3 / パーティション操作編 ~

AWS

■ はじめに https://dk521123.hatenablog.com/entry/2021/05/28/142153 のAWS Management Console画面において、 パーティションを個別で削除しようと思ったが、 画面からは削除できなかったため、 代わりに、Boto3のAPIを使って、削除した。 (ちなみに、パ…

【AWS】EventBridge ~ 基礎知識編 ~

AWS

■ はじめに Amazon EventBridge に関して扱うかもしれないので どんなサービスなのかを調べてみた。 目次 【1】EventBridge とは? 【2】EventBridge の 利点 【3】Amazon Cloud Watch Eventsとの違い 【4】AWS サービスからのイベント 【1】EventBridg…

【Python】Python ~ 基本編 / 先頭・末尾の文字列除去 ~

■ はじめに https://dk521123.hatenablog.com/entry/2019/10/12/075251 の続き。 Python は使いやすい言語だと思うが、いけていない点がある。 今回は、その中の一部で「先頭・末尾の文字列除去」について扱う (例えば、http://xxxx/xxxxって際に「xxxx/xxx…

【AWS】Amazon SNS ~ 入門編 ~

AWS

■ はじめに https://dk521123.hatenablog.com/entry/2017/04/28/234103 の続き。 AWS EMRで失敗した際のイベント通知方法を調べていたら、 以下のサイトが見つかり、そこに 「Amazon Simple Notification Service (Amazon SNS)」と あったので、どんなサービ…

【分散処理】PySpark ~ CSV / Null・空文字・異常値の扱い ~

■ はじめに https://dk521123.hatenablog.com/entry/2021/04/29/075903 の続き。 今回は、Null および 空文字 について、扱う。 調べてみると、読み込み時において、 それ以外の異常値(e.g. non-number)についても 指定できるらしいので、それらについても…