2020-05-01から1ヶ月間の記事一覧

【AWS】CodeDeploy ~ 入門編 ~

AWS

■ はじめに https://dk521123.hatenablog.com/entry/2020/01/23/231827 の続き。 AWS Code シリーズ の CodeDeploy を扱いそうなので 予習しておく 目次 【1】CodeDeploy とは? 【2】特徴 【3】対象サービス - デプロイ対象先 1)使用上の注意 【4】デ…

【トラブル】【Hive】Hive / Partition に関するトラブルシューティング

■ はじめに https://dk521123.hatenablog.com/entry/2020/05/27/175610 などで、でてきたトラブルを纏める 目次 【1】エラー「Column repeated in partitioning columns」が発生する 【2】エラー「Need to specify partition columns」が表示 ※ その他のHi…

【AWS】Amazon EMR ~ 基本編 ~

AWS

■ はじめに https://dk521123.hatenablog.com/entry/2020/02/20/230519 の続き。 Amazon EMR (Elastic MapReduce) を動かしてみたり、 基本的なことを学ぶ。 目次 【1】EMRのクラスタを起動する 【2】EMRでHIVEを実行する 【3】EMRのログ 【4】EMRの全体…

【AWS】Amazon ECR ~ 基本編 ~

AWS

■ はじめに https://dk521123.hatenablog.com/entry/2020/05/22/165711 の続き。 今回は、Amazon ECR (Elastic Container Registry) に対して 色々な操作をメモる。 目次 【1】 ECR から イメージをプルする 0)詳細手順 1)Amazon ECR レジストリに対し…

【Python】Python ~ 並行 / 並列処理 ~

■ はじめに Python の 並行 / 並列処理(※)について、学ぶ。 ※ 並列処理 について 別のCPUコアの 別のpythonプロセスで 複数の処理を同時に行う ■ Python での並列処理 https://docs.python.org/ja/3/library/concurrency.html より抜粋 ~~~~ 【1】multi…

【トラブル】【AWS】Amazon ECR でのトラブルシューティング

■ はじめに https://dk521123.hatenablog.com/entry/2020/05/22/165711 https://dk521123.hatenablog.com/entry/2020/05/26/142645 https://dk521123.hatenablog.com/entry/2020/05/23/080655 等で、起こったトラブルシューティングを纏める。 目次 【1】エ…

【AWS】CodeBuild で カスタムDockerイメージを使ってビルドする

AWS

■ はじめに https://dk521123.hatenablog.com/entry/2020/05/22/165711 の続き。 Amazon ECR を学んだので、今回は、当初の目標である CodeBuild で、カスタム Docker ビルドイメージを 使用する方法について、学ぶ。 ■ 導入前に 標準で用意されているDocker…

【AWS】Amazon ECR ~ 入門編 ~

AWS

■ はじめに CodeBuild で、カスタム Docker ビルドイメージを 使用する必要ができたのだが、 その際に、Amazon ECR が必要らしいので、勉強する。 なお、Amazon EMRではない。 (似通ったサービス名が、増えてややっこしいんだよなー) https://dk521123.haten…

【フリーソフト】暗号化・複合化ツール ~ GPG4WIN ~

■ はじめに ファイルの暗号化・複合化できるツールを纏める ■ 関連用語 PGP(Pretty Good Privacy=かなり良いプライバシー) Philip Zimmermannが開発した暗号ソフトウェア GPG (GnuPG; GNU Privacy Guard) PGPをベースとした標準仕様 OpenPGP を実装したソフ…

【分散処理】PySpark ~ ユーザ定義関数 UDF 編 ~

■ はじめに PySpark の UDF (User Defined Function) っての学ぶ。 目次 【1】UDF とは 【2】UDF定義方法 1)udf関数から取り込む 2)デコレータを利用する方法 3)spark.udf.register() で登録する 【3】使用上の注意 【4】サンプル なお、以下の関…

【Python】Python ~ デコレータ @xxxx ~

■ はじめに https://dk521123.hatenablog.com/entry/2020/05/20/195621 で、デコレータについて触れた。 Python のコードの幅が広がりそうなので、メモっておく。 目次 【1】デコレータ 1)使いどころ 【2】Python標準のデコレータ 【3】サンプル 例1:…

【分散処理】PySpark ~ DataFrame / テーブル・項目操作編 ~

■ はじめに https://dk521123.hatenablog.com/entry/2020/01/04/150942 の続き。 今回は、PySpark でのデータフレーム(DataFrame)の データ項目を操作する方法を纏める。 目次 【1】データ項目名 1)データ項目の定義 2)データ項目名の変更 3)データ…

【Python】Python ~ 基本編 / eval, exec ~

■ はじめに 文字列をスクリプトとして実行する eval, exec について扱う どちらも組み込み関数に分類されるメソッド。 https://docs.python.org/ja/3.6/library/functions.html 個人的な感想 コードが追いづらくなるから、 無暗には使わないでほしい、、、 …

【分散処理】PySpark ~ Hive ~

■ はじめに https://dk521123.hatenablog.com/entry/2019/11/14/221126 https://dk521123.hatenablog.com/entry/2019/11/24/225534 https://dk521123.hatenablog.com/entry/2020/01/04/150942 の続き。 今回は、Python から Hive / HiveQL を使えるやり方を …

【PostgreSQL】データ比較SQL文 を考える

■ はじめに データを移行ツールを作成した時に、 移行ツールと元のデータに差異がないことを PostgreSQLにおいて、簡単に確認できるSQL文を考える ■ 解決案 http://www.ajisaba.net/db/postgresql/table_record_diff.html#UNION https://qiita.com/damassima…

【Python】CSVデータをPostgreSQLにインポートする ~ execute_values() 編 ~

■ はじめに https://dk521123.hatenablog.com/entry/2020/05/08/175525 の続き。 今回は、「実装案2:オーソドックスにInsertする」を行う。 ■ 実行メソッドについて 実行メソッドの候補として、以下がある。 1)executemany() ← パフォーマンスがいまいち…

【Python】CSVデータをPostgreSQLにインポートする ~ copy_from() 編 ~

■ はじめに Pythonコードにより、CSVファイルを入力データとして、 PostgreSQLに対してデータをInsertする なお、PostgreSQLライブラリについては、 以下の関連記事の「psycopg2」を使う Python で PostgreSQL を使う ~ psycopg2編 ~ https://dk521123.hat…

【トラブル】【AWS】AWS Glue のトラブル ~ crawler編 ~

■ はじめに https://dk521123.hatenablog.com/entry/2019/10/25/232155 の続き。 AWS Glue のトラブルについて、少しづつだが記録しておく 今回は、クローラのトラブルについて、まとめる。 目次 【1】Crawlerからエラー「ERROR: Internal Service Exceptio…

【Python】Python で PostgreSQL を使う ~ psycopg2編 ~

■ はじめに https://dk521123.hatenablog.com/entry/2019/11/27/000316 の続き。 以下の関連記事で ローカル環境に Postgre の SSL設定をしたのだが SSL接続する際に、psycopg2を使ったのでメモ。 https://dk521123.hatenablog.com/entry/2020/05/05/221239 …

【PostgreSQL】PostgreSQL の SSL通信に関する あれこれ

■ はじめに PostgreSQL の SSL通信に関して調べてみた 目次 【1】 SSL確認方法 【2】 SSL設定手順 【3】 SSL 攻撃 と SSLモード 【1】 SSL確認方法 その1) psql ログイン時 その2) sslinfo を有効にして「select ssl_is_used()」を実行する その3)…

【k8s】Kubernetes ~ 入門編 ~

■ はじめに https://dk521123.hatenablog.com/entry/2020/04/27/224624 https://dk521123.hatenablog.com/entry/2020/05/01/000000 の続き。 今回は、ローカルで Kubernetes を使って nginx を立ち上げる。 目次 【1】今回のやること 【2】前提条件 【3】…

【Python】Python ~ ハッシュ / hashlib ~

■ はじめに https://dk521123.hatenablog.com/entry/2020/04/01/000000 で扱ったブロックチェーンの技術として使用されるハッシュについて扱う 目次 【1】ハッシュについて 【2】サンプル 例1:Hello world 例2:Login with Salt & Stretching 例3:Log…

【k8s】Kubernetes ~ Windows / 環境構築編 ~

■ はじめに https://dk521123.hatenablog.com/entry/2020/04/27/224624 の続き。 今回は、Windows に Minikube をインストールし、 自分のローカル上に Kubernetes を試す環境を構築する。 補足:あとがき Windows の Docker は、 Hyper-V を前提としている…