2020-06-01から1ヶ月間の記事一覧
■ はじめに リリースが近づいてきて、リポジトリにタグ付けする機会があったので、 git の タグに関連することを纏める 目次 【1】タグ 【2】タグに関するコマンド 【3】Github でのタグに関するあれこれ 【4】クライアントソフト でのタグに関するあれ…
■ はじめに https://dk521123.hatenablog.com/entry/2020/02/20/230519 https://dk521123.hatenablog.com/entry/2020/05/27/175610 の続き。 boto3 を使って、 Amazon EMR を操作する 目次 【1】boto3 API 仕様 【2】主なAPI 1)run_job_flow 2)add_job…
■ はじめに Python で、メモリエラー(MemoryError)に関して 少しずつだが、まとめてみる 目次 【1】メモリリークに関する調査 【2】メモリリークに関する解決案 【1】メモリリークに関する調査 1)tracemalloc 2)memory_profiler 3)objgraph 4)H…
■ はじめに https://dk521123.hatenablog.com/entry/2019/10/24/000000 などで、Pythonの環境設定した際に起こったトラブルについて 解決案などを少しづつまとめていく 目次 【1】anaconda でPythonのダウングレードしようとした際にエラー「Solving enviro…
■ はじめに Python で 文字コード関連のエラーを纏めておく。 目次 【1】デコード時にエラー「UnicodeDecodeError」で落ちる 【1】デコード時にエラー「UnicodeDecodeError」で落ちる 以下のコードから例外エラー「UnicodeDecodeError」で落ちる コード一…
■ はじめに PostgreSQLで、Unicode を扱ったので、メモ。 目次 【1】Unicode を扱う 【1】Unicode を扱う U&’文字列’ を使用する => そのままだと文字列として扱われてしまう サンプル -- \xxxx - 16進数 4桁の Unicode 文字コード番号 -- \+xxxxxx - 16進…
■ はじめに AWS上のでかいファイルを確認するのに、 Amazon Athena (アテナ) をいじる機会を得たので、メモする。 目次 【1】Amazon Athena とは? 【2】S3上のファイルに対して、SELECT文を実行するまで 【ZZ】トラブルシューティング 【1】Amazon Athen…
■ はじめに 文字コードの自動判定する chardet についてのメモ。 ■ 公式サイト https://pypi.org/project/chardet/ ■ インストール conda install chardet ■ 使用上の注意 * 判定できない場合がある(「'encoding': None」) * 必ずしも 100% ではない => 誤…
■ はじめに テキストエディタでも開けないファイルを扱うことが多くなった。 そんな際に、Linuxコマンドをよく使ったので、メモ。 目次 【1】head / tail 【2】split 【3】wc 【4】file / nkf 【5】grep (fgrep) 【6】diff / md5sum 【7】du 【1】he…
■ はじめに https://dk521123.hatenablog.com/entry/2020/02/08/001155 https://dk521123.hatenablog.com/entry/2020/05/08/175525 などで少し触れた PostgreSQL の COPY コマンド だが Redshift でも使えるみたいなので、まとめる Amazon Redshift ~ COPY …
■ はじめに https://dk521123.hatenablog.com/entry/2016/06/16/220624 の「使用上の注意」で触れたが、順番を指定した項目追加において MySQLの場合、AFTER xxxx があるので楽なのだが、 PostgreSQLの場合、項目を追加する際に、 ALTER TABLE ADD COLUMN だ…
■ はじめに https://dk521123.hatenablog.com/entry/2020/04/16/113816 で触れた以下の開発フェーズで設定を切り替えることを考えてみた 1)開発環境(dev) 2)検証環境 (stage) 3)本番環境 (prod) 例えば、各フェーズによってS3バケット名を変更したい…
■ はじめに 以下のサイトにある Parquet ファイル に関するメモ。 http://mogile.web.fc2.com/spark/sql-data-sources-parquet.html ■ Apache Parquet ファイル * Twitter 社で開発 * 列指向(カラムナ)フォーマット ※ 列指向型については、以下の関連記事…
■ はじめに https://dk521123.hatenablog.com/entry/2020/02/25/231235 の続き。 HiveQL を書く機会が得られて、 ちょこちょこSQLと違うので、基本文法を中心にメモる。 目次 【0】データベース関連 【1】テーブル作成 【2】テーブル削除 【3】テーブル…
■ はじめに スクレイピング (scraping)を扱っている動画があって 簡単そうだったので、メモ。 ■ Beautiful Soup 4 スクレイピングについては、Beautiful Soup 4を使う。 インストール conda install beautifulsoup4 ■ サンプル 例1:Hello world 例2:J1…