2019-11-01から1ヶ月間の記事一覧

【AWS】AWS Glue ~ 基本編 /トリガ ~

AWS

■ はじめに https://dk521123.hatenablog.com/entry/2019/10/01/221926 の続き。 今回は、トリガ(Trigger)について、焦点を当てる 目次 【1】トリガの種類 【2】使用上の注意 【3】Boto3 API 【4】トラブル 【1】トリガの種類 * ジョブを開始する引き…

【Python】Python で PostgreSQL を使う ~ PyGreSQL編 ~

■ はじめに PyGreSQL を使って、PostgreSQL にアクセスする。 別の方法については、以下の関連記事を参照のこと。 Python で PostgreSQL を使う ~ psycopg2編 ~ https://dk521123.hatenablog.com/entry/2020/05/06/141029 目次 【1】環境設定 0)設定環…

【Python】Python ~ 基本編 / Enum ~

■ はじめに 列挙型(Enum)を好んで使うのだが Python では、どうなんだと思い、調べてみた (あんまりメジャーじゃなさげ) 目次 【1】Enum 【2】サンプル 例1:Enumの定義 例2:文字列 例3:Enumのループ 【1】Enum https://docs.python.org/ja/3/libr…

【Hive】Hive / HiveQL ~ 基礎知識編 ~

■ はじめに https://dk521123.hatenablog.com/entry/2019/09/15/100727 の続き。 今回は、「Hive / HiveQL」を扱う。 目次 【1】Hive 【2】HiveQL (ハイブキューエル) 【3】関連用語 1)パーティション(Partition) 2)メタストア (Metastore) 3)メ…

【分散処理】PySpark ~ CSV / 基本編 ~

■ はじめに https://dk521123.hatenablog.com/entry/2019/11/14/221126 https://dk521123.hatenablog.com/entry/2021/04/03/004254 の続き。 今回は、PySpark で CSV を扱う。 補足 エスケープされた区切り文字が含んだデータを扱う場合は 以下の関連記事を…

【Linux】sedコマンド

■ はじめに https://dk521123.hatenablog.com/entry/2019/11/22/223043 で、sedコマンドを扱ったがかなり深いので、記事を分けた。 以下の動画で勉強するといいかも。 動画 https://dotinstall.com/lessons/basic_sed 目次 【1】sedコマンド 【2】Hello wo…

【Linux】awkコマンド

■ はじめに シェルでテキスト加工するコマンドは、以下の通り。 1)awkコマンド 2)sedコマンド 3)bashによる文字列置換 などなど、、、 で、今回は、「1)awkコマンド」を扱う その他のコマンドは、以下の関連記事を参照のこと sedコマンド https://dk…

図作成ツール / サイト ~ Draw.io(Desktop) / LucidChart ~

■ はじめに PowerPoint でも作れるが、よさげなものがあったのでメモ 目次 【1】 Draw.io / draw.io Desktop ... 無料 【2】 LucidChart ... 有料 (無料トライアルはある) 【1】 Draw.io / draw.io Desktop * フリーで使える 1)Draw.io * インストール…

【AWS】AWS Glue ~ 基本編 / ジョブ ~

AWS

■ はじめに https://dk521123.hatenablog.com/entry/2019/10/01/221926 の続き。 今回は、ジョブ(Job)について、焦点を当てる 目次 【1】ジョブ(Job) 【2】ジョブタイプ 1)Spark 2)Python shell 3)Spark Streaming 【3】ジョブプロパティ 【4…

【Spark】PySpark ~ 環境構築編 ~

■ はじめに https://dk521123.hatenablog.com/entry/2019/09/18/214814 で、Windows環境でSparkを設定したが、 今回は、その続きで、PySparkの環境設定を行う 目次 【1】前提条件 【2】設定環境 【3】PySparkの設定 【4】サンプル 1)動作確認用・Hello…

【AWS】Amazon DynamoDB Local

■ はじめに https://dk521123.hatenablog.com/entry/2017/02/19/121008 で、DynamoDBを調査したが、AWSに接続しなくても、 DynamoDB を使用した開発できる DynamoDB Local について 調べてみた (これは助かる) ■ 特徴 * Windows、Linux、Mac OS Xで設定可能 …

【AWS】AWS Glue ~ ローカル環境を作成する ~

AWS

■ はじめに https://dk521123.hatenablog.com/entry/2019/12/14/010524 https://dk521123.hatenablog.com/entry/2019/12/16/231149 の続き。 今回は、ローカル上にAWS Glue環境を作る。 以下の公式サイトを参考になる。 公式サイト https://docs.aws.amazon.…

【Python】パッケージ管理 ~ wheel / egg ~

■ はじめに Python のパッケージ管理のアーカイブについて、学ぶ 目次 【1】wheel 【2】egg 【3】wheel / egg の作成 【1】wheel * 実態はZIPでアーカイブ * PEP427で定義 【2】egg * 実態はZIPでアーカイブ wheelとの違い 以下を参照のこと https://py…

【AWS】AWS Glue ~ Excelを扱うには / Python shell 版 ~

AWS

■ はじめに AWS Glue の Python shell で、Excelを扱おうとしたが、 はまったので、メモ。 PySpark (Glue 2.0) での Excel の扱いは、以下の関連記事を参照のこと。 AWS Glue ~ Excelを扱うには / PySpark (Glue2.0) 版 ~ https://dk521123.hatenablog.com…

【Python】 Python ~ 基本編 / CSV ~

■ はじめに Pythonでの CSV の扱い方について、学ぶ 目次 【1】csv モジュールを使う 【2】pandas を使う 【3】Dask を使う 【AA】CSVあれこれ 【ZZ】トラブル 【1】csv モジュールを使う 例1:csv を読み込む import csv with open('hello.csv', 'r') …

【Python】関数アノテーション

■ はじめに 関数アノテーション について、調べてみた ■ 関数アノテーション * PEP 3107 -- Function Annotations (※PEP : Python Enhancement Proposals) * From Python 3.0 ■ サンプル def add_person(name: str, is_male: bool = True) -> bool: # 実装 r…

【Python】 Python で Excel を扱うには

■ はじめに Python で Excel を扱う方法をメモ。 ■ Excel を取り扱うためのライブラリ 【1】xlrd / xlwt 【2】Pandas 【3】OpenPyXL 【4】xlwings 【5】PyXLL 【1】xlrd / xlwt xlrd:読み込み用 xlwt:書き込み用 【2】Pandas 詳細は、以下の関連記…

【分散処理】Apache Spark ~ 環境設定 / Linux編 ~

■ はじめに https://dk521123.hatenablog.com/entry/2019/09/18/214814 では、Apache Spark を Windows に設定したが 今回は、 Linux (CentOS8) で行う。 ■ 環境 OS : CentOS8 Java : OpenJDK 1.8.0 232 Apache Spark : spark v2.4.4 ■ 手順 【1】Java を設…