2020-11-01から1ヶ月間の記事一覧

【Python】scikit-learn ~ 重回帰 / ロッソ回帰・エラスティックネット ~

■ はじめに https://dk521123.hatenablog.com/entry/2020/03/02/233902 https://dk521123.hatenablog.com/entry/2020/03/08/113356 https://dk521123.hatenablog.com/entry/2020/07/04/000000 https://dk521123.hatenablog.com/entry/2020/04/25/174503 の続…

【分散処理】PySpark ~ CSV / escape ~

■ はじめに https://dk521123.hatenablog.com/entry/2019/11/24/225534 https://dk521123.hatenablog.com/entry/2020/07/30/195226 https://dk521123.hatenablog.com/entry/2020/07/09/000832 の続き。 PandasでCSVを正しくパースされていたファイルが PySpa…

【Python】Python 3 エンジニア認定基礎試験

■ はじめに https://dk521123.hatenablog.com/entry/2019/12/17/225829 で、Python の資格について調べた。 その中で、Python 3 エンジニア認定基礎試験 を 今年中に受けるので、内容や情報を纏めておく。 受験の意気込み Python を業務で携わって、1年を超…

【トラブル】【Hive】Hive に関するトラブルシューティング

■ はじめに https://dk521123.hatenablog.com/entry/2020/05/28/175428 の続き。 Hiveで発生したトラブルをまとめる。 目次 【1】エラー「Cannot inspect org.apache.hadoop.io.IntWritable」が発生する 【2】エラー「java.lang.NoClassDefFoundError: sca…

【Python】Pandas ~ 基本編 / Excel編 ~

■ はじめに https://dk521123.hatenablog.com/entry/2019/11/05/221010 の続き。 今回は、Pandas で Excel を扱う際のメモ。 目次 【0】使用上の注意 【1】読み込み 【2】書き込み 【Z】応用編 例1:複数Excelファイル読み込んで、商品ごとの売上データ…

【Python】 Pandas ~ 基本編 / CSV編 ~

■ はじめに https://dk521123.hatenablog.com/entry/2019/10/22/014957 https://dk521123.hatenablog.com/entry/2020/04/06/235555 https://dk521123.hatenablog.com/entry/2020/10/14/000000 の続き。 今回は、Pandas を使ったCSVの扱いについて取り上げる…

【Hive】Hiveクエリで入力ファイル名を取得するには

■ はじめに 小ネタ。 今回は、Hiveクエリで入力ファイル名を取得する方法をメモする。 なお、PySparkでは、以下の関連記事を参照のこと。 https://dk521123.hatenablog.com/entry/2021/04/12/145133 ■ Hiveクエリで入力ファイル名を取得するには * INPUT__FI…

【Python】 Python ~ 基本編 / スライス操作 ~

■ はじめに https://dk521123.hatenablog.com/entry/2019/12/17/225829 の Python の資格勉強で、 スライスに関する理解がいまいちだったので まとめてみる。 ■ スライス * シーケンス型オブジェクト(※)を指定した箇所で切り取って コピーを返してくれる機能…

【AWS】Amazon EMR ~ EMRFS ~

AWS

■ はじめに https://dk521123.hatenablog.com/entry/2020/02/20/230519 https://dk521123.hatenablog.com/entry/2020/05/27/175610 https://dk521123.hatenablog.com/entry/2020/06/24/173334 https://dk521123.hatenablog.com/entry/2020/11/12/113312 の続…

【AWS】Amazon EMR ~ AWS Glueとの連携 ~

AWS

■ はじめに https://dk521123.hatenablog.com/entry/2020/02/20/230519 https://dk521123.hatenablog.com/entry/2020/05/27/175610 https://dk521123.hatenablog.com/entry/2020/06/24/173334 の続き。 今回は、EMRからAWS Glueを利用する際に必要なことを纏…

【Python】 Python ~ namedtuple / 簡易クラス ~

■ はじめに https://dk521123.hatenablog.com/entry/2011/03/29/234236 のように .NET の タプルのような機能を Python で探していたら namedtuple (名前付きタプル)に検索に引っかかったので調べてみた ■ namedtuple 公式サイト https://docs.python.org/…

【Hive】Hive / HiveQL ~ テーブル作成 ~

■ はじめに https://dk521123.hatenablog.com/entry/2020/02/25/231235 https://dk521123.hatenablog.com/entry/2020/06/02/183823 の続き。 長くなったので、テーブル作成だけで分冊。 目次 【1】テーブル作成 1)CREATE TABLE:内部テーブル作成 2)CRE…

【Python】 Python ~ 基本編 / 関数・あれこれ ~

■ はじめに https://dk521123.hatenablog.com/entry/2019/09/22/000000 の続き。 関数の記事が長くなったので、整理して分冊。 また、Pythonの資格の問題ででてきた デフォルト引数の注意点などを記録。 目次 【0】関数の実体について 【1】デフォルト引数…

【Python】Python ~ 基本編 / リスト・あれこれ ~

■ はじめに https://dk521123.hatenablog.com/entry/2019/10/12/084943 の続き。 リストの記事が長くなったので、整理して分冊。 また、Pythonの資格の問題ででてきたスライスなど あまり使っていなかったものを整理。 Python に関する資格 https://dk521123…