【Databricks】Databricks 〜 入門編 〜

◾️はじめに

Databricks のハンズオンをやったので、メモ

目次

【1】Databricks Free Edition
 1)使用上の注意
【2】Databricks Free Edition セットアップ
【3】Hello world
 1)手順
【4】触ってみた感想・メモ

【1】Databricks Free Edition

* Databricks の無料バージョン
 => 詳細は、以下のサイト参照

https://qiita.com/taka_yayoi/items/33e9cfa7ca9ca9febe72

* Databricksノートブック と言って、
 Jupyter Notebookのような感じで動かせる

1)使用上の注意

* 無料版なので色々と制限がある
 => 特に、複数のノートブックから右上の「接続」からサーバレスに接続した際、
 実行時にMax Retried Errorが発生する場合があるため
 使っていない場合サーバレスコンピュートを停止した方がいい

【2】Databricks Free Edition セットアップ

[1] 以下のサイトをアクセスする

https://www.databricks.com/jp/try-databricks

[2] [無料トライアル]-[クイックセットアップを続行]を選択
[3] 以下のいずれかを選ぶ
 * Google account
 * Microsoft account
 * Email <- 今回、こちらを選択。するとEmail宛にランダム文字が送られる

【3】Hello world

* 以下のサイトを参考にするといい

https://qiita.com/taka_yayoi/items/d45da4e3048b35152208

1)手順

[1] 以下のGithubから必要なファイルをダウンロードする

https://github.com/taka-yayoi/databricks_free_edition_tutorial

[2] Databricks Free Editionに接続
[3] [Connect]-[Serverless]を選択しサーバレスコンピュートを起動
[4] [Workspace]を選択し、[1]のファイルをインポートする
 => Windowsなら右クリックで[Import]を選択
[5] 後は以下を順にやっていく
 * 0. My first Databricks.ipynb
 * 1. Unity Catalog.ipynb
 * 2. PySpark transformation.ipynb
 * 3. ML Tutorial.ipynb
 => 「0. My first Databricks.ipynb」の「print("Hello Databricks!")」を
  実行してみて「Hello Databricks!」が表示されたらOK

【4】触ってみた感想・メモ

* 以下の関連記事で扱ったdbt のデータリネージ(Data Lineage)が
 デフォルトでクリックだけで確認できる

dbt CLI ~ ドキュメント化 / dbt docs ~
https://dk521123.hatenablog.com/entry/2023/12/10/125512

より抜粋
〜〜〜
1)データリネージ(Data Lineage)とは

* データ源泉(source)から現在地点までのデータ変遷のことで
 データ(テーブル)がどう結びついているを把握することができる

cf. Lineage(リネージ) = 血統, 系統
〜〜〜