◾️はじめに
Databricks のハンズオンをやったので、メモ
目次
【1】Databricks Free Edition 1)使用上の注意 【2】Databricks Free Edition セットアップ 【3】Hello world 1)手順 【4】触ってみた感想・メモ
【1】Databricks Free Edition
* Databricks の無料バージョン => 詳細は、以下のサイト参照
https://qiita.com/taka_yayoi/items/33e9cfa7ca9ca9febe72
* Databricksノートブック と言って、 Jupyter Notebookのような感じで動かせる
1)使用上の注意
* 無料版なので色々と制限がある => 特に、複数のノートブックから右上の「接続」からサーバレスに接続した際、 実行時にMax Retried Errorが発生する場合があるため 使っていない場合サーバレスコンピュートを停止した方がいい
【2】Databricks Free Edition セットアップ
[1] 以下のサイトをアクセスする
https://www.databricks.com/jp/try-databricks
[2] [無料トライアル]-[クイックセットアップを続行]を選択 [3] 以下のいずれかを選ぶ * Google account * Microsoft account * Email <- 今回、こちらを選択。するとEmail宛にランダム文字が送られる
【3】Hello world
* 以下のサイトを参考にするといい
https://qiita.com/taka_yayoi/items/d45da4e3048b35152208
1)手順
[1] 以下のGithubから必要なファイルをダウンロードする
https://github.com/taka-yayoi/databricks_free_edition_tutorial
[2] Databricks Free Editionに接続 [3] [Connect]-[Serverless]を選択しサーバレスコンピュートを起動 [4] [Workspace]を選択し、[1]のファイルをインポートする => Windowsなら右クリックで[Import]を選択 [5] 後は以下を順にやっていく * 0. My first Databricks.ipynb * 1. Unity Catalog.ipynb * 2. PySpark transformation.ipynb * 3. ML Tutorial.ipynb => 「0. My first Databricks.ipynb」の「print("Hello Databricks!")」を 実行してみて「Hello Databricks!」が表示されたらOK
【4】触ってみた感想・メモ
* 以下の関連記事で扱ったdbt のデータリネージ(Data Lineage)が デフォルトでクリックだけで確認できる
dbt CLI ~ ドキュメント化 / dbt docs ~
https://dk521123.hatenablog.com/entry/2023/12/10/125512
より抜粋 〜〜〜 1)データリネージ(Data Lineage)とは * データ源泉(source)から現在地点までのデータ変遷のことで データ(テーブル)がどう結びついているを把握することができる cf. Lineage(リネージ) = 血統, 系統 〜〜〜