目次
dbtとは
dbt (data build tool) は、データパイプラインを構築するためのツールです。データの前処理(ELT)におけるTransform(変換)を担当し、SELECT文を記述するだけでデータウェアハウス内のデータを変換できます。
公式リンク:https://www.getdbt.com/
Snowflake×dbtの環境準備
こちらのページ(https://knowledge.insight-lab.co.jp/snowflake/dbt-data-pipeline)で紹介した、データパイプライン構築で割愛した、Snowflakeとdbtの接続について共有します。
- アカウント作成
- プロジェクト作成
- Snowflakeと接続
- GitHubと接続
- Gitリポジトリと接続
- ブランチを切る
アカウント作成
まずこちらのdbtのページからフリーアカウントを作成します。https://www.getdbt.com/
以下の画面が表示されるので、画面右上の [Create a free account] から、登録ページで必要事項を入力してアカウントを作成します。
data:image/s3,"s3://crabby-images/ad4c2/ad4c2c7b8e570fa9dcb00c6f52f30fe7a3c1478d" alt="スクリーンショット 2022-06-07 160050 2"
data:image/s3,"s3://crabby-images/39249/39249d4f92f9de135e84ee1f257cdb4eb234f588" alt=""
プロジェクト作成
dbtにログインすると、以下のような画面になります。初めてのログインだとまた少し異なる画面になるかと思いますが、作業としては関係ないのでそこは省略します。
data:image/s3,"s3://crabby-images/24912/24912eb9deb2ff66c25e82644aba8fd41ed0abbb" alt=""
まずデータパイプライン構築のためのプロジェクトを作成します。画面(上画像)左上の [≡] から [Account Setting] を選択し、移動したページ右上の [New Project] をクリックします。
data:image/s3,"s3://crabby-images/c955d/c955de8a66b3e6f5363cfa93504a23b72ba45001" alt=""
data:image/s3,"s3://crabby-images/30bef/30bef22be3bf3cb5c6707565dee853210e72aa2d" alt=""
作成するプロジェクトに名前をつけ、画面右上の [Continue] をクリックします。
data:image/s3,"s3://crabby-images/69113/6911354822dd883473e3edf9677e58173a393dd7" alt=""
接続するDWHを選択します。今回はSnowflakeを指定します。
data:image/s3,"s3://crabby-images/dd9dc/dd9dc464f65d1554e4548a309f9a8d35214404e5" alt=""
Snowflakeと接続
以下の画面に移るので、Snowflakeの接続設定を行います。
data:image/s3,"s3://crabby-images/3faf6/3faf66cfb11cf637ece0467c1ede260a14e78202" alt=""
data:image/s3,"s3://crabby-images/135e0/135e09c5584a98fdb5ae451553764f11f0e76d92" alt=""
各入力項目の内容は以下の通りです。
-
ACCOUNT
-
接続するSnowflakeアカウントを入力します。SnowflakeのURLの "https://" と ".snowflakecomputing.com" の間の内容になります。
-
-
ROLE
-
Snowflakeに接続した際に割り当てるロール名を入力します。(オプション)
-
-
DATABASE
-
接続してクエリを実行するデータベース名を入力します。
-
-
WAREHOUSE
-
クエリを実行する際に使用する仮想ウェアハウスを入力します。
-
-
AUTH METHOD
-
認証方法を "Username / Password" と "Keypair" の2種類から選択します。
-
Username / Password:Snowflakeユーザー名と対応するパスワードで認証します。(今回はこちらを使用します。)
-
Keypair:Snowflakeのキーペア認証を使用して認証します。
-
-
USERNAME
-
接続するSnowflakeのログインユーザー名を入力します。
-
-
PASSWORD
-
上記ログインユーザー名に対応したパスワードを入力します。
-
-
SCHEMA
-
クエリを実行した際にテーブルを作成するスキーマ(ターゲットスキーマ)名を入力します。
-
入力できたら画面右上の [Test] をクリックして設定したSnowflakeと接続できるかテストします。テストが完了すると [Test] の右の [Continue] をクリックします。
data:image/s3,"s3://crabby-images/b8fbd/b8fbdb0b7cbb5e566dd298491cbe507f88ab8632" alt=""
下のような画面に移るので、リポジトリの設定を行います。
data:image/s3,"s3://crabby-images/ffa19/ffa19d84610aa6e75b907f3909a14fa4c64202f0" alt=""
GitHubと接続
上の画面で [Github] をクリックすると、ログインしているGitHubのページが開くので、[Authorize dbt Cloud] をクリックします。
dbtのページに戻ってくるので、続いてdbtアカウントとGitHubアカウントのリンク設定を行います。画面右上のアカウントアイコンから [Profile] をクリックし、画面左のリストから [Integrations] をクリックします。
data:image/s3,"s3://crabby-images/80498/8049889c19dfd82a54148ee171d3439bb80073d7" alt=""
data:image/s3,"s3://crabby-images/eadb9/eadb9d6ee321cffb29b0206be6ed34fb9be8d1b5" alt=""
以下の画面に移るので、GitHubの [Configure integration in GitHub] をクリックし、Install dbt Cloudのページに移るので、[Install] をクリックします。
data:image/s3,"s3://crabby-images/a9902/a9902bdaa64e692465f0a4b81864e62a4a57ede5" alt=""
data:image/s3,"s3://crabby-images/b9f99/b9f99fe9e6dd4bf84a5f37963f37270dd1cfdb62" alt=""
Gitリポジトリと接続
続いて作成したプロジェクトとGitHubリポジトリを紐づけます。画面左上の [≡] から [Account Settings] をクリックし、作成したプロジェクトをクリックします。
data:image/s3,"s3://crabby-images/c955d/c955de8a66b3e6f5363cfa93504a23b72ba45001" alt=""
data:image/s3,"s3://crabby-images/f868c/f868c96a87c6dd8a41b3072ed8ab36b2a9b3f762" alt=""
続いて、[Configure a repository >] をクリックし、[Github] から使用するリポジトリを選択します。
data:image/s3,"s3://crabby-images/bfd91/bfd9146b65da89aeb141efb8a53a9b1b5d3e4eb6" alt=""
data:image/s3,"s3://crabby-images/6aa40/6aa409825be49776576113d697ad6bed00df3d58" alt=""
リポジトリを選択し、以下の画面に移ればGitHubの連携は完了となります。
data:image/s3,"s3://crabby-images/fd17d/fd17da53e77f43c6ec5946cd6a767763073f1395" alt=""
ブランチを切る
Snowflake - dbt - GutHubの設定が完了したので、開発画面に移動して、個人用のブランチを切ります。先ほどの画面の上部、作成したプロジェクト名をクリックします。
data:image/s3,"s3://crabby-images/cbf4f/cbf4f497675da3161523eb3a3d76c395fa7669e7" alt=""
以下の画面に移動するので、 [>_ Start Developing] をクリックすると開発画面に移動できます。
data:image/s3,"s3://crabby-images/1f214/1f2144ab9128ac1b3b72e8a69b0283faa7a4dbd4" alt=""
こちらが開発画面になります。
data:image/s3,"s3://crabby-images/03f88/03f88a4be472219efbd32f3a363c916344498a4c" alt=""
ブランチを切るため、画面に左上の [+ create new branch...] から、任意のブランチ名を入力して [Submit] でブランチを切ることができます。
data:image/s3,"s3://crabby-images/bb6a5/bb6a593a9a49b62638d6e6a6955e05567cb96596" alt=""
data:image/s3,"s3://crabby-images/a430b/a430b5334e35f945d12dc08c2eaa7e4b61861dd6" alt=""
今回は、"isl_training" という名前でブランチを切りました。画面左上を確認すると、作成したブランチに切り替わっていることが分かります。
data:image/s3,"s3://crabby-images/3cb05/3cb057594bc9b63556969410d06245351eec2292" alt=""
まとめ
今回は、dbtでデータパイプライン構築のため、Snowflakeとの接続など環境準備に関して簡単に説明しました。より詳しい情報については、dbt公式のドキュメントを参照ください。