【実践】想定利用シナリオに基づく Snowflake の使い方をご紹介

本記事では、Snowflake の使い方を解説していきます。

Snowflake は幅広い機能をもっているため、データ基盤の構築をどこから着手するか悩むこともあります。本記事では、想定するケースを例にして、BIツールからSnowflakeにアクセスできることをゴールにします。

具体的な流れとしては、データソースに配置したサンプルデータをSnowflake（初期設定済）にコピーし、BIツールからの Snowflake への接続です。

それでは想定ケースを見ていきましょう。

Snowflake を使う想定ユースケース

早速、図の構成要素について、左から簡単に紹介します。

a.データソース

データソースは、Snowfalke で分析したいデータ候補です。
自社内で利用しているデータベースやアプリケーションデータ、各種ログ、外部のデータやWeb サービス等、様々なデータが候補となります。

これらの生のデータをどのように Snowflake に渡していくかについて、次項以降のデータ連携、データレイク保管にて、事例を紹介します。

なお、本記事の検証で利用するデータは、BI ツールにTableau を選定するため、Tableau サイトの公開サンプルデータ（米国でトップの赤ちゃんの名前csv ファイル）とし、すでにデータレイクに保管されているものとします。

参考：Free Data Visualization Software | Tableau Public

b.データ連携方法

次にデータレイクの前段の「データ連携」についてです。

これはデータソース群をデータレイクに様々な手段で転送する手段をさします。なお、データレイクを経由せず、直接 Snowflake データウェアハウスにデータを投入するケースもありますが、本記事では事例の多いデータレイク経由を想定ケースとします。（データレイク設置メリットは次項参照）

従来の企業利用の例だと、ファイルを直接送るファイル伝送（HULFT等）や、ETLツール（ASTERIA Warp 等）によるデータ変換を伴うデータ連携があげられます。
ただ、こうしたデータの取り込みには多くのエンジニア工数がかかるため、最近の事例ですと、Fivetran や、国産SaaSのtrocco（トロッコ）等、データソースの自動収集を得意とするツールの採用が進んでいます。

これらのツールは、SaaS で管理が省力化できる上、データ管理や変換、ジョブによるワークフロー化等、非常に多機能なデータパイプライン（分析データを整備する一連の処理手順）を構成できることも特徴です。

データソース収集の省力化だけでなく、データ分析を行う前段のデータ加工の手間暇を削減できるため、ツールとエンジニア工数のコスト分析をして採用検討することも一般的な流れとなっています。

c.データレイク

本記事の想定ケースのデータレイクは、クラウドストレージのAWS S3 を想定しています。
データレイク設置のメリットには下記のようなものがあります。

データソースの保管場所一元管理、分析対象データの長期保管が可能
生データを保管しておくことで、後日別角度で分析したいという要望に対しても生データを容易に提供可能
既存のバックアップシステムのデータ保管先に採用されるケースも多く、すでに分析候補のデータが保管されている可能性がある
データウェアハウスの前段におけば、基盤構成がシンプル（データ取り込み対象はすべてデータレイクにある状況）になり、データフロー、データ保管に関するセキュリティの管理も比較的容易
Snowflake は、AWS 、Azure 、Google Cloud を稼働基盤に選定できるため、これらのクラウドのストレージを利用していれば、同一リージョンでデータウェアハウスとのデータ連携を構成できる

ただ、データレイクは大量のデータを容易に保管できるが故に、ガバナンスのないまま保管していくと、コストが増加するリスクもあるので、Snowflake への投入前のデータクレンジングにtrocco を活用するケースもありえます。

本記事の想定ケースでは、データソース項で前述した通り、サンプルデータを S3 に配置しているところから解説します。

データウェアハウス

図のデータウェアハウス（DWH）は、Snowflake の中心的な機能です。
ここには、データ統合やデータロード中のデータ変換、Time Travel 機能による任意データへのアクセス、データマスキング等、豊富な機能がそろっています。

Snowflake のデータウェアハウスとデータレイク S3 の紐づけ方法としては、以下の選択肢が考えられます。

COPY INTO　による一括ロード（バッチ方式）
Snowpipe　による自動データインジェスト（自動ロード方式）

本記事では基本となる一括ロード方式を紹介します。

なお、Snowflake 上でデータ変換をする（ELTアプローチ）ケースについては、dbt 等の支援ツールもありますが、データ変換機能については本項の紹介レベルにとどめます。

Snowflake のデータウェアハウスの起動にあたっては、データ利活用の前提となる初期設定（セキュリティ対応、コスト管理、スキーマ作成等）が必要になりますので、後述の想定利用シナリオにて解説します。