データウェアハウス(DWH)は歴史が長く、古くはウォルマート社の巨大DWHが有名(「おむつとビールの購買法則」等)で、大規模な投資を必要としていました。
古くから事業におけるデータ分析ニーズは高いものでしたが、近年では、DXやクラウドの取り組みが浸透し、様々なデータが社内外のあらゆる場所に生成され、データ利活用のニーズはさらに高まっています。
こうしたニーズに対し、クラウド型DWHのサービスが提供されることで、巨大DWHアプローチでは対応が困難だった、「初期投資を抑える、散逸データを集約できる、クラウドによるアジリティ向上、小さく始めて容易に拡大できる」等のメリットを容易に享受できるようになっています。
クラウド型DWHの主要なサービスは、下記3社の採用事例が多く、ユーザーの選定プロセスにおいて、製品候補にあがりやすいです。
- AWS Redshift、Redshift Serverless
- Google Cloud BigQuery
- Snowflake
本記事では、このうちBigQuery とSnowflake についてサービス比較を行います。
AWS Redshift は実績も多く、高稼働/大規模用途に最適ですが、クラウド型ならではのスモールスタートの管理のしやすさ(クラスタリソースのスケールアップ、ダウン等)にひと手間かかります。
AWS自身もその弱点を認識していて、Redshift Serverless を発表することで、管理コストを大幅に下げることができましたが、一般提供が2022年と比較的新しいサービスで、実績面がまだ弱いという側面があります。
これらの観点から、初期設計の段階から管理コスト削減を重視しつつ、Redshift のシェアを追っているBigQuery 、Snowflake に重点を置いたサービス比較をしていきたいと思います。
Snowflake BigQuery の特徴、強み等の概要比較
特徴
BigQuery、Snowflake ともに、フルマネージドサービスで管理コストが削減でき、従量課金に対応しているため、初期投資を抑えたスモールスタートが可能です。
Snowflakeは、環境の選択肢が、AWS、Azure、Google Cloud と複数あり、自社が得意とするクラウドの延長で利用が可能で、仮想データウェアハウス、タイムトラベル、ゼロコピー等の先端機能を実装しています。
BigQuery の環境はGoogle Cloud で、Google サービス(アナリティクス等)やGoogle Cloud の先端技術との連携に強みがあります。
マーケットシェアの比較
シェアの確認は、製品・サービスの勢いを把握するために必要です。
ただ、公開情報では明確な確認ができず、定量的な情報の詳細は有償レポート等を参照する必要があります。
例:
ITR Market View:DBMS/BI市場2023|株式会社アイ・ティ・アール
コストの比較
ここでは、Snowflake のクラウドデータベースサービス群のおける勢いを可視化できるよう、リサーチ会社であるGartner 社のマジッククアドラント(MQ:先見性と実行能力で製品を評価)を参考にしてみます。
公開情報の範囲でいくつかのMQ を参照できますが、下記サイトだとAmazon やGoogle がしのぎを削っている領域に、Snowflake が勢いをもって参戦している状況が確認できます。
参考:Gartner クラウド データベースのマジック クアドラント: 2021 年対 2020 年 – JEB のブログ
単純にマーケットシェアだけでみると、Amazon Redshift やGoogle Cloud BigQuery がトップに位置する状況ですが、リサーチ会社の高い評価を獲得しつつ、着実にグローバル/国内において利用者を増やしているのがSnowflake といえます。
各サービスの料金は不定期に更新されるので、最新情報は公式情報を確認します。(2023/11時点)
Pricing Guide | Snowflake
料金 | BigQuery: クラウド データ ウェアハウス | Google Cloud
一般的に、クラウドサービスの料金メニューを確認する際に押さえる点は下記です。
- 初期費用有無
- コンピュートリソース費用
- ストレージ、データ転送費用
- オンデマンド・前払いメニュー有無
また、クラウドサービスは一般的にほとんどのケースでコンピュートリソースがコスト構造の大部分を占めます。下記の通り、各サービスともストレージ費用に差はなく、大量データを保管させて稼ごうとする価格設計ではないようです。
BigQuery 1TB料金 | 月額23USドル(Tokyoリージョン) |
---|---|
Snowflake 1TB料金 | 月額25USドル(AWS/Tokyoリージョン、前払い) |
BigQuery 1TB料金 | 月額23USドル(Tokyoリージョン) |
---|---|
Snowflake 1TB料金 | 月額25USドル(AWS/Tokyoリージョン、前払い) |
コンピュートリソース費用の見積もりは、アップルトゥアップルの同一条件にしにくい価格設計であったり、処理対象のデータ特性による性能変動や、処理性能を動的に変更できる等、変動要素が大きいため、製品コストの比較は難しいです。
また、例えば、処理時間を最小にするのであれば、金銭コストを消費して高性能コンピュートリソースを調達することがあり、コスト=金額だけでは評価はできないことも留意しておくとよいでしょう。
そのうえでBigQuery、Snowflake のコンピュートリソース料金概要は下記のとおりです。
BigQuery 1TBをスキャンするクエリ料金 | 6USドル(Tokyoリージョン) |
---|---|
Snowfalke 仮想データウェアハウスを1時間起動 | 4.3USドル(AWS/Tokyoリージョン、Enterpriseエディション、仮想データウェアハウスサイズXS) |
BigQuery 1TBをスキャンするクエリ料金 | 6USドル(Tokyoリージョン) |
---|---|
Snowfalke 仮想データウェアハウスを1時間起動 | 4.3USドル(AWS/Tokyoリージョン、Enterpriseエディション、仮想データウェアハウスサイズXS) |
このように、BigQuery、Snowflake 採用にあたり、コストは重要な要素ですが、アップルトゥアップルの条件づくりが困難なため、自社のデータウェアハウスで実現したい課題解決にフィットするかどうかという自己分析が非常に重要になります。
パフォーマンス(性能)の比較
データ統合自動化を推進するFivetran 社は、クラウドデータウェアハウスのベンチマークを取得しています。
クラウド型データウェアハウスのベンチマーク2020:Redshift、Snowflake、Presto、BigQuery
結論は、Fivetran の立場からは、当然ですが特定製品を落とすことなく、どの製品も非常に高性能という評価をしていますが、単純に順位だけみていくと、Snowflakeが1位、BigQueryが3位という結果です。
この情報は一例で、様々なベンチマークが公開されており、それぞれ順位は変動しますが、Snowflake は上位ポジションで堅実に評価されています。
Cloud Data Warehouse Benchmark | Blog | Fivetran
Cloud Data Warehouse Performance Testing - Gigaom
ただし、パフォーマンス面では、Snowflake優位の情報も多いですが、一方でBigQuery がGoogle Cloud という専用クラウドかつGoogle の自社の膨大なリソースが活用できる点を踏まえると、BigQuery が優位性を発揮できる場面もありえると考えられます。最終的には自社の主要業務を試行してみる必要があるでしょう。
メンテナンス性の比較
コスト、性能も重要ですが、導入後のメンテナンス業務は製品の社内への定着化の重要な要素です。前述のとおり2製品ともフルマネージドサービスです。
定期、不定期の人間の管理者によるメンテナンス作業は不要です。DDL/DMLの実行環境やクエリ実行履歴についてもブラウザ上のWebコンソールで提供されており、専用のクライアントソフトの導入は不要です。
2製品ともクラウドサービスとして定期的にパッチ適用や機能バージョンアップされていきますが、サービス提供者側のメンテナンスに伴うダウンタイムはゼロとしています。
BigQuery はコンピュートリソースを指定する必要はなく、自動的にクエリに必要な処理を実行してくれる強みがあります。
Snowflake はコンピュートリソース(仮想データウェアハウス)とストレージが分離されているため、クエリに必要なコンピュートリソースの処理性能を簡単に変更できます。Snowflakeは「ニアゼロメンテナンス」を掲げ、運用省力化を徹底しています。
また、snowsql というコマンドラインのツールがあり、管理者業務の自動化/運用省力化がBigQuery と比較してシンプルに管理できます。
データベース機能の比較
BigQuery もSnowflake も標準SQL に対応しており、SQL生成支援機能も持っているので、従来のデータベースエンジニアやDBA スキルセットから違和感なく操作できます。
2製品のSQLの類似点について、Google 社の下記変換ガイドが参考になります。(一方で、BigQuery に寄せるための観点で書かれたドキュメントである点は評価から差し引く必要があります)
Snowflake SQL 変換ガイド | BigQuery | Google Cloud
その他、基本的なDDL、DMLおよびトランザクション、マテリアライズドビュー等の頻繁に使われる機能はBigQuery、Snowflake ともに実装しています。
前述のsnowsql といった管理ツールの状況をみると、既存のデータベースエンジニアによる管理業務に親和性が高いのはSnowflake といえるでしょう。
セキュリティの比較
フルマネージドサービスであっても、セキュリティの責任はユーザー側にもあるため、下記観点で評価項目を整理します。
BigQuery | Snowflake | 共通 | |
---|---|---|---|
認証 | Google アカウントで認証 | Snowflake アカウントで認証 | SSO、MFA(多要素認証) |
アクセス制御 | - | - | ・データ(列、行、タグ)へのアクセスコントロール可能 ・データセット共有可能 |
データ暗号化 | - | - | 通信暗号化、データ保管時に自動的に暗号化(ユーザー管理のカギ持ち込み可能) |
監視ログ | Cloud Logging、Cloud Audit Logs で可能 | アクセス履歴ビュー(Enterpriseエディション)で可能 | - |
BigQuery | Snowflake | 共通 | |
---|---|---|---|
認証 | Google アカウントで認証 | Snowflake アカウントで認証 | SSO、MFA(多要素認証) |
アクセス制御 | - | - | ・データ(列、行、タグ)へのアクセスコントロール可能 ・データセット共有可能 |
データ暗号化 | - | - | 通信暗号化、データ保管時に自動的に暗号化(ユーザー管理のカギ持ち込み可能) |
監視ログ | Cloud Logging、Cloud Audit Logs で可能 | アクセス履歴ビュー(Enterpriseエディション)で可能 | - |
基本的なセキュリティ機能はこのように2製品とも完備しています。
ネットワークレベルでは、Snowflake はVPC(仮想プライベートネットワーク)内での起動が容易で、それにともなうIPアドレスによるインバウンド、アウトバウンドのアクセス制御も可能です。
BigQuery でも同等のことは可能ですが、Google Cloud の管理スキルが必要なことを踏まえると、Snowflake の管理はわかりやすいといえるでしょう。
ただし、Snowflake のセキュリティ機能はエディションによって、利用不可のものもあるので、その点は留意してください。(企業セキュリティであれば、基本はEnterprise エディションの選定が必要)
SnowflakeとBigQueryの想定シナリオ比較
過去のテーブルへのクエリを行いたい
BigQuery:7日前まで可能。それ以前のデータはテーブルスナップショットを取得して代用。
参考:タイムトラベルとフェイルセーフによるデータ保持
BigQuery | Google Cloud
参考:テーブル スナップショットの概要
BigQuery | Google Cloud
Snowflake:Enterprise エディションで最大90日まで可能。(Fail-safe含めず)
参考:Time Travelの理解と使用
Snowflake Documentation
このような過去のテーブルをメンテナンス作業なしに長期の過去データと比較できるのはSnowflake に優位性があります。
まとめ
クラウド型DWHの選定は各製品とも特徴や長所があり、これを選べば間違いないというものではありません。
自分たちの要件実現や課題の解消のために必要なことを整理、言語化し、各製品の特徴をうまく使いこなし、長所を引き出していく必要があります。
その上で、クラウド型DWHがもつ汎用的なメリット(スモールスタート可能、運用管理コストが抑えられる等)を活用し、目的に合致した製品を選定し、まずは実際に使ってみましょう。
この「まずは実際に使ってみる」ことは重要で、星取表ではつかみきれなかった自分たちの課題や要件に気づけることもできます。また、クライアント側のBIツール との相性も重要で、DWHのみの星取表だけでなく、ユーザー側のデータ操作ツールとの組み合わせにも注意しましょう。
本記事の情報が、そのきっかけとなり、素晴らしいデータ分析基盤構築の支援になれば幸いです。また、構築に当たってはプロフェッショナルによる支援を使うことで、事業目的への最短距離を選べますので、ぜひご相談ください。
HubSpotの活用や、デジタルマーケティング、データ分析・基盤構築に関するeBook の数多くご用意しておりますので、気になる方はぜひご覧ください。