お問い合わせ
およそ2 分で読むことができます

データマートとDWHはどちらがおすすめ?それぞれの特徴やデータレイクとの違いなど

2021年12月1日

 

データマートとDWHの違い

それでは、データマートとDWHとの違いについて明確にしておきましょう。データマートもDWHもデータを格納するという点では同じです。しかしその役割や特徴が異なります。

この2つの名前からその違いを見てみると、DWHはウェアハウス(倉庫)という言葉から想像できるように、多様なデータを1か所にまとめて格納しておく場所です。つまり企業内で日々生み出される膨大なデータを横断的に分析・活用するために、複数の社内基幹システム等からデータを収集し、格納しておく巨大な倉庫のイメージです。

👉合わせて読みたい!「今さら聞けないDWHとは!データベースとの違いも解説

一方データマートは、多種類の品物がストックされている倉庫(DWH)から特定の品目を仕入れる小売店と捉えると、理解しやすいでしょう。つまり特定の目的のために、DWHから必要な部分のデータのみを抽出して格納しておくデータベースのことです。

一般的な活用方法はDWHに大容量のデータを蓄積しておき、部門ごとにデータマートを構築します。通常それぞれの部門で必要となるデータの種類は異なるため、部門ごとに必要なデータをDWHから抽出し、適時活用できるよう専用のデータマートに格納しておきます。

しかし必ずしもDWHとデータマートの両方を構築する必要はありません。DWHとデータマートは、それぞれ単体のみでも機能します。組織の規模や使用環境によって、どのようなシステムを構築すべきかについて検討し、予め決めておく必要があります。

ここでDWHとデータマートの主要な違いを項目ごとに比較してみましょう。似ているようですが2つの定義の違いを確認できます。

 

DWH

DWHはデータマートよりも大規模システムであるため、分析に利用できるデータが豊富な一方、導入に多くのリソースが必要になります。

  • ストレージサイズ:100GB以上
  • データの使用範囲:組織全体
  • 格納されるデータ:企業内に存在する多様なデータ
  • 構築に要するコストと時間:高価で長い時間を要する

 

データマート

データマートは、分析に用いられるデータの種類は限定的です。しかし小規模故に管理の負担や導入にかかる時間が短く、リアクションスピードが速いなど、使い勝手はDWHよりも良いとされています。

  • ストレージサイズ:100GB未満
  • データの使用範囲:単一部門
  • 記録されるデータ:小規模な複数の項目のデータ
  • 構築に要するコストと時間:比較的安価。短期間での構築が可能

 

データレイクとの違い

次にビジネスデータの蓄積や分析について論じる際によく出てくる、「データレイク」という概念との違いについて説明します。

 

データレイクとは

データレイクはその名の通りデータの「湖」を指します。湖と言えば概念的にはデータマート(小売店)やDWH(倉庫)よりも大きい範囲で膨大なデータが格納されることは容易に想像できますが、その中身と使い方についてはデータマートやDWHと異なります。

大きな違いは、データマートやDWHが構造化データを格納するのに対して、データレイクは構造化のみならず画像やテキスト、動画などの非構造化データを含めたあらゆるデータを格納する点です。

 

データレイクの特徴

構造化データを扱うDWHやデータマートは、利用可能な形に整理するために、スキルを持つ担当者がある程度環境を整備・管理し可視化する必要があります。データレイクを利用する場合には、データを分析したいユーザーが管理担当者の手を借りず、それぞれ独自のツールを用いて自由な視点でデータを分析することが可能です。

データレイクは豊富なデータを分析に用いることができるメリットがある一方で、構築や管理にかかる手間やコスト及び分析に必要となる専門知識は、DWHやデータマートに比べて大きくなります。

 

データマートのメリット

DWHもデータマートもそれぞれの利点があり、導入の目的に合ったシステムを構築する必要があります。

データマートを導入するメリットは、一般的に短期間での構築と管理の容易さ、導入と管理コストが安い点でしょう。システム全体が複雑になるほど導入の難易度や期間、コストは上がります。

次の項目で説明している独立型のデータマートの場合、環境にもよりますが数日から1週間での構築が可能な場合もあります。

導入する企業にとっての総合的なメリットは、下記に示すデータマートの種類によって変わってくるため、それぞれについて詳しく説明します。

 

データマートの種類

データマートには「独立型」「従属型」「ハイブリッド型」の3つの形態が存在します。ここからは、3つの特徴について見てみましょう。

 

✔独立型

独立型はDWHを用意せず、データマート単体で独立して構築されたシンプルなデータベースです。通常は企業の基幹システムなどから直接データを抽出し、適切な形に変換・ロードします。このデータを抽出・変換・ロードするプロセスをETLと呼びます。

 

✔従属型

従属型はDWHを予め導入し、データマートはDWHと接続します。データマートは特定の目的に絞って利用されるため、DWHから欲しい部分のデータのみ読み込みます。

DWHに格納されているデータは、基幹システム等からデータを抽出する際に既定のフォーマットに沿って整理されています。DWHからデータマートにデータをロードする際には、独立型のETLプロセスより簡単に実行できます。

✔ハイブリッド型

ハイブリッド型は、DWHに加えて別のデータベースからもデータをロードするものです。こちらも別のデータベースからのETLを別途設置する必要がありますが、DWHのデータに別の視点のデータを関連付けることで、新しい観点でデータを考察することが可能になります。

小規模で短期的に分析環境を導入したい場合には、独立型を選ぶ企業も多いですが、社内システムからのETLプロセスの構築に工数や時間を要します。一方、従属型を採用する目的はシステム管理の効率化やサーバーへの負担軽減、パフォーマンスの向上です。

取り扱うデータの規模やユーザーの数など、事前に導入目的や要件を明確にしておく必要があります。一旦システムを構築してしまうと改めて変更が必要になった際に、多大なコストと労力がかかってしまうので注意しましょう。

 

まとめ

ここまで、データマートとDWHの特徴や違いについて説明してきました。それぞれにメリットがありますが、最も重要なのは導入目的に見合うシステムの構築でしょう。

独立型、従属型、ハイブリッド型の、どのタイプが社内のデータ活用を達成するのに適合するのか、予め検討しておくことが重要です。

本記事を参考に、適切なデータ分析の環境を実現してください。

 

👉INSIGHT LABがオススメのクラウド型DWH「Snowflake」はこちら。

snowflakeとは

 

BI LAB編集室

Written by BI LAB編集室

BI LAB(データ活用研究所)編集室です。 BI、AI、DWHなどデータ活用に関するトレンドやニュースやコラムをほぼ毎日配信しています。押さえておきたい基本知識から、最新ニュース、事例インタビューやお役立ち情報・セミナーレポートまで、データ活用の専門家ならではの視点と情報量でお届けします。