DWHとは
Warehouseとは「倉庫」を意味します。つまりデータウェアハウス(DWH)とは文字通り「データの倉庫」という意味で、社内のあらゆるデータを整理して格納しておき、いつでも欲しいときに取り出すことが可能になります。
ビジネスで使用するデータは通常複数のシステムに分かれて別々に管理されています。例えばCRM(Customer Relationship Management)や経理システムなどのように、異なる環境で目的別に情報を管理していることが一般的です。
ところがデータを別々のシステムで管理していると横断的な分析をする場合に非常に複雑な操作が必要になり、事業の改善に役立てることが困難です。
そこで異なるシステムで管理されているデータをDWHに移して整理することで、社内で保有する膨大なデータを横断的に利用することが可能になり、過去のデータから自社の事業を多角的に分析しやすい環境を作ることができます。
デジタルトランスフォーメーションが加速し、あらゆるデータが電子化されている現在において、DWHはデータ分析による現状把握や将来予測に有益な環境を提供します。
DWHの特徴
それではDWHの特徴について少し整理しましょう。
DWHは基本的に4つの特徴を持っています。以下一つ一つ詳細を解説します。
データはサブジェクトごとに整理される
異なるシステムに保存されていたデータを単に一か所にまとめただけでは、データ間のつながりが分からず、分析が困難になるでしょう。
しかしデータをサブジェクトで整理することで、横断的なデータ分析が可能になります。
例えば「商品名」ごとにデータを整理すると、全データを商品名でまとめた形で出力することができ、分析が容易になるメリットがあります。
複数のシステムに格納されているデータを一つの統合データとして扱う
複数のシステムからデータをまとめた場合、同じ内容のデータであっても形式やフォーマットが異なることがあります。例えば日付のフォーマットが違っていると、異なるデータとして認識されてしまい正しい分析ができません。
そこで同一の内容のデータを同じものと認識させることが必要になります。そうすることで異なるシステムから持ってきたデータ同士でも、同じ顧客IDのデータがあれば同じものとして統合することができるようになります。
データは時系列で整理される
データが時系列で整理されると、非常に有用な分析が可能になります。
例えば毎月や毎年のある特定の日のデータを取り出して比較したり、あるイベントがあったときのデータを取り出して通常の日と比較したり、あるいは過去数年間のトレンドを見たりと、様々な角度から事業の状況を分析できます。
データは削除されず永続的に保存される
一般的にDWHに格納されたデータは削除されず、新しいデータが随時蓄積していくことになります。これによって時系列データはより長い期間のトレンドを追うことが可能になり、また何か変化が起きた際の要因を解析したい場合にも有益です。
このようにDWHは、ビジネスデータを有効利用するためになくてはならないシステムと言えるでしょう。
データベースとの違い
データを保存して参照するツールとして、データベースを思い浮かべる方も多いでしょう。確かにデータベースもデータを格納して利用するという点ではDWHと同じですが、データベースは記録と参照を目的に設計されます。
データを解析目的で利用するのであれば、DWHの方が効果的でしょう。ここからは、もう少し詳しい違いについて説明します。
データの格納方法
通常CRMや経理システムなどには、それぞれの基幹システム自体にデータを保存・参照するデータベースが備わっています。しかしその構造はそれぞれのシステムに必要な情報に特化しており、分析目的でデータを出力・編集するには複雑な操作が必要となります。
また複数のシステムのデータベースに格納されているデータを同じパラメータで比較したいときなどは、データの転送や統合などの作業に専門的な知識と多大な労力が必要です。
ストレージ容量
一般的にデータベースのストレージ容量はそれほど多くありません。
それに比べてDWHの容量はかなり大容量となっています。
なぜならデータベースに格納するデータは長期保存されず、一定の期間で入れ替わります。
一方、DWHに統合されたデータは基本的に破棄されず、新たにデータが追加されていきます。
👉合わせて読みたい!
「データマートとDWHはどちらがおすすめ?それぞれの特徴やデータレイクとの違いなど」
DWHの使用時の流れ
それでは、実際にDWHを導入する際の主要な流れについて説明します。
①目的の定義
何よりもはじめに、データ分析によって何をもたらしたいのかを整理します。闇雲にデータを弄っても有益な結果をもたらすことは期待できません。
自社で保有するデータを使って、どのような結論を導きたいのかを明確に定義しておきましょう。
②要件の定義
データ解析の目的が定まり、DWHを導入することが決まったら次は要件の定義です。自社のデータを解析するのに必要なDWHの要件を明確に定義します。
目的の分析結果を得るために必要な自社のデータを確認し、必要となるDWHの要求仕様を確認します。この際関連する部門やIT部門との連携が欠かせません。
③DWHの選定
要件の定義が固まり、要求仕様が決まれば、予算と照らし合わせて最適な製品やサービスを選定します。
④自社内での環境構築
DWHの選定が終わったら、いよいよ自社のデータベースとの接続を実施します。そして必要なデータを各データベースから抽出し、定義した通りにDWHに格納されることを確認します。
その際にはデータの加工が必要になることが多く、一般的にはETL機能を用いて抽出から加工までを行います。
また各データベースからデータを取得する頻度なども設定するなど、各データベースを管理する担当者と詳細な整合が必要となります。
このプロセスが導入において最も苦労するところであり、プロバイダや専門家のサポートが必要となることがあります。
⑤データ分析・レポート
正しくDWHの環境構築が完了したら、BIツールなどを用いてデータを分析・可視化します。各分析結果をダッシュボードなどで整理し、意思決定に利用できるようプロセスを構築しましょう。
👉合わせて読みたい!「おすすめBIツール9選!最適なBIツールの選び方」
まとめ
これまでDWHの基本について整理してきました。
社内で眠っているデータを事業に活用しようとする企業にとって、DWHは重要な要素となるでしょう。DWHの基本や特徴、データ活用の全体的な流れを把握し、迅速な意思決定のサポートができるよう検討をしてください。
INSIGHT LABでは、大手企業を含む200社以上のデータ活用支援経験から、クラウド型DWH「Snowflake」をオススメしております。