データマイニング (Data mining)とは、大量のデータの中から、有用な知識を掘り起こす(マイニングする)ことを指します。
特にテキストデータからデータを掘り起こすことを「テキストマイニング」、Web上にある情報からデータを掘り起こすことを「ウェブマイニング」と呼びます。
データマイニングの目的は、「仮説検証」と「知識発見」の2つに分けられます。
仮説検証の場合は、仮説の検証に必要なデータを収集して分析します。つまり、何かしらの目的に沿ってデータをマイニングし、「回帰分析」「主成分分析」「因子分析」などの統計手法の中から目的を達成できる手段を選択して分析することになります。
一方、知識発見の場合は、データマイニング自体に仮説や目的は必要ありません。蓄積したデータの中から、新しいパターンや新しいルールなどの知識を発見することが目的となります。ここでは、「機械学習」や「ディープラーニング」といった手法が使われます。
データの活用が重要視される現代ビジネスにおいて、データマイニングを活用していくことも一般的になってきています。
データマイニングの概要が分かったところで、データマイニングの活用方法をご紹介します。
データマイニングは膨大なデータの中から規則性や法則をマイニングすることで、ビジネスに役立てることができます。
活用できるジャンルは多岐にわたりますが、ここでは小売業、製造業、教育の事例を紹介します。
データマイニングは、小売業の販促活動に活用できます。
顧客の行動データや購買データ、Webサイトの閲覧データなどをマイニングすることで、どのようなタイミングで何をすれば売上に繋がるのか、といったことが見えてきます。
また天候や季節などの、直接は顧客に関係しないデータを合わせてマイニングすることで、さらに効率的な販促活動も可能です。このような情報は、例えばキャンペーンの実施タイミングなどに活用できます。
データマイニングは、製造業の設備管理でも役立てられます。
設備機器の稼働状況や負荷のかかり方を見ることで、効率的なメンテナンスを行うことができます。
例えば、どのくらい使用するとどの場所に不具合が発生するのか等を事前に知ることができれば、壊れる前にメンテナンスすることができるのでコスト削減に繋がります。
データマイニングは教育分野でも活用できます。
例を挙げると、学習者の進捗データから、今後の学習理解度を予測することです。このデータから、学習者に合わせたカリキュラムを組みやすくなります。
それでは、データマイニングの具体的な進め方を見ていきましょう。データマイニングを行う際は、データマイニングを行う基となるデータの扱い方が重要になってきます。
データマイニングを進めるにあたっては、データの収集をすることがファーストステップとなります。通常、データマイニングするデータの母数が大きければ大きいほど、有効なデータを掘り起こす可能性が高まります。
そのため、膨大なデータを保有するためのデータウェアハウス(DWH)の導入を検討することも必要になるでしょう。
データウェアハウスとは、その名の通りデータを格納する倉庫(ウェアハウス)のことです。データウェアハウスと似た概念にデータベース(DB)もありますが、データベースはデータの削除や更新も行うことに対して、データウェアハウスはデータに加工を行わず、ひたすら蓄積し続けることが特徴です。
データマイニングに際してデータウェアハウスは必須ではありませんが、導入を検討することがオススメです。
セカンドステップとして、収集したデータを加工します。
加工の目的は、収集したデータからデータマイニングが行えるようにすることです。データの形式の統一や正規化などを行い、正確にデータマイニングできるようにします。
このタイミングで、収集したデータに含まれるノイズなども除去していきます。このステップを「データクレンジング」と言います。
データを加工したら、いよいよデータマイニングを行います。このタイミングでは、前述したように「仮説検証」または「知識発見」の目的に沿ってデータを探索していきます。
最後に、データマイニングの注意点をご紹介します。
データマイニングの基となるデータの量と質には注意しましょう。
まず、データの量が少なすぎると、正確な分析ができません。どのようなデータ分析を行う時もそうですが、データの母数は十分に確保しましょう。
また、データにノイズが多く含まれていても、正確な分析をすることができません。データマイニングを行う前に、データのノイズを除去するデータクレンジングを確実に行うようにしましょう。
データマイニングを行ったとしても、必ず相関関係が見つかるわけではないことを理解しましょう。
例えば、データマイニングを行った結果、一見関係のないAという飲料とBという日用品を同時に購入する人が多かったとします。
この時に分かることは「AとBを一緒に買う人が多い」ということです。ここに「A(B)を買うとB(A)も買う」という相関関係はない、ということを認識しておくことで、間違った施策を打ってしまうことがなくなります。
データマイニングを行ったとしても、必ず何かが発見できるわけではないことも認識しておきましょう。
仮説を用意しないでデータマイニングを行ったとします。いわゆる知識発見のために行う「機械学習」です。この結果「何も発見できなかった」という結果になることがあります。
データマイニングを行ってるデータの絶対量が少なすぎたり、データにノイズが含まれていたりすることもありますが、本当に何もない可能性もあります。
データマイニングを行えば全てが分かるわけではない、ということは理解しておきましょう。一方、何もないことが判明し、全く別のフィールドに進出する必要があることが分かった、ということもあります。
データマイニングは、膨大なデータの中からビジネスのヒントを発見するのに最適な手法です。
データマイニングには、仮説を用意して検証するパターンと、仮説を用意せずフラットに臨むパターンがあります。都度の目的に合わせて、どちらの方法を選択するか決めるようにしましょう。
また、データマイニングを行う際は、基となるデータの量と質が重要です。十分な量のデータを用意し、データにノイズが含まれないようにしましょう。
最後に、データマイニングを行えば全てが解決するわけではないことを認識しておくことも重要です。データマイニングはあくまで一つの手段と捉え、過信しすぎないように気を付けましょう。