データマイニングとは?データから有用な知見を発見する手法を解説

データマイニングとは?データから有用な知見を発見する手法を解説

昨今、ビジネスの現場に AI による機械学習や、BI(ビジネスインテリジェンス)といった用語が広く浸透し始めてきました。その背景には、膨大なデータをいかに効率良く解析し、解析結果からビジネスに役立つヒントを導き出すかが、多くの組織で喫緊に取り組むべき課題となっていることがあります。 この課題の解決策として注目されている手法のひとつが、「データマイニング」です。ここでは、Tableau に代表される BI プラットフォームの中核ともいえる、データマイニングについて詳しく解説します。

Tableau を無料で試す

データマイニングは AI を利用して有用なデータを見つけ出す手法

まずは、データマイニングという言葉そのものを紐解いてみましょう。データは「情報」のことで、マイニングには「採掘する」という意味があります。データという採掘場から、貴重な鉱石を採掘するというイメージです。

■データマイニングのイメージ

IoT(Internet of Things :モノのインターネット)やエッジコンピューティング(IoT 端末などの近くでデータ処理を行い、クラウドなどの上位システムへの負荷を軽減するネットワーク技法)といったテクノロジーがあらゆるビジネスの現場に浸透したことで、情報の収集は以前よりも簡単になり、その結果として組織はかつてないほど膨大なデータをその手に収めることができるようになりました。 しかし、単にデータが手元にあるだけでは、サーバーやクラウドのストレージが圧迫されるだけで、何の役にも立ちません。データは活用することに価値があるのです。そのため、収集したデータを組み合わせたり、比較したりして分析し、分析結果から何らかの知見や傾向を得ることが求められます。つまり、ビッグデータから価値を引き出す、掘り起こす必要があるのです。

データからの掘り起こし作業は、これまで人の手によって行われてきましたが、現在はデータの飛躍的な増大により、すべて処理することが難しくなりつつあります。そこで、従来のデータ分析を大幅にレベルアップさせたものとして注目されているのが、AI による機械学習を使って、ビッグデータから有用なデータを見つけ出すデータマイニングなのです。 データマイニングによってデータから採掘された知見の鉱石をどのように利用し、ビジネスに活かすかは、最終的に人の判断にゆだねられます。データマイニングは、その前段階のプロセスから人的リソースを解放し、最終的な判断のプロセスにリソースを集中できるようにするための技術といえるでしょう。

Tableau を無料で試す

データマイニングをするための準備

データマイニングで知見を発掘するためには、その原資となるデータの蓄積が欠かせません。 そして、蓄積されるデータも、単にそこにあればいいというわけではなく、データマイニングに適した状態で整理されている必要があります。続いては、データマイニングを行うための準備について解説します。

■データ蓄積のイメージ

データマイニングの原資となるローデータを保管する

一般的に、データマイニングの原資となるデータの量が多ければ多いほど、得られる判断材料の確度や有用性は高まります。また、データは新しければいいというわけではなく、古いものも漏れなく蓄積されている状態が望ましいのです。なぜなら、新旧データの比較で経年変化が可視化でき、将来のビジネス予測をする際のヒントになるケースもあるためです。

そのため、データマイニングを活用している組織の多くで、収集したデータをひたすら蓄積するということに特化した「データレイク」という、物理的もしくは仮想的な環境が導入されています。データレイクには形式や内容を一切問わず、収集できるすべてのデータが時系列で集約されます。

蓄積データをデータクレンジングで正規化する

データレイクには、どんなデータでも受け入れられる柔軟性がある一方、まったく整理されていない状態でデータが格納されています。このような“生のデータ”は、そのままでは単なる数値のかたまりに過ぎず、形式も内容もバラバラです。 これでは、そもそもデータマイニングのシステムに必要なデータを読み込めなかったり、読み込めたとしてもそこから有用な知見を引き出すことに時間がかかりすぎたりして、期待していた成果を上げることはできません。そこで、データレイクにある生データを何らかの法則に則って整理し、データマイニングの精度を高めるために正規化する必要があります。

正規化とは、データをある規則にもとづいて整理し、利用しやすくすることです。このプロセスおよびそれを実行するためのツールのことを、「データクレンジング」といいます。 クレンジングと聞くと「化粧落とし」などの汚れを落とす行為を思い浮かべますが、データマイニングの目的を果たすために、データから余分なものを削ぎ落とすため、このような呼び名がつけられました。

■データクレンジングのイメージ

正規化後にデータをデータウェアハウスに格納する

クレンジング後のデータを、データ分析に使用できる状態で集約したものが、データウェアハウスです。そのため、データウェアハウスのデータは、データレイクのデータと比べて利用目的が明確で、検索性にも優れています。 Tableau などの BI プラットフォームで分析するデータは、基本的にこのデータウェアハウスから呼び出されたものになります。なお、分析に使うデータ量がそれほど多くない場合、データレイクやデータウェアハウスは必ずしも必要ではありません。

Tableau を無料で試す

データマイニングを用いた分析手法と従来の分析手法の違い

データマイニングの準備段階では、データの蓄積と、データを次のプロセスに受け渡すための加工が必要であることを解説しました。では、こうして最適化されたデータを使って、どのようにデータから有用な情報を発掘し、答えを導き出せばいいのでしょうか。 まずは、従来のデータ分析方法とデータマイニングを用いた分析方法の違いについて解説します。

従来のデータ分析手法

従来の人の手、具体的には専門知識を有するデータアナリストやデータサイエンティストに頼る形のデータ分析では、「回帰分析」「主成分分析」「因子分析」などの手法が使われてきました。 これらはいずれも、何らかの仮説を事前に立てた上で、その仮説を実証、裏打ちするようなデータを収集・分析し、最善策を導き出すというものです。この手法は、仮説に説得力を持たせることが目的となっているため、導き出されるのは想定の範囲内の結果にとどまります。これまではそれでも良かったのですが、市場環境が絶え間なく変化し、データが際限なく増え続ける現代においては、想像以上の労力が必要となります。

データマイニングを用いた分析手法

データマイニングの場合、専門家ではなく、AI による機械学習の技術が主役になります。 機械学習ではコンピューターが人間に代わり、膨大なデータからそれぞれの意味や傾向などを自律的に精査して、その結果を提示します。そのため、適切なデータをシステムに受け渡すだけで良く、必ずしも仮説を立てる必要はありません。また、使用するデータマイニングツールによっては、従来のデータ分析のように専門知識を必要とせず、最低限のスキルでデータを発掘できる点もメリットです。

つまり、データマイニングを活用することで、これまで想像もしなかったような、未知の発見に至るチャンスが広がるのです。機械学習は学習を重ね、より多くのデータを与えるほど、その結果の精度も上がるため、市場環境や顧客行動の急速な変化にも比較的容易に対応できます。

Tableau を無料で試す

データマイニングを用いた分析手法の種類

データマイニングを用いた主な分析手法には、下記の 3 つがあります。データマイニングは、今やさまざまな業種、組織で採用されていますが、適材適所でそれぞれの分析手法を使い分けることで、ケースに応じた最適な答えが導き出せるでしょう。

ロジスティック回帰分析

データマイニングの分析手法の中でも、最も一般的なのがロジスティック回帰分析です。 ロジスティック回帰分析は、「特定の事象の発生率」を判別する際に用いられるもので、EC サイトなどでのキャンペーンや、セールなどのイベント告知に対するユーザーの反応率を測定したり、気象観測データにもとづいた災害発生確率を求めたりするといったケースで使われます。 必要なデータが単純な構造で、かつ大量にあることが前提となるため、AI および機械学習が最も得意とする分析手法です。

クラスター分析

クラスター分析は「クラスタリング」とも呼ばれ、データを一定の法則にもとづいてグループ化(クラスター化)した上で、グループ単位で最適な提案をし、施策を打つことを目的とした分析手法です。 特に、マーケティングの分野で重宝され、EC サイトでお酒をよく買う人、複数の商品をまとめて買う人などといった行動属性によってユーザーをグループ分けし、それぞれのグループの次の行動を先読みして、効果的なキャンペーンを提示するといったケースで有用です。

アソシエーション分析

アソシエーション分析は、属性が異なる複数のデータ間の相関関係を見いだし、なぜその結果になったのかを分析する手法です。 世界的な規模を持つ大手 EC サイトでは、ユーザーが購入した商品のデータにもとづき、別の商品をレコメンドする機能は、このアソシエーション分析によって実現しています。なお、アソシエーション分析は、EC サイトの買い物カゴに入れた商品の組み合わせを学習、理解することから、「バスケット分析」「マーケットバスケット分析」とも呼ばれています。

Tableau を無料で試す

Tableau でデータマイニングを始めよう

Tableau でデータマイニングを始めよう

データマイニングと BI プラットフォームの関係は、非常に重要なものとなっています。 データの収集から蓄積、クレンジング、知見の採掘、可視化、分析という一連のプロセスのうち、知見の採掘を担うのがデータマイニングです。そして、データマイニングの機能は、BI プラットフォームで提供されることが当たり前になりつつあります。 もちろん、BI プラットフォームである Tableau にも、統計学、パターン認識、AI(人工知能)といった数理科学、情報技術を使う本格的なデータマイニング機能と、データクレンジングを支援する多次元分析機能などが標準で備わっています。そして、ビッグデータから、迅速かつ簡単に、ビジネス価値を掘り起こすことができる、すなわちデータマイニングができるようになっているのです。

通常、ビッグデータから必要なデータを取り出し、それらを分析プロセスに受け渡すためには、R や Python といったプログラミング言語の習熟が必要となります。しかし、Tableau のデータマイニング機能では、コード不要でさまざまなクエリを実行できるため、専門知識やスキルがないユーザーにも、データ分析が解放されるのです。 Tableau は、国内外の多くの企業に導入され、さまざまなビジネスに活用されています。まず、無料トライアルからスタートしたい方は、こちらより詳細をご確認ください。