コラム

よくわかるIT新発見 第7回 「データマイニングを利用したビッグデータ活用方法」

更新

ビジネスでの活用が進んでいるデータマイニングについてCTCのエンジニアが解説

データを蓄積する基盤が整備され、大量のデータを高速に処理する技術が進歩したことにより、多くの企業に蓄積された情報(データ)の有効活用について関心が高まっています。

最近のビッグデータ活用事例を見ると、昔からあった技術であるデータマイニングが以前より身近に利用されていることが分かります。データマイニングが、今また注目を集めている理由について記載します。

データマイニングは、分析するデータの種類によって大きく2つに分けることができます。1つは、販売データの数量、金額などRDBに格納することができる構造化データを扱うデータマイニング。もう1つは、営業日報、電子メール、コールセンターの記録などといった固定の形式を持たない非構造化データを扱うテキストマイニングです。

分析の内容が異なるため、今回はデータマイニングについて紹介します。

ビジネスの様々な場面で利用されるデータマイニング

昔からよく使われる例では、「ビールと紙おむつ」が有名です。米国のスーパーマーケットの販売データを分析したところ、紙おむつを買うお客様はビールを買う確率が高いということが分かりました。この2つの売場を近くにしたところ売り上げが伸びたという話です。

この話の真偽は定かではありませんが、多くの企業では、過去のデータに基づいて予測を行っています。この予測の根拠は、過去のデータは安定的な因果関係を表していて、分析を通じて明らかにすることができるというものです。これらの因果関係は、将来の売上などを予測するために利用することができます。

身近にある例では、あるECサイトでは商品を購入すると、自動でお薦め商品を切り替えます。この商品を買った人は、次にこの商品に興味を示す確率が高いと予測して表示させているのです。このようにマーケティング分野では、顧客の特性に合わせてセグメントに細分化(セグメンテーション)し、更に顧客一人ひとりに合わせたきめ細かいターゲティングが可能になりました。

マーケティング分野での利用が先行していますが、それ以外の分野でもデータマイニングは利用され始めています。例えば、コピー機などのマシンログとして蓄積されたデータに適用すると、使用状況、メンテナンス情報から、故障を予測することができます。

図:主な分析手法と適用例

図:主な分析手法と適用例

データマイニングを利用するメリット

データの基盤が整備されると、分析に利用するデータも、社内データと社外データ、構造化データと非構造化データ、それらを統合したデータと種類を増やすことができます。例えば、社内データだけを考えても、販売日時という項目は、月別、週別、曜日別、日別、時間別などデータの粒度は細かく把握することができます。

一方でデータ項目が何千ともなると、何をどの切り口(分析軸)で分析するのかを、人が決めることは非常に難しくなります。また、全パターンを分析すると、今度は重要な要因を見つけ出すことが難しくなります。

そこで、重要な要因を自動で抽出する機能を持つデータマイニングが利用されます。人が設定しなくてはならないのは、「何に対して重要な要因」の「何に」あたる部分のみとなります。

下図は、機器の故障を分析するケースを表しています。図の上段は、人が設定した分析軸の中から要因を探す場合です。恣意的になりがちですし、機械的に選べたとしてもどの項目がどのくらい重要かは分かりません。図の下段は、データマイニングを利用した場合です。故障に対して重要な要因は、自動で選択される上、どのくらい重要か分かります。下の例では「稼働年月」、「メンテ箇所」、「故障間隔」、「印刷枚数」の順に重要となります(モデリング)。更に、このモデルを使うと予測値として機器1台1台の故障する確率(予測確率)を計算することができます(スコアリング)。

データマイニングが注目されている大きな理由は、社内外のデータが整備され、様々な分野でこの予測をすることができるようになった点にあると考えます。

図:機器の故障を分析するケース

図:機器の故障を分析するケース

CTCのビッグデータ活用を支援するサービス

CTCでは、お客様のビッグデータ活用を支援するために、データマイニングサービスを提供しています。データ分析でどんな結果が出るか、データ分析で使えるデータや手法を見極めたいというお客様向けのサービスで、弊社で一定期間、試行的な分析を行います。

データ分析の効果をご確認いただいたお客様には、継続的にデータ分析のサービスを提供させていただくのはもちろんのこと、お客様業務への定着化に向けた各種支援、各種ツールの導入支援など様々なサービスを提供しています。

次回はテキストマイニングについてご紹介します。

著者紹介

流通システム事業グループ 流通システム第3本部 流通クラウドサービス営業部 内田 康晴

流通システム事業グループ
流通システム第3本部
流通クラウドサービス営業部
内田 康晴

  • このページについてツイッターでツイート(新しいウィンドウで開く)
  • このページをフェイスブックでシェア(新しいウィンドウで開く)

このコラムに関するお問い合わせはこちら

※記載内容は掲載当時のものであり、変更されている場合がございます。