テキストマイニングの活用シーン
まず始めに、テキストマイニングの言葉の定義について説明します。マイニング(mining)は「採鉱」という意味であるように、テキストマイニングとは、テキスト形式の大量データの山から価値ある情報を見つけ出すことです。
企業活動で考えた場合の価値ある情報とは、業務上の課題解決に利用できる情報と捉えることができ、データの山は社内に蓄積されたデータの他、社外のWebサイトやソーシャルサイト等のデータを含めた全てと考えられます。つまり、テキストマイニングとは、社内外から関連データを収集し、課題解決に役立つ隠れた情報をテキストマイニングの技術を利用して見つけ出すことと言い換えることができます。
図では、一般的なメーカーの企業活動を例に、代表的なテキストマイニングの活用シーンを、想定する業務課題と利用するデータの関係性を踏まえて示しています。
テキストマイニング技術と分析の進め方
テキストマイニングの基礎技術には、「形態素解析」と「構文解析」があります。概略を説明すると、形態素解析は日本語の文を最小単位の単語に分解する技術であり、構文解析は単語の品詞を利用して単語同士の係り受けを抽出する技術です。
これらの基礎技術を利用して、大量のテキストデータから単語や係り受けの発生頻度を定量化したり、時系列の推移やどのような話題が語られているかを把握したり、特定の単語や属性との関係性を把握するといった応用的な技術があります。
例えばコールセンターにおけるテキストマイニングの分析の進め方としては、特定目的に応じてお客様の声を分類した後に特徴分析をするのが一般的です。図は、お客様とオペレーターの会話履歴であるコールセンターログ(テキストデータ)を利用した分析例です。
この例では、問い合わせ対応改善の目的に対して「問い合わせが多い内容を分類」しています。製品(サービス)の開発・品質改善の目的に対しては「確認/検証したい評価項目に分類」しています。分類後には、データに付随する各種属性の情報を利用して特徴的な意見や傾向を把握しています。分析の実務の現場では、このようなアプローチが有効となります。
ソーシャルデータの利用について
最近は、TwitterやFacebookに代表されるソーシャルメディアのデータ(ソーシャルデータ)を利用して、テキストマイニングを実施する企業が多くなりました。テキストマイニングの分析は、利用するデータによって導かれる分析結果が異なるため、データの特徴を理解した上で分析をする必要があります。例えば、ソーシャルデータは、利用主体が若年層中心となっているため、高齢者の動向などに関連する分析には向かないといった一面があります。参考までに、以下の図では企業内で収集できるデータとソーシャルデータの特徴を示しています。
ソーシャルデータのような外部データの購入には費用がかかるため、図に掲載されている特徴を踏まえた上で、分析目的に合わせた適切なデータを収集することが求められます。
CTCのトライアル分析サービスのご紹介
データの絞り込みを行わないと、期待するような分析結果が導き出せない場合があります。業務課題の内容によっては、売上数値などの定量データの分析を組み合わせて、適切なデータの絞り込みを行ってからテキストマイニングをすることで、より効果的な分析結果を導き出せます。
今回はテキストマイニングツールについての説明は割愛しましたが、ツールの向き不向きは分析結果・分析精度を左右します。テキストマイニングツールにはソーシャルデータの収集機能を備えている製品もあるため、分析目的や費用対効果を考慮し、総合的な観点で適切なツールを選定する必要があります。
CTCでは、手軽にテキストマイニングを始めたいというお客様を対象に「トライアル分析サービス」をご用意しています。トライアル分析サービスでは、お客様の問題点をヒアリングした上で、実態に合わせた分析の進め方をご提案します。分析の範囲は、テキストマイニングと定量データ分析です。分析した結果のご報告とともに、活用についてもお客様と検討いたします。
第4回「注目が集まるビッグデータ」から今回までの計5回に亘って、ビッグデータについて連載してきました。ビッグデータの全体像を理解するためにも、ぜひ5回分のコラムを通してご覧ください。
著者紹介
ITサービス事業グループ
ソリューション事業推進本部
ビッグデータ・アナリティクス部
シニアコンサルタント
柿沼 章