
大量のデータが発生している現代で、マーケティングの手法の1つとしてデータマイニングが活用されています。
今回は、データマイニングとはどのようなものか、有効活用するための方法やツールについて解説します。
目次
データマイニングとは

データマイニングとは大量のデータの中から規則性や関連性など「知識」を見出すための技術のことをいいます。
IoTやエッジコンピューティングといったテクノロジーの発展、またインターネットやSNSの普及により、企業は多くのデータを手にすることができるようになりました。その膨大なデータは保持しているだけでは何の価値もありません。そこでデータを活用するために「データマイニング」が必要となります。
データマイニングの手順
①データ収集
データマイニングを行うにはまず分析するためのデータが必要となります。データが多ければ多いほど分析の信憑性が上がるため、可能な限り多くのデータを集めるとよいでしょう。自社で持ち得るデータが少ない場合には誰でも手に入れることができるオープンデータやWebデータを活用するのもひとつの手です。
大量のデータ保管場所としてデータの蓄積だけを目的とする「データウェアハウス」を活用することも多いです。
収集したデータはそのまま分析に使えないことが多いです。一定のルールを用いて分析に適した形式に合わせていくことが必要となります。分析の妨げとなる外れ値や欠損値などは削除しておくとよいでしょう。 収集したデータを目的に適した分析方法を用いてデータマイニングを実施します。 データマイニングには仮説を用意せずに行う「機械学習」と仮説を立てて行う「統計分析」があります。解決したい課題によって手法が異なるので、それぞれの特徴を掴んでおきましょう。 機械学習は機械が大量のデータからパターンやルールを発見し、データに含まれているどの要素が結果に影響しているのかを明らかにしていく手法です。 この手法は仮説を立てずにコンピュータがデータだけで判断していくため、データの新しい分類や人間にはわからない関連性を発見していきます。また、「ある事象の原因の特定」や「顧客ごとの最適なマーケティングシナリオの選定」など複雑な条件が絡む課題の分析や最適化も機械学習の得意分野です。 統計分析は事前に仮説をたて、統計学や確率論を活用しその仮説が正しいかを判断する手法です。 統計分析を行うには必要なデータを集め、検証したい課題や事象に合わせて適切な分析手法を用いて分析を行います。統計分析は、仮説の正誤判断がゴールになっているため、機械学習のように想定外の結果が出ることはありません。 データマイニングにはいくつかの分析手法がありますが、代表的な3つの分析手法を紹介します。 クラスタリングとはデータ間のを類似度性に基づいてグループ分けしていく分析手法です。 例えばある製品に対して、興味がある人とない人と分け、興味がある人を年齢や性別などいくつかの特徴別にグループ分けし、複数の条件による整理や分類することによってデータを視覚化します。 また、クラスタリングには階層クラスタ分析と非階層クラスタ分析の2種類があります。階層クラスタ分析は最も似ている組み合わせから樹形図を作成し、より細かく分類します。非階層クラスタ分析は、異なる性質のもの同士から、似た性質同士でグルーピングする手法です。ビッグデータのような複雑で階層構造に分類できないデータ群の分析に適してます。 ロジスティック回帰分析はデータと事象の関連性を発見することで、特定の結果を予測する分析手法技術です。特に「Yes」「No」を明確に定義するものを分析する場合に有効です。 例えば、1日あたりのアルコール摂取量と喫煙本数のデータとがん発症の有無との関係性を調べることで、該当摂取量を超えている人のがん発症を予測することもできます。 マーケットバスケット分析とは販売データから同時に購入されることの多い商品を見つける手法です。 関連性がないようで、実は同時に購入されることの多い商品や、逆に関連商品のように思えても同時に購入することが少ない商品を明確にすることが可能です。 例えば、1992年にアメリカのシステム会社が、あるスーパーマーケットのデータを分析したところ、おむつとビールがセットで購入されやすいということが判明しました。 おむつとビールは全く関係を持ちませんが、バスケット分析を行うことで店舗の売上を伸ばせるのです。 データマイニングはさまざまな業界で活用されています。それぞれの業界におけるデータマイニング活用例をご紹介します。 金融業界では、顧客が普段利用している支店やATMの場所、決済金額といった行動パターンを元に、キャッシュカードの盗難やクレジットカードのスキミングなどを検知し、不正利用を最小限に抑えるのに役立ちます。また、過去の契約者のデータから見込み顧客へ向けたローンや投資信託などの金融商品の販売促進のほか、既存顧客の解約予測とその対策も可能となります。 製造業では、主に製造設備の分析にデータマイニングが活用されることが多いです。例えば、生産設備の情報をリアルタイムに分析することで、設備不良が起こる前に設備の保守や整備を実施できるようになり、安全性や生産性の向上が期待できます。 医療分野では、過去のカルテから、データマイニングにより、患者の特性ごとに効果の高い治療法を導き出すことができます。医療現場では医師の経験則による判断に頼りがちですが、膨大なデータを分析し、「このようなデータの時はあの病気である可能性が高い」といった関連性を発見できれば、経験の浅い医師でも正確な診断が可能です。 小売業においては、顧客のデータや天候、曜日、時間帯、販売実績などを分析することで、いつ・どんな商品がどれくらい売れているかの把握が可能になります。これらの情報から商品の仕入れ時期や量を調節したり、ターゲットを従来より絞り込んだキャンペーン展開やサービス紹介など、効果的なアプローチができます。 教育機関では、学習の進捗状況やテストの結果などを分析することで、生徒が得意・不得意としている教科や内容の把握、各生徒の理解度を把握できます。成績をもとに生徒一人一人に応じた点数改善プログラムを実行する、課題の完成度を事前に実行するといった施策が可能です。 次にデータマイニングツールの紹介をします。利用用途に応じたツールを選びましょう。 SOFIT Super REALISMは日本ソフト株式会社が提供しています。企業にある膨大かつ多様なデータを一元管理し、検索・集計・計算といった処理を超高速で行います。国際特許技術を活用により、世界最高速レベルの処理速度を誇るため、テーブル最大20億件レコードを瞬時に処理、AIの導入によりデータの整備時間を最大100分の1に短縮するなど、短時間で大量データを処理することが可能です。 NTTデータ数理システムが提供しています。製造から金融、運輸、バイオ技術などあらゆる分野に適用できる高機能汎用ツールです。専門的な知識を持たない初心者でも活用できます。自社開発パッケージのため、サポートやカスタマイズなど様々なニーズに対応し、必要に応じてパッケージの一部を分析エンジンとしての利用も可能です。 データマイニングは適切な手順でデータとツールがあればできるように感じている人もいるでしょう。しかし、それだけでは失敗してしまう可能性もあります。データマイニングを行う際の注意点を挙げておきます。 データマイニングツールはあくまで大容量のデータに対する分析を手早く分析することが目的であり、それのみを実施してくれるツールです。そのためのデータの準備や条件の設定などは人が行う作業のため、事前にデータや仮説の準備をする必要があります。 膨大なデータからどのような分析手法が適切かどのツールを活用すべきか、などデータ分析に関する知識を持たなければデータマイニングはできません。知識がないまま、「〇〇分析ができる、△△がわかる」といったツールの売り文句だけで始めてしまうと、分析自体が意味のないものとなる可能性もあります。 今回はデータマイニングとはどのようなものなのか、活用方法や手順、また活用例を用いて解説しました。大量のデータが発生している時代において、データ活用は企業成長に欠かせません。データマイニングはさまざまな業界で広く活用されており、データ活用としては始めやすい技術です。 しかし、データマイニングを行うためには専門的な知識や、「使える」データが必要となります。PigDataでは膨大なWebサイトのデータを収集・整形しデータ活用に関する課題解決のお手伝いをしています。データマイニングをするためのデータがほしい、持ち得るデータをうまく活用したい、といった課題がありましたら、ぜひご相談ください。
②データクレンジング
③データ分析
データマイニングの手法
機械学習
統計分析
また、最初に立てた仮説が正しいともかぎりません。統計分析によって仮説を検証し、また新しい仮説を立ててデータの収集・分析のサイクルを繰り返します。データマイニングの具体的な分析手法
クラスタリング
ロジスティック回帰分析
マーケットバスケット分析
データマイニングの活用例
金融
製造
医療
小売り
教育
データマイニングツールの紹介
SOFIT Super REALISM
Visual Mining Studio
データマイニングの注意点
ツールに頼りきらない
データ分析に関する知識が必要
まとめ