
ビッグデータの活用が当たり前になった今の時代、幅広い企業で「データマイニング」が利用されるようになってきました。多くの情報を分析し、データの関連性などを見つけ出すことで、新しい知識を得る作業です。様々な手法でデータを分析し、人間だけでは気づけないような知識を得ることを目的としています。
重要なテクノロジーとはなっていますが、データマイニングについて正しく理解できていない人も多いでしょう。また、データマイニングを業務に取り入れているものの、効率的な方法を模索している人もいるはずです。今回は、データマイニングの基本から効果的に実施するための方法などを解説します。
目次
データマイニングとは
データマイニングとは、大量のデータから有益な情報を抽出し、新たな知識を見出すための技術です。統計学や機械学習などいくつもの技術を組み合わせ、データのパターンや相関関係などを特定します。これにより、企業はデータに基づいた経営戦略や営業戦略などを立てられるようになります。
近年は、テクノロジーの進化により、社内には営業活動の実績や従業員情報など多くのデータが蓄積されています。また、社内だけではなく外部にもオープンデータやWebデータなど大量のデータが存在します。このような膨大なデータを活用するためにデータマイニングが重要となっています。
データマイニングの具体的な分析手法
データマイニングには、いくつもの分析手法があります。その中でも代表的な4つを紹介します。
クラスタリング
クラスタリングは、データの類似性に注目して分類する手法です。「クラスター」は日本語で「集団」と訳され、類似性からデータの集まりを見つけるという意味があります。主にマーケティング領域で使われる手法で、顧客セグメントの分析などに活用されます。
例えば、年齢や性別、購入した製品などいくつもの観点から顧客を分類します。それぞれについて詳細に分析することで「どの年齢へどの製品をマーケティングすれば良いか」「顧客単価はどの程度が目安か」などの情報を得られるのです。
ABC分析
ABC分析は、商品をカテゴリーごとに分類し、優先度を決める方法です。「売れ筋」となる商品を中心として、カテゴリーごとに注力することができます。またカテゴリーに分類することで在庫管理などに役立ちます。
例えば、Aカテゴリーの商品が不足すると、販売機会の損失を生み出しかねないため、欠品がないように多めに在庫持つようにします。対して、Cカテゴリーの商品は売上数が少ないため、在庫過剰が発生しないようにします。適切な在庫管理のために、ABC分析が役立ちます。
ロジスティック回帰分析
ロジスティック回帰分析は、いくつかの要因から2つの結果が起きる確率を示す統計の手法です。例えば、2つの結果とは「商品を購入する」「商品を購入しない」などを指します。ロジスティック回帰分析により、「どの程度の確率で商品を購入するか」を予想できるのです。分析にあたっては条件を細かく設定することで意思決定に役立てやすくなります。
マーケット・バスケット分析
マーケット・バスケット分析は、購入される商品の関連性を特定する手法です。消費者が購入する商品のパターンを探し出し、販売戦略を立案します。例えば、商品Aと商品Bに関連性がある場合、クロスセルを行うことで売上向上が見込めます。
また、ECサイトのリコメンド機能などにも分析結果を活用できます。例えば、関連がなさそうな商品でもマーケット・バスケット分析で関連性がある場合に顧客へリコメンドを行うこともできます。
データマイニングの手順
データマイニングの手順を5つのステップで解説します。
目的の決定
データマイニングでは「どのような知識を得たいか」という目的の決定が重要です。目的なしにデータマイニングに着手しようとしても、必要となるデータの種類すら決定できないため、スタートすることができません。
目的によって、準備すべきデータや分析の手法は大きく異なります。準備に不備があると、データマイニングの品質が悪化するため、まずは目的を明確にしましょう。
必要なデータの収集
データマイニングの目的が決定すれば、必要なデータの収集へ進みます。一般的に、データ量が多ければ多いほど分析の精度が高まるため、できるだけ多くのデータを集めるべきです。
データの収集にあたっては、社内のデータはもちろん、社外のデータも活用しましょう。例えば、社内の売上データだけではなく、ECサイトの売上ランキング・またその商品の価格の推移など社外のデータも活用するのです。社外のデータは、自分たちで収集したりデータの販売会社から購入することも可能です。
データの整理・グルーピング・加工
データの収集が完了すれば、データマイニングに向けてデータの整理・グルーピング・加工などを進めます。事前準備に力を入れなければ、データマイニングの品質が下がる可能性があるため、丁寧に実施することが重要です。
例えば、データの重複が分析結果に影響を与えるならば、削除する必要があります。また、文字列に全角と半角が混在しているならば、これらも事前に加工して整えておきます。全角と半角の違いですらデータマイニングの世界では、別物であると捉えられる可能性があるため、分析の品質を下げる可能性がある要素は極力排除するのです。
データ間の関連性を分析
データの準備まで完了すれば、実際に分析を進めていきます。事前に検討した分析方法を用いて、データの傾向や関連性などの情報を得ましょう。分析は専用のツールを利用することが多いですが、自分でプログラムを作成し分析することもあります。
また、必要に応じて分析結果を表形式やグラフなどでアウトプットする作業が必要です。十分に分析しても、人間が活用できる状態でなければ意味がありません。視覚化して直感的に理解できる状態にしておくことで、データマイニングの価値を高められます。
効果の検証
一連のデータマイニング作業が完了すれば、想定していた目的を達成できているか評価しましょう。また、目的とする知識を得られるならば、その内容が効果的なものであるか検証しなければなりません。例えば以下のような観点で検証します。
- 顧客の要望を踏まえて売上10%増を目指したが達成できているか
- データマイニングによって気温の低下およびそれに伴う売上の増加を予想したが精度は高かったか
データマイニングの作業自体は適切に完了していても、得られる知識が目的に適したものでなければ意味がありません。想定していたものでなければデータマイニングの方法や収集したデータに問題があると考えられます。詳細な部分まで効果を検証し、何かしら不都合な部分があるならば、改めてデータマイニングするなどの対応が必要です。
データマイニングの活用例
データマイニングは様々な業界の様々な業務に活かされています。どのような使い方があるか、イメージを持っていきましょう。
金融業:取引の内容を評価
金融業では、取引内容の正当性を評価するためにデータマイニングが利用されています。例えば、クレジットカードの利用状況について大量のデータを分析し、不正利用の発見に役立てるなどです。不正な利用には一定の傾向が存在すると考えられるため、データマイニングによってこれを見つけます。様々な傾向を事前に把握しておくことで、機械的に不正利用を検知したり支払いを遮断したりできるのです。
また、クレジットカードやローンの契約にあたって、過去の利用者がどのような使い方をしたか分析しています。例えば、支払い遅延の経験がある人物がどのような特徴を持つか分析し、審査に役立てているのです。AIなどと組み合わせることにより、正確かつ素早い判断ができるようになっています。
小売業:マーケティング戦略の立案
小売業では、マーケティング戦略の立案にデータマイニングが活用されています。例えば、大量の顧客データを分析して、どのタイミングでどのような客層が商品を購入するか把握するのです。新製品を発売する際には、データマイニングの結果を踏まえて、発売時期を決定します。
なお、データマイニングで分析するデータは多岐にわたり、社内のデータはもちろん外部のデータを利用することもあります。例えば、商品の売れ行きと平均気温を組み合わせて、季節との関連性を見いだすなどです。多様なデータを分析することで、競合との差をつけたり、これまで思いつかなかったような結果を抽出することができます。
製造業:設備開発・管理
製造業では設備開発や管理のためにデータマイニングが利用されています。例えば、大量のデータを分析することによって「どのような製品にどのようなミスが起こりやすいか」を見つけ出し、そこを改良したり新製品を出したりするのです。
また、故障のしやすさについて統計的に分析し、メンテナンスの期間を算出するなどの使い方も考えられます。工場機器などは大きなトラブルが生じる前にメンテナンスしなければなりません。ただ、頻繁にメンテナンスすると時間とお金がかかってしまいます。最適な期間を算出するために、データマイニングを活用するのです。
医療業:感染症の流行予測
医療業界では、感染症の流行予測のためにデータマイニングが活用されます。例えば、インフルエンザは毎年流行しますが、その内容は完全に同じではありません。そのため、データマイニングを活用して「今年はどのような流行が予想されるか」を分析するのです。
分析対象のデータは多岐にわたり、ウイルスについての情報はもちろん、気温などを組み合わせることも考えられます。複数の観点からデータを分析することで、ウイルスの発生などをより正確に予想することができ、それが流行予測にもつながるのです。
エンタメ業:レコメンドの精度向上
エンタメ業では、動画などのおすすめを紹介する「レコメンド機能」の精度を向上させるためにデータマイニングが活用されています。例えば、同年代の利用者がどのような動画を視聴しているかによって、おすすめする内容を変化させるのです。実際にレコメンド機能は様々なところで活用されているため、イメージしやすいでしょう。
今までは、自社の利用者がどのようなコンテンツに興味を持っているかによってレコメンドするケースが大半でした。しかし、現在はSNSなど幅広いサービスからデータを収集できるため、これらを分析してレコメンドに活かすことが増えています。より多くのデータから分析することによって、精度が高まり、売上などに貢献してくれるのです。
データマイニングの成功に必要なポイント
データマイニングを成功させたいならば、以下のポイントを抑えておきましょう。
データウェアハウス(DWH)の整備
大量のデータを収集し管理するために、データウェアハウスが必要です。データウェアハウスとは、特定の用途を想定して、データを加工したり格納したりするシステムを指します。似たようなシステムに「データレイク」がありますが、こちらは事前にデータを加工しません。
一般的にデータマイニングでは「どのデータをどのように分析するか」がある程度決まっています。上記で示した通り、具体的な分析手法を決定し、それに沿ったデータを収集しているはずです。そのため、事前の目的に沿ったデータ格納ができるデータウェアハウスを整備しておくと成功しやすいのです。
データクレンジングのための体制確保
データクレンジングをスムーズに実現するため、体制を確保しておくと良いでしょう。事前準備として、データの整理や加工は必ず実施しなければなりません。そのため、誰がどのような段取りでこの作業を担当するか決めておくべきです。
例えば、特定のデータが必要かどうかは、その業務に従事していないと判断できないでしょう。そのため、業務部門の中にデータクレンジングを支援する担当者を設けておき、依頼があれば協力するのです。体制を整えておかないと、データクレンジングのタスクを押し付け合うことになり、データマイニングがスムーズに進みません。
適切なツールの導入
データマイニングを成功させるためには、適切なツールの選定と導入が必要です。データマイニングに活用できるツールはいくつも存在していますが、最適な製品を導入し、使いこなせるようになることが求められます。ツールではなく、プログラムを作成することでもデータマイニングはできますが、特別な理由がない限りツールを導入した方が良いでしょう。
ツールの導入にあたっては、どのようなデータを分析できるか、どのような手法に対応しているか、などの確認が重要です。また、データマイニングの結果をどのような形式でアウトプットできるのかも確認しなければなりません。十分に確認しておかないと、導入してから利便性の悪さを感じてしまう可能性があります。
必要なデータを確保する
データマイニングの手順で示したように、まずは必要なデータを確保しなければなりません。分析対象のデータが不足すると、データマイニングの品質が下がってしまい、思うような結果を得られなくなります。
データの確保にあたっては「最新」かつ「大量」であることが重要です。大量にデータを確保しても、その内容が古いものであれば、データマイニングの結果は実態と異なってしまいます。内容によっては最新のデータを集めづらいかもしれませんが、可能な限り新しいものを収集すべきです。次点で、データの量についても意識するようにしましょう。
データマイニングにおけるWebデータの活用
データマイニングを成功させるためには、Webデータを活用することが重要です。続いては、Webデータを活用するメリットと、活用に向けたデータの収集方法を解説します。
Webデータを活用するメリット
Webデータを活用するメリットは、最新の情報を簡単に反映できることです。現在は、非常に多くの情報がWebに存在するため、収集することでこれらをデータマイニングに活用できます。基本的に、分析対象となるデータは新しい方が良いため、Webデータを積極的に活用すべきです。
もちろん、Webデータのすべてが新しい情報とは限らないため、その中から適切な情報を集めることが求められます。例えば、3ヶ月以内に更新されたWebサイトのみから情報を集めるなどです。他にも、1ヶ月以内にSNSへ投稿されたデータを集めるなどの条件も考えられます。Webデータのメリットを活かすためには、データの収集方法に少し工夫が必要となるため、そこは意識しておきましょう。
活用に向けたデータの収集方法
Webデータを活用するためには、何らかの方法で必要な内容を収集しなければなりません。収集方法はいくつか考えられますが、例えば以下の通りです。
- 担当者による手動での収集
- RPA等のたツールを利用して収集
- スクレイピング代行サービスによるデータ収集
初期コストをかけずにWebデータを収集するならば、担当者がWebサイトを検索し、コピペでExcelなどのソフトに記録すれば良いでしょう。ただ、データマイニングには大量のデータが必要となるケースが多く、人力で収集することは現実的ではありません。そのため、社内の担当者がデータを収集するならば、RPAなど自動的に動作してくれるツールの導入と運用が必要です。
ただ、社内で運用することも手間がかかるため、代行サービスのように外部への委託をおすすめします。弊社のPigDataはスクレイピング代行サービスを行っており、お客様の状況に合わせて最適なデータ収集方法をご提案いたします。
まとめ
データマイニングにはいくつかの分析手法があり、手順も大まかに決まっています。また、成功させるためには解説したようなポイントを考慮しなければなりません。しかし最も重要となるのは、分析対象となるデータを収集することです。十分なデータがなければ、データマイニングが始まりません。
データマイニングに活用できるデータはいくつも考えられますが、最新の情報を集められるWebデータの活用をおすすめします。Webデータはスクレイピングを活用することで、大量に効率よく収集できます。弊社はスクレイピング代行サービスを提供しているため、ぜひともご活用ください。