
スクレイピングとは
「スクレイピング」とは、端的にいうと「Webサイト上にあるデータを収集する技術」のことです。よく間違われる用語で「クローリング」がありますが、スクレイピングがWebサイト上の特定のデータを収集する技術であるのに対し、クローリングはWeb上を巡回し、Webサイトの構造を把握しつつ不特定多数のデータを収集する技術です。分析やその後活用するためには「スクレイピング」で収集するデータの方が扱いやすいでしょう。
スクレイピングのやり方
プログラミング
PythonやRuby、Javascript等を用いてコードを書くことで実装できます。
ライブラリの使い方など、プログラミングの知識が必要となるため、技術者でなければ難しいでしょう。
スクレイピングツールを使う
日本語にも対応しているOctoparseのようなスクレイピングツールを使えば、プログラミング初心者でもスクレイピングを実装することができます。設定が簡単なWebサイトの場合はスクレイピングツールで十分ですが、それだけでは求めているデータ収集ができない可能性もあります。
スクレイピング専門業者に依頼
スクレイピングをサービスとして行っている業者に依頼するのもひとつの手です。もちろん自社で内製したり、ツールを使うよりもコストがかかる可能性がありますが、確実にデータが収集できることと、スクレイピングにおける注意点をすべてクリアした状態で安心してデータ収集が行えることが利点です。
スクレイピングの注意点
スクレイピングはWebサイトによっては禁止されていたり、スクレイピング方法を誤ってしまうと法律に触れてしまうことがあります。
スクレイピングに関わる法律
スクレイピングは実施する際、また実施したあとのデータの取り扱いの両面で関係する法律があります。実施する際には偽計業務妨害罪が主に関わってきており、スクレイピングを実施するWebサイトに負荷をかけるなどで迷惑行為だと判断された場合に罰せられる可能性があります。
また、スクレイピングで得たデータは基本的にデータ解析を目的とする必要があるなど、データの取り扱いを間違えれば個人情報保護法や著作権法が関わってきます。これらについての知識を事前に確認する必要があるでしょう。
Webサイトの特性
Webサイトによってはそもそも、スクレイピングを禁止していることを明示しているサイトがあります。スクレイピングを実施する際にWebサイトがどういった構造をしているのかはもちろんですが、Webサイト内のどこかにそういった明示がないかどうかの確認をする必要があります。

スクレイピングがDX推進のカギ
DXはデジタル技術を活用し、社会やビジネスをより良いものへと変革させることです。つまり、DX推進は単にデジタルツールを使うだけでは達成できません。
もちろん、デジタルツールの活用により社内において「内部データ」が蓄積され、それを活用することでビジネスを向上させることもできます。しかし、内部データだけでは社内における小さな世界でしか発展することができません。そこで外部データの掛け合わせがDX推進のカギとなります。「外部データ」とは社内で得られないデータのことを指します。オープンデータ、Webデータも外部データのひとつです。
オープンデータやWebデータは誰でもアクセスし、収集できるという手軽な特性がある一方、その量が膨大で収集して整理し、活用するというのが難しい面もあります。外部データを活用するにも、そのデータ収集やデータ整形に時間がかかっていては意味がありません。そこでスクレイピングが必要となります。
つまり、DX推進、「外部データ」の活用において、また「外部データ」収集を自動化するスクレイピングはDXの過程においても重要な要素のひとつとなります。
スクレイピング活用事例
スクレイピングの活用事例をいくつか紹介します。
自社製品の改善
とあるメーカーは自社製品の改善を行うにあたって、購入者へのアンケートや自社ホームページからの問い合わせ内容をもとにすすめていました。しかし、競合との差別化や他社製品を利用しているユーザーの声も調査したうえで製品開発をしたほうがいいのでは、という意見が社内会議で出たため、Webサイト上にある自社製品への口コミや他社製品の価格変動、口コミを調査することにしました。しかしそのWebサイト数や情報更新の頻度は人手でチェックするには不可能な量だったため、これらのデータ収集にスクレイピングを活用しました。
その結果、「使ってみると製品は良いが、購入前にはその良さがわからなかった」と製品の内容以外の意見を知ることができました。そこでWebの製品ページやカタログデザインの見直しをすることで同ジャンルの製品の売上120%(前年比)を達成することができました。
アプリ更新の自動化
飲食店のポータルアプリを運営している企業では、新規飲食店が開店する際にいち早くその情報をWebサイトに掲載すること、また、閉店した場合にはその店舗情報を修正するなど、ユーザビリティの向上がサイト運営においては最重要課題です。これまではユーザーからの情報提供や人手で新規店舗がないか、サイトに変更がないか、などを確認して更新していましたが、最近ではGoogleマップがいち早く店舗情報を載せていることがわかりました。
そこで、Googleマップをスクレイピングし、運営しているポータルアプリへAPI連携することで常に最新の情報をユーザーに提供することができるようになりました。最新情報を提供することでユーザーからの評価が上がり、SNSなどでも評判となったため、ユーザー数が前年度よりも約3倍にすることができました。
ブランド力の維持
コンサルティングをしている上で、顧客のブランド力を維持することは重要となってきます。そのため、顧客の製品を卸している店舗が定価より安く販売していたり、その製品を使ったサービスを安く提供している場合は、ブランド品質の定価につながるため注意喚起が必要となります。
数百以上の店舗をひとつひとつ調査することは難しいため、これらの店舗情報が集まっているポータルサイトからスクレイピングを用いてその店舗のサービス内容と価格を収集・分析することで不正を行っている店舗を割り出すことに成功しました。
不正を行っていた店舗を取り締まることで、ブランド力を維持し、適正価格で製品をユーザーに提供することができています。また、これを提案したコンサルティング企業は顧客からより高い信頼を得て新しいプロジェクトも任されることとなりました。
営業の効率化
営業におけるスクレイピングの活用方法でよく利用されるのは「営業リストの作成」ですが、「最適なタイミングで営業するためのデータ収集」もスクレイピングで分析することが可能です。
すでに自社で「新しい〇〇が売り出される時、一番自社サービスが売れる」というデータがありました。そこで「新しい〇〇」が売り出されるかどうかを各種ニュースサイトや複数のメーカーサイトをチェックし、「〇〇」というキーワードが発生した際に通知し情報を収集する設定をスクレイピングで行いました。その結果、営業担当は無駄な営業をすることが減少したため、既存顧客のフォローも十分にできるようになり顧客満足度の向上にも繋げることができました。
PDFから研究開発データの抽出
研究開発のために複数ジャンルの文献からデータを収集する機関があります。研究開発用データはPDF形式かつ膨大であるため、PDF等でダウンロードしたところでその中から必要なデータを抽出する作業は多くの時間を費やしていました。
そこでスクレイピングとPDFからデータ抽出・データ整形をしCSVに落とし込む技術を合わせることで、PDFの収集からそのあとの必要データ抽出まで一括で業務を実装することができ、時間コストの大幅な削減に成功し、より多くの研究をすすめることができました。
スクレイピングはそれだけではなく、他の技術と組み合わせることでさらに効果的な結果を生み出すことができる事例です。
スクレイピングの今後の展望
外部データの収集においてスクレイピングは有効的な技術であるため、今後も注目されていくものと言えるでしょう。もちろん、多くの人が活用することで、スクレイピングが悪用される可能性もあります。そのため、Webサイト上での規制や、スクレイピングに関わる法律が随時改正される可能性が考えられます。そのため、スクレイピングを利用する企業は注意を払っていかなければなりません。また事例にみられるように、スクレイピング自体もデータ収集だけではなく、今後はRPAやAIなどの技術と連携して活用されることも増えると予想できます。
このような未来を考えると、スクレイピングはデータ活用、DX推進を牽引する要素のひとつとなるでしょう。
まとめ
「DX推進」が叫ばれている現代において、データ活用は重要なポイントです。
デジタルツールの活用から得られる「内部データ」の活用はもちろん、Webサイト等から得られる「外部データ」を活用することで、より多くの分析が可能となり、企業は内部データだけでは得られなかった新しい施策を生み出すことができます。
スクレイピングはこのような現代、またよりDXが進む未来において外部データ活用を牽引する知っておくべき技術となるため、スクレイピングの活用方法をより柔軟に、幅広く考えていくことが大切です。
PigDataではスクレイピング技術の提供だけではなく、目的を達成するための業務フローまで一緒に考えてご提案することができます。データ収集のみならず活用についてお考えの際は一度ご相談ください。
