
DX推進が叫ばれる現代において外部データをどのように収集し、分析・活用していくかが重要です。人力でデータを収集する方法もありますが非効率です。スクレイピングを活用すれば外部データの収集を自動化できます。本記事ではスクレイピングのメリットやデメリット、違法性や禁止されているサイトの見分け方を解説します。
目次
スクレイピングとは
スクレイピングとはWebサイトからhtmlを解析し、必要なデータを収集する技術です。実行する際には専用のツールを用いるか、プログラミングの知識があれば自動スクリプトを用いて実行します。市場調査や競合分析などで活用されることが多いです。
クローリングとの違い
近しい技術ですが目的と範囲が異なります。スクレイピングは特定のページから具体的な情報を抽出することを目的としていますが、クローリングはWebページを広範囲に巡回しリンクを辿りながら新しいページを探すことを目的としています。
スクレイピングのメリット
スクレイピングの代表的なメリットを3つ紹介します。
情報収集を自動化できる
最大のメリットとも言えるのが、情報収集プロセスを自動化できる点です。スクレイピングを利用しない場合は、人力でデスクリサーチしたりコンサル会社へ外注するなど時間とお金がかかってしまいます。
一方でスクレイピングを利用すれば大量のデータを短時間で収集できるため、作業効率が格段に上がります。
内部データでは分からないことを分析できる
過去のマーケティング活動で集まったデータや既存顧客のデータを分析することで、マーケティング戦略や商品開発に活用できるデータ分析が可能です。ただし、あくまでも「内部データ」であるためマクロな視点で分析できず、市場動向や競合分析はできません。
スクレイピングを活用してWebサイトからデータを収集し分析すれば、市場や競合など外部環境を加味して戦略を立てることができます。
最新情報を常にキャッチアップできる
インターネットで公開されている情報は日々更新されています。これらを常に人力で追い続けることは現実的ではありません。スクレイピングを利用すれば、定期的な収集をプログラミングすることで、常時データを収集できるため常に最新の情報をキャッチアップできます。
スクレイピングのデメリット
スクレイピングの代表的なデメリットを3つ紹介します。
Web構造が変わるたびに設定しなおしが必要
スクレイピングは対象のサイト構造に合わせてプログラミングする必要があります。ある程度、流用できるコードもありますが、スクレイピングの対象としているページ構造そのものが変わるとその度にコードを見直して再設定が必要です。
アクセス拒否される可能性がある
スクレイピングを特定のWebサイトで繰り返すと不信なアクセスログとして残り、スクレイピングを動かしているIPを指定され、Webサイトへのアクセスを禁止される可能性があります。
対象サイトのポリシー次第でトラブルになりえる
スクレイピングはされる側のサーバーに負荷がかかります。そのため、スクレイピングをしているサイトのサーバーがダウンすると対象サイトの運営側に多大な迷惑をかけてしまい訴えられる可能性があります。
また、サイトによっては利用規約にスクレイピングなどデータの抽出を禁止する条項が含まれていることがあります。対象サイトのポリシーを確認し、適切なアクセス頻度を守るなどの配慮をするようにしましょう。
スクレイピングは違法?スクレイピングに関連する法律
スクレイピング自体は違法ではありませんが、いくつかの条件が揃うと違法になるケースがあります。スクレイピングを実行する際に注意すべき法律を紹介します。
偽計業務妨害・電子計算機損壊等業務妨害
高頻度でスクレイピングを実行すると相手側のサーバーに過度の負荷をかけてしまい、Webサイトの正常な運営を妨害する行為に該当する可能性があります。(偽計業務妨害)また、サイトのセキュリティシステムを意図的に回避するような方法でスクレイピングを行うと電子計算機損壊等業務妨害に該当する場合もあります。
個人情報保護法
公開されている情報であっても、無断で収集・利用することは法律違反にあたる可能性があります。収集した個人情報を適切に管理し、目的外利用や第三者への不当な提供を行わないよう注意が必要です。
著作権法
スクレイピングでWebサイトからデータを収集する際、収集したコンテンツが著作権で保護されている場合があります。著作権で保護されたコンテンツを無断で収集し、再利用することは著作権侵害に該当するため商用目的など取得したデータの活用方法には注意が必要です。

スクレイピングが禁止されているサイト
スクレイピングが禁止されているか確認する方法を紹介します。自社で自動スクリプトを構築する場合でも外部のツールを利用する場合でも必ず以下の方法で確認するようにしましょう。
<スクレイピングを禁止しているサイトの例>
楽天市場ではスクレイピングを活用して購入行動を自動化することを禁止しており、Xでは事前承諾のないスクレイピングを禁止、Facebookでも事前承諾の許可なくスクレイピングによってデータを取得することを禁止しています。
禁止と判断するには
2つの方法があります。1つ目がWebサイトのURL末尾に「/robots.txt」と入力し確認する方法、2つ目が利用規約やポリシーを確認する方法です。
サイトのルートディレクトリに配置されているrobots.txtファイルには、そのサイトがクローラーやスクレイピングツールに対してどのようなアクセスを許可または禁止しているかが記述されています。「Disallow」の記述があれば禁止されています。
利用規約やポリシーには禁止サイト例で示したように「自動化された手段でデータを取得すること」などのようにスクレイピングという表現ではなく自動化された行為といった表現があれば注意が必要です。
WebAPI提供の可能性
スクレイピングが禁止されているWebサイトでも、データを公式に提供するためのAPIを公開している可能性があります。データが構造化された形式(JSONやXMLなど)で提供されるためスクレイピングと比べてデータを扱いやすくなります。
スクレイピングの実践方法
スクレイピングを実践する方法として4つ紹介します。
Python
プログラミング言語のひとつで大規模なスクレイピングや高速にデータを収集したい時に役立ちます。他のプログラミング言語でもスクレイピングができますが、Pythonはスクレイピングを行うためのライブラリが多数用意されているため比較的構築しやすいです。HTMLコードから収集するための「BeautifulSoup4」やHTMLファイルそのものをダウンロードできる「Requests」などがあります。
Chromeの拡張機能
Google Chromeには拡張機能と呼ばれる専門知識がなくてもツールが使える機能があります。例えば、「Scraper」であれば無料でスクレイピングを実行できます。ScraperをChromeに追加するだけで利用できるため手軽さがメリットですが、日本語には対応していないため慣れるまで時間がかかります。以下記事で詳しい使い方を解説しています。参考にしてみてください。
スクレイピングツール
SaaS企業などが提供するスクレイピングツールを利用することで簡単にスクレイピングを実行できます。ほとんどがプログラミング不要の簡単な画面操作でスクレイピングを実行でき、ツールによってはデータ加工まで対応しているサービスもあります。無料のツールは使用制限があるため、市場調査など本格的にスクレイピングが必要な場合は有料ツールも検討しましょう。
スクレイピング代行
前述のスクレイピングツールは「自らで」実行する必要がありましたが、スクレイピング代行はスクレイピングの専門知識を持つ企業がクライアントの要望に応じてデータ収集を行うサービスです。ツールよりも割高のケースが多いですが、自社でスクレイピングを行うリソースが限られている場合に役立ちます。ツールでは取得できなかったWebサイトへの対応ができること、また代行業者はスクレイピングに関連する法律にも熟知しているため、安全にスクレイピングを実装できることがメリットとして挙げられます。
おすすめのスクレイピングサービス・ツール
PigDataスクレイピング代行
スクレイピングができるサービスやツールが数多くありますが、収集できないWebサイトがあったり、設定が複雑になることがあります。また、過度なスクレイピングは悪質とみなされ法的なリスクもあります。PigDataのスクレイピング代行サービスはIT弁護士が監修しており、著作権や偽計業務妨害などに考慮しながら確実なWebデータ収集が可能です。

エッジワーク
エッジワークはWebサイトのスクレイピングからクローラーの作成、データ加工・変換を代行してくれるサービスです。市場調査を目的にWebサイトを回遊するクローラーを作成したり、新規営業に使用する企業リストをスクレイピングで作成してくれます。
Octoparse
Octoparseは、数クリックでWebページを自動的に構造化されたデータに変換するツールです。コーディング不要でスクレイピングを実行でき、無料で利用することもできます。有料プランは$75/月から用意されています。
Import.io
Import.ioはクラウドベースのスクレイピングツールです。ローカルで実行する必要がなくデータをクラウドで管理できます。GoogleスプレッドシートやTableauとの連携できるため、収集したデータをビジュアライズすることも容易です。
スクレイピング活用事例
最後にスクレイピングを活用した事例を紹介します。
RPAをスクレイピングで置き換え
「分岐条件をひとつずつ入力し、その結果出てくる見積り金額を抽出する」という何万通りもある作業をRPAを用いて実装していたお客様でしたが、Webサイトからデータを抽出するステップでエラーが発生するようになりスクレイピングを活用しました。自動化といえばRPAのイメージがありますが、Webサイトからデータを抽出する必要がある場合はスクレイピングを活用した方が効率が良いです。
ブランド維持のための分析データ収集
自社ブランドを維持するために、転売対策としてデータ分析のためのデータをスクレイピングで収集。お客様のクライアントブランド商品を取り扱っているサロンデータを、サロン情報が集まるサイトから店舗データを一括で取得しました。取得したデータで推測できる規模とお客様が保持している商品の卸データに不審な点がないかを照らし合わせて分析を行うことで店舗規模に見合わない数の商品が卸されていないか確認できました。
営業リスト作成
企業リストは帝国データバンクを活用して手に入れることもできますが、そこで必要なデータが手に入らないこともあります。例えばアプリ開発企業が対象の場合、AppStoreから直接リストアップすることは難しく、AppStore以外のサイトを活用する必要がありました。そこで、Appのまとめサイトやランキングサイトをスクレイピング、必要なデータを収集・整形しリストアップしました。
最新情報の収集
投資家をクライアントとしている企業の事例です。投資家はなによりも最新の情報を求めています。そのため、依頼される企業としても最新の情報収集が求められます。最新の情報が更新される学会データをスクレイピングで取得し、自然言語解析で必要なデータをピックアップ。このデータをクライアントへ提供するサービスに組み込んでいます。
定期的に情報更新が必要な投資家対象のサービスをプロジェクトとして進めていたため、スクレイピングがサービス充実のための要素としてプロジェクトに欠かせない業務のひとつとなりました。
商標の不正利用調査
企業のブランド価値を守るため、商標が不正に利用されていないかモニタリングすることは重要です。しかし、無数にあるインターネット上のデータから不正利用を手動で見つけることは現実的ではありません。そこでインターネットやSNS上のデータをキーワードベースで定期的にスクレイピングすることで、自社に関わる情報を自動でモニタリングすることができます。手動では不可能なことをスクレイピングすることで、モニタリングの工数を削減しつつ商標の不正利用を調査することができます。
レビューや口コミ調査
ユーザーのリアルな声やレビューはマーケティング戦略を考える際や新たに商品を開発する際に欠かせません。しかし、その都度アンケートを取っていると時間がかかる上にデータ加工の手間もかかります。そこでスクレイピングを活用すれば、ECサイトやレビューサイト、または掲示板などから口コミデータを取得しつつ、任意の形に整形して出力することができます。収集と整形を自動化することで業務効率化し、開発や戦略立案に時間を割くことができます。
機械学習データの収集
AIの活用が盛んですが、AIを作成するためには機械学習用のデータが欠かせません。機械学習に大量で精度の高いデータがあることでAIそのものの精度も向上します。インターネット上には大量のデータが存在しますが、そのデータを手動で取得し、機械学習用データにするのは現実的ではありません。機械学習用のデータ収集にもスクレイピングが活用されています。
これからのDXにスクレイピングは欠かせない
顧客体験を向上させ新たな価値を創出するうえで、大量のデータを迅速かつ効率的に収集・分析する能力が企業の競争力を左右すると言っても過言ではありません。これまでの営業活動を通して集めた内部データである顧客の声を分析したり、解約した顧客属性を分析することでより良い商品を開発できます。
一方、内部データだけでなくWebサイト等からしか得られない外部データを活用することでさらにDXを推進できます。外部データから市場動向を分析したり、競合情報を分析しマーケティング戦略に活かすこともできます。外部データを活用するにはスクレイピングが欠かせません。しかし、スクレイピングを実行する際は個人情報や著作権など法的な制約や、ウェブサイトの利用規約の遵守など倫理的な配慮も重要です。
まとめ
スクレイピングはWebサイトからHTMLを解析し必要なデータを収集する技術で、業務で必要なデータ収集を自動化できる点が最大のメリットです。これからDXを推進し市場における競争力を高めたい企業にとって、外部データの活用は必須ともいえ、そのためにスクレイピングは欠かせない技術といっても過言ではありません。
なお、スクレイピングを実施する際は著作権など法律面の対策が重要です。スクレイピングで収集したデータが権利侵害とならないよう細心の注意が必要です。PigDataではスクレイピング技術の提供だけではなく、目的を達成するための業務フローまで一緒に考えてご提案することができます。データ収集のみならず活用についてお考えの際は一度ご相談ください。