
データを効率的に取得するWebスクレイピングは、データ収集が必須項目となった現代では欠かせない技術の一つとなりつつあります。
1990年代からインターネットが普及してから、急速に成長してきたネット社会において、多くの情報がインターネット上で公開されるようになりました。世界中のインターネットに関する統計情報を集めた”Internet live stats”によると、2019年6月19日現在、約17億ものWebサイトが存在しています。Webサイトのデータは「オープンデータ」と呼ばれ、多くのWebサイトは誰でもアクセスすることが可能です。Webサイトからデータを収集するための技術が「Webスクレイピング」です。
この記事では初心者でもわかりやすいよう、Webスクレイピングの定義からその活用方法まで解説します。
目次
Webスクレイピングとは
「スクレイピング(Scraping)」は英語のScrapeからきており、「こする、かき集める」といった意味を持っています。Webスクレイピングとは、Webサイト上の文字や画像、URLなどWebサイト上に存在するデータをHTML、CSS、JavaScriptとして解析したものを「かき集め」、自動で取得し、抽出する技術のことをいいます。
その仕組みを単純にいうと、プログラミングで設定したロボットがWebページを訪問し、特定のデータを取得したものをデータベースに保管、またはCSVなどのファイルに書き出します。
Webサイト上のデータを手動でコピー&ペーストするにはかなりの時間と労力がかかりますが、Webスクレイピングを活用することで時間と手間を大幅に削減することができます。設定次第で決まった時間に定期的にWebスクレイピングを行う、といったことも可能となるため、幅広い業界、職種で活用されています。
Webスクレイピングとクローリングとの違い
一般的にWebスクレイピングとクローリングは同じものとして認識されていることが多く、Webスクレイピングと検索してもクローリングの情報がでてくることもあります。また、スクレイピングツール、クローリングツールどちらでも同じ機能を保持しているものも多いのが現状です。しかし厳密にいうと、クローリングは巡回したWebサイトからすべての情報を取得し、WebスクレイピングはWebサイト上からプログラミングで設定した一部の情報のみを抽出することができる技術という違いがあります。このため、必要な情報のみを抽出したい場合にはWebスクレイピングが有効でしょう。
WebスクレイピングとAPIとの違い
APIとはApplication Programming Interfaceの略です。アプリケーションをプログラミングするために公開されているサービスの事を指します。
APIは提供側が認めている機能で、それを用いて取得できるデータもあります。しかし、APIで取得できるデータは提供側で定められているため、本当に取得したいデータが取得できない、といったことも起こりうるでしょう。 また、APIを提供していないWebサイトからのデータ取得を行いたい場合にはスクレイピングを行う必要があります。しかし公式にサポートされているわけではないので実行するには注意が必要です。
Webスクレイピングのメリット・デメリット
Webスクレイピングのメリット
- 業務を効率化できる
先に述べたように、データ収集において大幅な時間を費やしている場合、その時間を短縮することで、時間を有効に活用することができます。また、人的ミスがなくなるため、何度もチェックしたり、ミスの度に修正するなどの手間も減ります。 - ビッグデータを活用できる
自社で持っていないようなデータがWebサイトには多く存在します。そのデータを活用することで、既存サービスの発展や資料の充実はもちろん、新規サービスを立ち上げさらなるビジネスチャンスを生み出すこともできます。 - システムへの応用が可能
収集したデータをシステムと連携することで、今まで手作業で更新していたものを自動化できます。システム運用の手間を減らす点でもスクレイピングは有効的です。
Webスクレイピングのデメリット
- Webサイトの構造変化への対応が必要になる場合も
Webスクレイピングプログラムを正確に設定しても、データを収集しているWebサイト自体の構造が変わった場合にはもう一度プログラムの修正を行わなければなりません。その際には十分な知識が必要となります。 - 収集できないサイトもある
ロボットへのアクセスブロックなどをしているWebサイトの場合はスクレイピングで収集できない場合があります。 - 法律抵触への危険性がある
WebスクレイピングするWebデータには著作権法など様々な法律が関わってきます。それらに抵触してしまった場合、刑事事件に発展する可能性もあります。
Webスクレイピングの活用方法
Webスクレイピングには様々な活用方法があります。ここではその一例をご紹介します。
リスク管理や商品企画のための口コミを収集・分析
口コミが掲載されているWebサイトからそのデータを取得・分析することで、自社製品に対するユーザーの要望や不満、またユーザーの属性などが確認できます。自社だけではなく競合他社製品の同類商品の口コミも取得することで、他社製品の良いところや悪いところも確認できます。これらのデータは自社製品の改善や新規商品の企画やマーケティング戦略に役立てることができます。
営業リストの作成
営業リストの作成方法のひとつとして、ポータルサイトなどで業種を絞ってそのデータを取得しリスト化することもできます。Webスクレイピングを活用すればWebサイト上にある大容量のデータを短時間で取得することができ、いち早く営業に取り掛かることができます。
AI開発のための機械学習用データ
AI開発のための機械学習用データはその量が多ければ多いほど、AIの精度が増します。しかし自社で画像データ等の機械学習用データを用意するには時間と手間がかかります。Webサイト上には大量の画像データがあるので、それをスクレイピングで一括取得することで素早く大量に機械学習用データのデータを取得することができるでしょう。
競合調査
Webスクレイピングは競合企業の動向を監視するのにも最適です。競合企業のWebサイトを随時監視し、新着情報があったときのみアラートを鳴らしその情報を収集するなど設定することで、毎日競合サイトを偵察しにいく必要がなくなります。また、特定のキーワードが発生した時のみアラートを鳴らすよう設定することも可能です。
新規事業開発
Webスクレイピングで取得したデータを分析することで、新規事業を立ち上げることができます。例えば店舗情報を掲載しているアプリを開発する際に、Webスクレピングで取得したデータをアプリのデータベースとすることで自動でアプリの店舗情報を更新することができます。Webスクレイピングを活用することで新規事業開発もスムーズに自動化させることができます。
Webスクレイピングを行う際の注意点
Webスクレイピングを行う際に最も注意すべき点は法律面です。Webスクレイピングに関わる法律など、知らずにデータ収集・活用をしてしまうと最悪の場合有罪判決を下されることもあります。以下3つの点に気を付けてください。
取得したデータの活用方法
Webスクレイピングで取得したデータは基本的に分析を目的として利用する必要があります。取得したデータをそのまま別のWebサイトに掲載したり、データベースに保管してそのまま活用することは禁止されています。
著作権法・業務妨害罪
スクレイピングを活用する際に関係する法律は著作権法、業務妨害罪などがあります。著作権法は取得したデータの取り扱いに関するものですが、業務妨害罪はスクレイピングを実行している最中にサーバーダウンなどを起こしてしまうと問題となってしまいます。スクレイピングを実行する際には、対象としているWebサイトに迷惑をかけないか、も考える必要があります。
Webサイトの利用規約
取得したいデータのあるWebサイトに「スクレイピング・クローリング禁止」などが明確に記載してあったり、登録が必要なWebサイトの利用規約にそれと類似したことが書いてありそれに同意している場合、その規約に反してスクレイピングを行えばもちろん規約違反となります。Webサイトを確認してそのような規約がないか事前に確認する必要があります。
徹底比較!Webスクレイピングの導入方法
Webスクレイピングを導入するには、大きく分けて3つの方法があります。ここでは下記比較表とそれぞれの特徴をご紹介します。
費用 | 難易度 | 導入期間 | 精度 | 安全性 | |
自分で構築 | 人件費 | ★★★ | 長期 | ◎ | △ |
ツールを利用 | 無料/有料(固定) | ★★ | 短期 | 〇 | 〇 |
代行 | 個別相談 | ★ | 短期 | ◎ | ◎ |
自分でプログラミング構築
Python、JavaScript、Ruby等のプログラミング言語を用いて自らプログラミングすることでWebスクレイピングを作成することができます。もちろん、そのためのプログラミング知識や、スクレイピングを行う際に違法にならないための法律関係の知識が必要となってきます。Webサイトに書いてあるプログラミングコードをマネするだけでは、危険です。
Webスクレイピングツールを利用
プログラミングの知識を必要とせずとも、Webスクレイピングを簡単に行えるツールがいくつかあります。無料版と有料版でできることが違ったり、多くは海外製で日本語版がなかったりしますが、使い慣れると手軽にスクレイピングを実装できるでしょう。しかし、細かい設定ができず、必要なデータがうまく取得できないこともあるので、取得したいデータ内容やWebサイトによってその使い勝手を確認する必要があります。 また、ツールの場合はデータ収集に関するコンサルティング等がない場合が多いため、どのサイトをどのようにスクレイピングしてよいか、といった法律面への配慮は自身で考える必要があります。
専門の業者に代行依頼
Webスクレイピングを専門としており、データ収集を代行する業者もいくつかあります。もちろん、無料のツールを活用するよりも費用はかかりますが、どのようなWebサイトでも確実に必要なデータが手に入ることと、技術者の雇用や育成を考えると一番手軽な方法といえるでしょう。また、法律面への配慮も専門業者なら安心して依頼することができます。費用対効果を考慮して、Webスクレイピング専門の業者に相談するのもひとつの手です。
Webスクレイピング代行業者の選び方
Webスクレイピング代行業者は日本国内に多くはありませんが、いくつかあります。どこも同じように見えますが、比べてみると費用やサービス内容が異なる場合もあります。
目的と近い事例があるか
すでに自社が行いたい内容に近い事例がWebサイトに掲載されている場合、確実にできる・また他企業がそのサービス内容に満足しているかがわかります。
融通がききそうか
Webスクレイピングサービスとひとことでいっても、そのデータ提供方法は代行業者によって異なります。特にデータの提供方法は検討しておく必要があるでしょう。例えば、CSV等のファイル形式で提供する場合もあれば、データベースを作成して格納する場合もあります。既存の自社サービスとの連携なども検討する場合はどれだけ融通がきくのかも重要なポイントとなります。
Webサイトの更新があるか
情報のアップデートが行われているかどうかは、信頼性を判定する基準のひとつとなります。Webサイトの更新頻度が高い場合は、法律に関する情報を含む最新の情報を得ている可能性が高いため、安心感につながります。
Webデータは今後も活用価値の高いデータとなっており、マーケティング、経営戦略、営業などあらゆる業界、業種の方に必要とされるでしょう。そのため、手動よりも早く、正確にWebデータを取得できるWebスクレイピングは今後も注目される技術です。しかしWebスクレイピングを行うにはプログラミング技術以上に法律面やデータの取り扱いなどの知識が必要となってきます。 PigDataはこれまで多くのスクレイピング代行実績があり、Webデータ収集・活用に関して多くの知見をもっております。Webデータの収集、活用をお考えの際はぜひご相談ください。
Webスクレイピングでデータを有効活用しよう