
ビッグデータ活用が推進されている今、簡単に手に入るWebデータを活用したい、と考えている人も多いでしょう。しかし、Webデータを収集するための技術・Webスクレイピング(クローリング)にこんな不安を抱えていませんか?
- Webデータを活用したいけど、Webデータ所有者から訴えられたりしないか不安
- Webスクレイピング(クローリング)で裁判になった、という話をきいたけど、イマイチ原因がわからない
- Webスクレイピング(クローリング)に関わる法律を読んだけどよくわからなかった
そんなあなたは以下の項目をチェックしてみましょう。
これなら大丈夫!Webスクレイピング活用方法

Webスクレイピング(クローリング)が違法と判断され、問題になるケースは主にWebスクレイピング(クローリング)をする目的にあります。あなたのWebスクレイピング(クローリング)をする目的が以下のような理由であれば、基本的には大丈夫です。
※基本的にはデータ収集元の利益妨害にならないように、データ収集元へ接続するリンクをはる必要がある
競合他社の情報を随時チェックする、株価の監視など
(著作権法第47条の7)
価格比較サイト、航空券検索サイト、求人サイト、など
(著作権法第47条の6)
大容量の画像データ、など
(著作権法第30条の4)
取得したレビューデータを分析して新しい開発資料やコンサル用資料にする、など
(著作権法第47条の5)
ここもチェック!Webスクレイピングで注意すること

上記のような活用目的であれば基本的には問題ありませんが、活用目的以外にもWebスクレイピング(クローリング)をするうえで問題となる点があります。こちらはすべてチェックできる必要があります。
これらの問題は実際にWebスクレイピング(クローリング)をやろうとしたときに、データ取得ができるかどうかだけではなく、データ取得元サイトについても調査をしないといけません。
上記の活用方法や注意点をおさえていても、スクレイピングのやり方そのものでWebサイトの管理者側から注意を受けることがあります。そういった場合はスクレイピングのやり方自体を見直す必要があります。 スクレイピングは当然人間がコピー&ペーストしてデータを収集するより早くできますが、Webサイトに1回アクセスするスピード、つまりクリックのスピードは人間と同じようにふるまう必要があります。そうすることで、Webサイト側はロボットがデータを収集しているとは思わずに人間からのアクセスであると判断します。 プロキシサーバーとはインターネットへのアクセスを代理で行ってくれるサーバーのことです。これを使うことで、自分のIPアドレスではないところからスクレイピングを行うことができます。特にスクレイピングを何度も行う際はアクセスするたびに違うIPを割り当てることができるローテーションプロキシが有効的です。 ハニーポットトラップとは、わざとロボットにしか確認できないリンクをHTML上に設置することでロボットがいるかどうかを判断する手法のことです。 Webスクレイピング(クローリング)は時間も手間も省いてくれる便利な技術です。しかし、上記のチェック項目で確実に大丈夫、といえない箇所がある場合は要注意です。だからといって、あっさり諦める必要はありません。 Webスクレイピング(クローリング)でWebデータ取得が難しいかも・・・と思っていても実はAPIである程度のWebデータが取得できたり、アクセススピードや制限についてのチェックは詳しいエンジニアが確認すれば安全にWebスクレイピング(クローリング)を実行することができます。
Webサイトから注意されないスクレイピング方法
スクレイピングのスピードをおさえる
プロキシサーバーを使う
ハニーポットトラップを避ける
こういったトラップを回避するためには、nofollowタグの確認やcssスタイルの表示をチェックする必要があります。この対策はかなりのプログラミング工数が必要となります。やっぱり難しい、と感じたらプロに相談を
Webデータを取得・活用したい際にはまず上記のチェック項目で確認し、わからない場合はデータのプロに相談することがおすすめです。
たくさんのスクレイピング事例を参考に、Webデータを有効活用しましょう。スクレイピング法律資料ダウンロード