スクレイピングをする前に!違法にならないための法律以外の注意点
ビジネスにおいてスクレイピングを行うにはいくつかの手順があります。
- スクレイピングを活用するサービスが違法かどうかを調べる
- スクレイピングを行うWebサイトの調査
- スクレイピングコードの確認
違法かどうかがわかるスクレイピングに関する法律についてはこれまでの記事でお伝えしました。
今回は「Webサイトの調査」についてのノウハウをお伝えします。
本当にそのWebサイトからスクレイピングができるのか、スクレイピングをしても問題はないか、はWebサイトの内部を確認することで、より安全にスクレイピングをすることができます。
どんなことが必要か、スクレイピングのプロ目線から確認しました。
Webサイト調査はここから

- APIの有無
WebサイトがAPIを提供していて、そこから十分なデータが取得できる場合はAPIを利用する方が安全です。APIを利用するにはそれぞれ登録が必要です。APIがなかったり、あっても取得できるデータの精度が低い場合にはスクレイピングで取得した方がよいでしょう。
- robots.txt
robots.txtにはクローラーやスクレイピングなどのロボットに対して、どのURLにアクセスしてよいか、してはいけないか、が書いてあります。基本的にはrobots.txtの内容にしたがってスクレイピングを行う必要があります。
robots.txtはたいてい、トップページURLの直下に/robots.txtとして存在します。たとえば、https://www.sms-datatech.co.jp/robots.txtといった具合です。
- User-agent・・・対象となるクローラー/スクレイピングの種類
- Crawl-Delay・・・クローラー/スクレイピングの時間間隔を指定
- Disallow・・・クローラー/スクレイピングされたくないページやディレクトリを指定
- Allow・・・Disallowになっているディレクトリの中でも、クローラー/スクレイピングしてもよいページやディレクトリを指定
- スクレイピングするページは直接アクセス可能か
Webサイトがスクレイピング対策などを行っている場合、ロボットでの直接アクセスが難しい可能性があります。特に問題ない場合はGETやPOSTのみでページに直接アクセスすることができます。
- GETでURLを参照・・・URLをブラウザに直接入力するだけで見ることができるページ
- POSTでデータをサーバに送る・・・検索機能や絞り込み機能があり、検索してもページURLが変わらないページ
スクレイピングが難しいWebサイトの特徴
いくつかのWebサイトはDos攻撃などからサイトをまもるためのセキュリティ対策をしている場合があります。そういった対策はスクレイピングを含めるロボットによるアクセスを難しくするため、データ取得の際には工夫が必要です。
例えば、下記のようなWebサイトはスクレイピングが難しいサイトといえるでしょう。
- アクセスするにあたってリファラやCookieの設定が必要
- 会員制のWebサイトでログインが必要
- ログインの際に認証コードが必要
- JavaScriptなどhtml以外のプログラムが組まれている
スクレイピングができない、そんな時はプロに相談
Webサイトの調査をしていると、スクレイピングができないかも・・・と思うこともあるでしょう。実際にスクレイピングができないページも存在します。しかし、スクレイピングのプロは様々な方法を用いてWebデータを取得する技術を知っています。もし、Webサイトの調査をしていてわからないことがあった、スクレイピングができない、と諦める前に一度プロに相談してみるとよいでしょう。