
ビジネスにおいてWebスクレイピング(クローリング)を行うにはいくつかの手順があります。
- Webスクレイピング(クローリング)を活用するサービスが違法かどうかを調べる
- Webスクレイピング(クローリング)を行うWebサイトの調査
- Webスクレイピング(クローリング)コードの確認
違法かどうかがわかるWebスクレイピング(クローリング)に関する法律についてはこれまでの記事でお伝えしました。
今回は「Webサイトの調査」についてのノウハウをお伝えします。
本当にそのWebサイトからスクレイピング(クローリング)ができるのか、スクレイピング(クローリング)をしても問題はないか、はWebサイトの内部を確認することで、より安全にスクレイピング(クローリング)をすることができます。
どんなことが必要か、スクレイピング(クローリング)のプロ目線から確認しました。
Webサイト調査はここから

- APIの有無
WebサイトがAPIを提供していて、そこから十分なデータが取得できる場合はAPIを利用する方が安全です。APIを利用するにはそれぞれ登録が必要です。APIがなかったり、あっても取得できるデータの精度が低い場合にはWebスクレイピング(クローリング)で取得した方がよいでしょう。
- robots.txt
robots.txtにはクローラーやWebスクレイピングなどのロボットに対して、どのURLにアクセスしてよいか、してはいけないか、が書いてあります。基本的にはrobots.txtの内容にしたがってスクレイピングを行う必要があります。
robots.txtはたいてい、トップページURLの直下に/robots.txtとして存在します。たとえば、https://www.sms-datatech.co.jp/robots.txtといった具合です。
- User-agent・・・対象となるクローラー/スクレイピングの種類
- Crawl-Delay・・・クローラー/スクレイピングの時間間隔を指定
- Disallow・・・クローラー/スクレイピングされたくないページやディレクトリを指定
- Allow・・・Disallowになっているディレクトリの中でも、クローラー/スクレイピングしてもよいページやディレクトリを指定
- Webスクレイピング(クローリング)するページは直接アクセス可能か
Webサイトがスクレイピング(クローリング)対策などを行っている場合、ロボットでの直接アクセスが難しい可能性があります。特に問題ない場合はGETやPOSTのみでページに直接アクセスすることができます。
- GETでURLを参照・・・URLをブラウザに直接入力するだけで見ることができるページ
- POSTでデータをサーバに送る・・・検索機能や絞り込み機能があり、検索してもページURLが変わらないページ
Webスクレイピング(クローリング)が難しいWebサイトの特徴
いくつかのWebサイトはDos攻撃などからサイトをまもるためのセキュリティ対策をしている場合があります。そういった対策はWebスクレイピング(クローリング)を含めるロボットによるアクセスを難しくするため、データ取得の際には工夫が必要です。
例えば、下記のようなWebサイトはWebスクレイピング(クローリング)が難しいサイトといえるでしょう。
- アクセスするにあたってリファラやCookieの設定が必要
- 会員制のWebサイトでログインが必要
- ログインの際に認証コードが必要
- JavaScriptなどhtml以外のプログラムが組まれている
Webサイトの調査をしていると、Webスクレイピング(クローリング)ができないかも・・・と思うこともあるでしょう。実際にWebスクレイピング(クローリング)ができないページも存在します。しかし、Webスクレイピング(クローリング)のプロは様々な方法を用いてWebデータを取得する技術を知っています。もし、Webサイトの調査をしていてわからないことがあった、Webスクレイピング(クローリング)ができない、と諦める前に一度プロに相談してみるとよいでしょう。
Webスクレイピング(クローリング)ができない、そんな時はプロに相談