PigDataロゴ

お問い合わせ
  • サービス&ソリューション
    • スクレイピング代行サービス
    • 物件比較ツール「Mekiki」
    • Webサイト監視ツール「TOWA」
    • 最新営業リスト作成・管理
      ダッシュボード
    • SNS分析サービス
      「SocialAnalyst」
    • Tableau構築支援サービス
    • シフト自動最適化AIソリューション
      「Optamo for Shift」
  • 導入事例
  • ブログ
  • 運営会社
  • 資料ダウンロード
  • お問い合わせ
  • プライバシーポリシー
  • セキュリティポリシー
  • トップに戻る
PigData > ブログ > Webスクレイピング(クローリング)をする前に!違法にならないための法律以外の注意点

Webスクレイピング(クローリング)をする前に!違法にならないための法律以外の注意点

2020.01.28
  • スクレイピング
  • 基礎知識
  • スクレイピング法律


ビジネスにおいてWebスクレイピング(クローリング)を行うにはいくつかの手順があります。

  1. Webスクレイピング(クローリング)を活用するサービスが違法かどうかを調べる
  2. Webスクレイピング(クローリング)を行うWebサイトの調査
  3. Webスクレイピング(クローリング)コードの確認

違法かどうかがわかるWebスクレイピング(クローリング)に関する法律についてはこれまでの記事でお伝えしました。
今回は「Webサイトの調査」についてのノウハウをお伝えします。
本当にそのWebサイトからスクレイピング(クローリング)ができるのか、スクレイピング(クローリング)をしても問題はないか、はWebサイトの内部を確認することで、より安全にスクレイピング(クローリング)をすることができます。
どんなことが必要か、スクレイピング(クローリング)のプロ目線から確認しました。

目次

  1. Webサイト調査はここから
  2. Webスクレイピングが難しいWebサイトの特徴
  3. Webスクレイピングができない、そんな時はプロに相談

Webサイト調査はここから


サイト調査
  • APIの有無

    WebサイトがAPIを提供していて、そこから十分なデータが取得できる場合はAPIを利用する方が安全です。APIを利用するにはそれぞれ登録が必要です。APIがなかったり、あっても取得できるデータの精度が低い場合にはWebスクレイピング(クローリング)で取得した方がよいでしょう。

  • robots.txt

    robots.txtにはクローラーやWebスクレイピングなどのロボットに対して、どのURLにアクセスしてよいか、してはいけないか、が書いてあります。基本的にはrobots.txtの内容にしたがってスクレイピングを行う必要があります。

    robots.txtはたいてい、トップページURLの直下に/robots.txtとして存在します。

    たとえば、https://www.sms-datatech.co.jp/robots.txtといった具合です。

    • User-agent・・・対象となるクローラー/スクレイピングの種類
    • Crawl-Delay・・・クローラー/スクレイピングの時間間隔を指定
    • Disallow・・・クローラー/スクレイピングされたくないページやディレクトリを指定
    • Allow・・・Disallowになっているディレクトリの中でも、クローラー/スクレイピングしてもよいページやディレクトリを指定
  • Webスクレイピング(クローリング)するページは直接アクセス可能か

    Webサイトがスクレイピング(クローリング)対策などを行っている場合、ロボットでの直接アクセスが難しい可能性があります。特に問題ない場合はGETやPOSTのみでページに直接アクセスすることができます。

    • GETでURLを参照・・・URLをブラウザに直接入力するだけで見ることができるページ
    • POSTでデータをサーバに送る・・・検索機能や絞り込み機能があり、検索してもページURLが変わらないページ

GET、POSTによるWebデータの取得

Webスクレイピング(クローリング)が難しいWebサイトの特徴

いくつかのWebサイトはDos攻撃などからサイトをまもるためのセキュリティ対策をしている場合があります。そういった対策はWebスクレイピング(クローリング)を含めるロボットによるアクセスを難しくするため、データ取得の際には工夫が必要です。

例えば、下記のようなWebサイトはWebスクレイピング(クローリング)が難しいサイトといえるでしょう。

  • アクセスするにあたってリファラやCookieの設定が必要
  • 会員制のWebサイトでログインが必要
  • ログインの際に認証コードが必要
  • JavaScriptなどhtml以外のプログラムが組まれている

新規CTA

Webスクレイピング(クローリング)ができない、そんな時はプロに相談

Webサイトの調査をしていると、Webスクレイピング(クローリング)ができないかも・・・と思うこともあるでしょう。実際にWebスクレイピング(クローリング)ができないページも存在します。しかし、Webスクレイピング(クローリング)のプロは様々な方法を用いてWebデータを取得する技術を知っています。もし、Webサイトの調査をしていてわからないことがあった、Webスクレイピング(クローリング)ができない、と諦める前に一度プロに相談してみるとよいでしょう。

【完全版】3分では語れない、Webスクレイピングとは?これだけ読めばすべてが分かる!

記事を検索する

  • 全て
  • 業務効率化
  • データ活用
  • ビッグデータ
  • 営業
  • マーケティング
  • スクレイピング
  • 基礎知識
  • DX
  • データ分析
  • スクレイピング法律
  • セドリ
  • 飲食店
  • 不動産
  • 観光
  • SNS
  • IT用語
  • データ収集
  • 補助金
  • 社員渾身ブログ
  • 監視
  • スクレイピング代行
  • ニュース

最新の記事

  • AI活用事例に学ぶ、導入成功のコツ|失敗例からNGパターンも
  • Web改ざん検知とは?おすすめツール6つ紹介
  • 【2023年最新】今更聞けないIT用語45選
  • ダークウェブとは?仕組みや取引される情報、対策方法を解説
  • 【人材会社必見】営業リストの作り方!リストの重要性と効果的な作り方も解説

よく読まれている記事

  • 【2023年最新】今更聞けないIT用語45選
  • Webスクレイピング禁止サイト5選!違法にならないスクレイピングの方法とは
  • Excelは不要!グラフ作成ツールおすすめ10選
  • 【厳選】OSINTツール4選!メリットとポイントとは
  • 【IT弁護士監修】スクレイピングは違法?法律に基づいて徹底解説

関連する記事

  • Web改ざん検知とは?おすすめツール6つ紹介
  • 【2023年最新】今更聞けないIT用語45選
  • 金額算出に最適な競合調査とは?メリットやデメリット、金額算出の流れを解説

前の記事

【Webスクレイピング】違法にならないサービスパターン5選

ブログ一覧へ

次の記事

【決定版】Webスクレイピングに必須の言語、知っておくべき知識とは

お問い合わせ・資料ダウンロード

サービス&ソリューション
  • スクレイピング代行サービス
  • 物件比較ツール「Mekiki」
  • Webサイト監視ツール「TOWA」
  • 最新営業リスト作成・管理
    ダッシュボード
  • SNS分析サービス
    「SocialAnalyst」
  • Tableau構築支援サービス
  • シフト自動最適化AIソリューション
    「Optamo for Shift」
  • 導入事例
  • ニュース&ブログ
  • 運営会社
  • 資料ダウンロード
  • お問い合わせ
  • プライバシーポリシー
  • セキュリティポリシー
keyboard_arrow_up

Copyright © SMS DataTech All Right Reserved