PigDataロゴ

お問い合わせ
  • サービス&ソリューション
    • スクレイピング代行サービス
    • 最新営業リスト作成・管理
      ダッシュボード
    • SNS分析サービス
      「SocialAnalyst」
    • 24時間サイトモニタリングサービス
      「トーワ」
    • 競合監視・分析サービス
    • Tableau構築支援サービス
    • シフト自動最適化AIソリューション
      「Optamo for Shift」
  • 導入事例
  • ブログ
  • 運営会社
  • 資料ダウンロード
  • お問い合わせ
  • プライバシーポリシー
  • セキュリティポリシー
  • トップに戻る
PigData > ブログ > スクレイピングをする前に!違法にならないための法律以外の注意点

スクレイピングをする前に!違法にならないための法律以外の注意点

2020.01.28
  • スクレイピング
  • 基礎知識
  • スクレイピング法律


ビジネスにおいてスクレイピングを行うにはいくつかの手順があります。

⇒スクレイピングの基礎から応用までがわかるガイドはこちら

  1. スクレイピングを活用するサービスが違法かどうかを調べる
  2. スクレイピングを行うWebサイトの調査
  3. スクレイピングコードの確認

違法かどうかがわかるスクレイピングに関する法律についてはこれまでの記事でお伝えしました。
今回は「Webサイトの調査」についてのノウハウをお伝えします。
本当にそのWebサイトからスクレイピングができるのか、スクレイピングをしても問題はないか、はWebサイトの内部を確認することで、より安全にスクレイピングをすることができます。
どんなことが必要か、スクレイピングのプロ目線から確認しました。

目次

  1. Webサイト調査はここから
  2. スクレイピングが難しいWebサイトの特徴
  3. スクレイピングができない、そんな時はプロに相談

Webサイト調査はここから


サイト調査
  • APIの有無

    WebサイトがAPIを提供していて、そこから十分なデータが取得できる場合はAPIを利用する方が安全です。APIを利用するにはそれぞれ登録が必要です。APIがなかったり、あっても取得できるデータの精度が低い場合にはスクレイピングで取得した方がよいでしょう。

  • robots.txt

    robots.txtにはクローラーやスクレイピングなどのロボットに対して、どのURLにアクセスしてよいか、してはいけないか、が書いてあります。基本的にはrobots.txtの内容にしたがってスクレイピングを行う必要があります。

    robots.txtはたいてい、トップページURLの直下に/robots.txtとして存在します。

    たとえば、https://www.sms-datatech.co.jp/robots.txtといった具合です。

    • User-agent・・・対象となるクローラー/スクレイピングの種類
    • Crawl-Delay・・・クローラー/スクレイピングの時間間隔を指定
    • Disallow・・・クローラー/スクレイピングされたくないページやディレクトリを指定
    • Allow・・・Disallowになっているディレクトリの中でも、クローラー/スクレイピングしてもよいページやディレクトリを指定
  • スクレイピングするページは直接アクセス可能か

    Webサイトがスクレイピング対策などを行っている場合、ロボットでの直接アクセスが難しい可能性があります。特に問題ない場合はGETやPOSTのみでページに直接アクセスすることができます。

    • GETでURLを参照・・・URLをブラウザに直接入力するだけで見ることができるページ
    • POSTでデータをサーバに送る・・・検索機能や絞り込み機能があり、検索してもページURLが変わらないページ

GET、POSTによるWebデータの取得

スクレイピングが難しいWebサイトの特徴

いくつかのWebサイトはDos攻撃などからサイトをまもるためのセキュリティ対策をしている場合があります。そういった対策はスクレイピングを含めるロボットによるアクセスを難しくするため、データ取得の際には工夫が必要です。

例えば、下記のようなWebサイトはスクレイピングが難しいサイトといえるでしょう。

  • アクセスするにあたってリファラやCookieの設定が必要
  • 会員制のWebサイトでログインが必要
  • ログインの際に認証コードが必要
  • JavaScriptなどhtml以外のプログラムが組まれている

スクレイピングができない、そんな時はプロに相談

Webサイトの調査をしていると、スクレイピングができないかも・・・と思うこともあるでしょう。実際にスクレイピングができないページも存在します。しかし、スクレイピングのプロは様々な方法を用いてWebデータを取得する技術を知っています。もし、Webサイトの調査をしていてわからないことがあった、スクレイピングができない、と諦める前に一度プロに相談してみるとよいでしょう。

【初心者向け】3分では語れない、スクレイピングとは?をわかりやすく解説します

よく読まれている記事

  • 【2022年保存版】最新!今更聞けないIT用語40選
  • 【厳選】OSINTツール4選!メリットとポイントとは
  • IT弁護士に聞く「企業としてのスクレイピングは違法なのか?」
  • 【スクレイピング】違法にならないサービスパターン5選
  • Excelは不要!グラフ作成ツールおすすめ10選

最新の記事

  • 2022年最新!専門家が選ぶおすすめWEBクローラーサービス
  • 販路拡大はビッグデータ活用がカギ!その方法とは?
  • Pythonとは?注目される理由やできること、メリットも合わせて解説
  • 【マーケター必見】Twitterデータの活用事例と活用の注意点
  • Webスクレイピングサービス企業5選!
    面倒なデータ収集を自動化

記事を検索する

  • 全て
  • 業務効率化
  • データ活用
  • ビッグデータ
  • 営業
  • マーケティング
  • スクレイピング
  • 基礎知識
  • DX
  • データ分析
  • スクレイピング法律
  • セドリ
  • 飲食店
  • 不動産
  • 観光
  • SNS
  • IT用語
  • データ収集
  • ニュース

関連する記事

  • 2022年最新!専門家が選ぶおすすめWEBクローラーサービス
  • Webスクレイピングサービス企業5選!
    面倒なデータ収集を自動化
  • スクレイピング初心者でもわかる!XPathとは

前の記事

【スクレイピング】違法にならないサービスパターン5選

ブログ一覧へ

次の記事

【決定版】スクレイピングに必須の言語、知っておくべき知識とは

お問い合わせ・資料ダウンロード

サービス&ソリューション
  • スクレイピング代行サービス
  • 最新営業リスト作成・管理
    ダッシュボード
  • SNS分析サービス
    「SocialAnalyst」
  • 24時間サイトモニタリングサービス
    「トーワ」
  • 競合監視・分析サービス
  • Tableau構築支援サービス
  • シフト自動最適化AIソリューション
    「Optamo for Shift」
  • 導入事例
  • ニュース&ブログ
  • 運営会社
  • 資料ダウンロード
  • お問い合わせ
  • プライバシーポリシー
  • セキュリティポリシー
keyboard_arrow_up

Copyright © SMS DataTech All Right Reserved