
Webには有用な情報が豊富に存在しています。例えば、商品を検索するだけで、販売サイト、価格、レビューなどを簡単に調べられます。さらに複数サイトを比較すれば、最安値や最速の到着時期、価格変動の傾向なども把握可能です。
しかし、こうした情報を手作業で収集するのは手間がかかります。そこで登場したのが、Web上の情報を自動で収集する「スクレイピング」という技術です。スクレイピングの有意性は明らかで、現在ではサービスとしても福裕しており、その利便性と応用範囲は広がり続けています。
一方で、他者のデータを収集するスクレイピングには、法律的な問題や規制も存在します。情報も価値のある資産ですので、実際にスクレイピングを禁止しているWebサイトもあるため注意が必要です。
本記事ではスクレイピングの活用を検討中の方に、禁止サイトや判定法などについて説明します。

目次
スクレイピングとその違法性とは?
利便性の高さから活用を検討している方も多いと思われるスクレイピングですが、気になるのがその行為に法的な問題がないかという点です。スクレイピングの概要から、法律に触れる可能性について説明します。
スクレイピングとは
スクレイピング(またはクローリング)とは、プログラムによりWeb上の情報を収集する技術です。スクレイピングを行うプログラムはWebサイト上のページを一つずつ参照して情報を取得していきます。
スクレイピングは指定したWebサイトから必要な情報のみを収集することができます。
スクレイピングの有効性
スクレイピングは一度設定すると、そのWebサイトの構造が変わらない限り自動で情報収集を行うことが可能です。一度きりではなく、継続的にデータを収集して蓄積することも可能です。
2022年現在では情報はモノや不動産等と同様に価値を持つ資産です。各種のWebサービスが利用者の情報を集めていることからも明白でしょう。確かに情報が公開されているものかどうかで価値は変わってきますが、データには蓄積することで役立つ価値を持つ側面があるのも事実でしょう。
データの価値がどれくらいになるか、どんな効果をもたらしてくれるのかという点については、利用の仕方次第です。しかし、ビジネスシーンを想定すれば、市場調査、競合調査、相場調査、仕入や販売先探しなど直接的に利益につながる利用法が多々思い浮かぶでしょう。
法律に触れることは?
スクレイピングによる情報の収集自体には違法性はありません。Webスクレイピングの対象はWebサイトに掲載されている情報です。基本的にはWebサイト側が公開しなければ参照できない情報となり、Webサイトを検索して参照しているのと同等の行為のため、違法性はないといえます。
しかし、注意しないとならない点として、収集した情報の取り扱い方によっては違法行為が発生する場合があり得ます。また、Webサイトの運営者に迷惑をかける行為も禁じられています。サイトによってはスクレイピングによるデータの取得を禁止している場合もあり、これに逆らってのデータ取得も違法行為となり得ます。
また、情報は集めて一定量以上になることで価値が発生する場合があります。そしてこの情報の扱いについてはセンシティブな問題を抱えているのも事実です。例えば、個人情報であれば保護すべきものとされており、法律により守られています(個人情報保護法)。
違法性が発生する場合については、下記の記事で詳しく説明していますので、気になる方はご一読ください。
スクレイピング禁止サイトの実例6選
前項でも触れた通り、規約によりスクレイピングを禁止しているWebサイトも多数存在しており、これに反した場合には違法行為を問われかねません。本項では、規約により明確にスクレイピングを禁止しているWebサイトをリストアップしています。
Amazon
EC最大手のAmazon(Amazonジャパン)は利用規約により無許可でのスクレイピングを禁じています。
詳しくは「利用許可およびサイトへのアクセス」を参照下さい。
楽天
国内初のECサイト最大手である楽天もスクレイピングを禁止しています。
詳細は利用規約の第7条禁止事項を参照ください。
X(旧Twitter)
世界中で3億3千万人を超えるユーザーに利用されているSNS「X(旧Twitter)」についても、事前承諾のないクローリング(スクレイピング)は禁止されています。
利用規約の「本サービスの悪用」にて、明示的に禁止事項として記載されています。
世界的に利用されているSNS「Facebook」においても、「利用規約」により悪意のあるスクレイピングを禁止事項としています。扱っている情報が個人の情報でもあるため、厳格な取り組みがなされています。
Youtube
Google社が運営する世界最大の動画投稿サイトYoutubeにおいても、利用規約にて特定の場合を除いてスクレイピングを禁止することが明示されています。
Yahoo!ファイナンス
Yahooが運営する株価などの情報を提供しているYahoo!ファイナンスではヘルプページにてスクレイピングの禁止を提示しており、株価情報のダウンロードについては有料会員になることで可能であることを促しています。
スクレイピングが禁止されているかを判断するには?
スクレイピングによるデータ収集を検討している場合、収集対象として考えているWebサイトがスクレイピングを禁止しているかどうかを事前に確認する必要があります。確認する手段としては、下記が挙げられます。
- 利用規約を読む
利用規約に明示的にスクレイピングを禁止する記載があれば、明らかに禁止されています。
- WebAPIの存在
外部からのアクセス方法としてWebAPIを提供している場合があります。アクセスはWebAPI経由に限られていることが多く、WebAPI以外から情報を収集するのは禁止とされている場合が多いです。
- robot.txt
コンテンツとともにWebにアップロードされているファイルrobot.txtは、検索エンジンのクローラに対してURLのアクセス可否を記載しています。robot.txtでアクセスが許されていないURLはスクレイピングも禁止されていると考えられます。
特に会員制サイト等では情報の閲覧に関してユーザのアクセス権限を制御していることが一般的です。情報を会員以外のユーザに公開したくないという意図の現れであり、スクレイピングをする場合にはリスクが高くなる傾向があります。
これらの情報からスクレイピングが禁止されているかどうかを判断しましょう。もし、自分では判断ができない場合、曖昧な場合は、ITや法律の専門家へ相談するのも一つの手です。専門的な知識と豊富な事例から、違法性を判断することが可能です。
また、スクレイピングを個人で行うのが不安であれば、専門のサービスとして行っている企業の活用を検討し、スクレイピングを行うリスクを減らすのもよいでしょう。
スクレイピングを禁止しているサイトのデータ収集方法
上記のように、利用規約においてスクレイピングを禁止しているサイトはいくつもあります。
しかし、利用規約は「利用者」に提示される規則のため、非利用者、つまり未ログイン状態においてはこの利用規約に同意していない状態ともいえます。
経産省が発表している「電子商取引及び情報財取引等に関する準則」によると「サイト利用に際して、利用規約への同意クリックが要求されており、かつ利用者にいつでも規約内容が開示されている場合は利用規約が契約に組み入れられる」とされています。言い換えるとログインしていない状態は規約に同意していることにはならず、スクレイピングが違反にあたらない可能性があります。
ただし、規約に同意していないから、と安易にスクレイピングを行うことは危険です。専門家の意見を聞いて実装するかどうかを検討する必要があります。
また、データを正規で収集したい場合、大手サイトの場合はWebAPIが提供されていることも多いため、それを活用するのもひとつの手です。
スクレイピングの法律ならPigData
弊社Indigo Dataでは、Web上でのスクレイピングエンジンとシステム開発をPigDataというサービスとして提供しています。PigDataはスクレイピングを専門としており、それに準ずる法律に関しても熟知しているため、安心して利用できるスクレイピングサービスです。
スクレイピング(クローリング)そのものはデータを収集すること自体が目的ではないため、違法性はありません。スクレイピングで収集した情報から、査定をするためのデータ整形や分析も承っています。まずはお気軽にご相談ください。