
Webには有意な情報が大量に存在しています。例えば、購入したい商品がある場合、ちょっと検索してみるだけで販売している店舗やサイト、おおよその価格や購入した人のレビューまで見ることが可能です。さらに応用することもでき、同じ商品を扱っているWebサイトを探して情報収集、比較することで、最安値や最速到着時期も知ることができるでしょう。継続的に情報を収集すれば、商品の人気の上昇/下降や底値までも知ることができます。
しかし、人間がわざわざWebサイトを巡り情報を集めるのは大変です。そこで、プログラムを使って自動的にWeb上に存在する情報を集めるスクレイピングといわれる技術が開発されました。スクレイピングの有意性は明らかで、サービスとして提供されるようになり活用が広まっています。利便性は非常に高く、用途も幅広いです。
一方で気になるのは、スクレイピングでWebサイトから情報を収集することに問題はないのか、という点です。他者のデータを集めていることは間違いなく、法律的な規制なども気になるところではないでしょうか。情報も価値のある資産ですので、実際にスクレイピングを禁止しているWebサイトも存在しています。
本記事ではスクレイピングの活用を検討中の方に、禁止サイトや判定法などについて説明します。

スクレイピングとその違法性とは?
利便性の高さから活用を検討している方も多いと思われるスクレイピングですが、気になるのがその行為に法的な問題がないかという点です。スクレイピングの概要から、法律に触れる可能性について説明します。
スクレイピングとは
スクレイピング(またはクローリング)とは、プログラムによりWeb上の情報を収集する技術です。スクレイピングを行うプログラムはWebサイト上のページを一つずつ参照して情報を取得していきます。
スクレイピングは指定したWebサイトから必要な情報のみを収集することができます。
スクレイピングの有効性
スクレイピングは一度設定すると、そのWebサイトの構造が変わらない限り自動で情報収集を行うことが可能です。一度きりではなく、継続的にデータを収集して蓄積することも可能です。
2022年現在では情報はモノや不動産等と同様に価値を持つ資産です。各種のWebサービスが利用者の情報を集めていることからも明白でしょう。確かに情報が公開されているものかどうかで価値は変わってきますが、データには蓄積することで役立つ価値を持つ側面があるのも事実でしょう。
データの価値がどれくらいになるか、どんな効果をもたらしてくれるのかという点については、利用の仕方次第です。しかし、ビジネスシーンを想定すれば、市場調査、競合調査、相場調査、仕入や販売先探しなど直接的に利益につながる利用法が多々思い浮かぶでしょう。
法律に触れることは?
先述した通り、情報は集めて一定量以上になることで価値が発生する場合があります。そしてこの情報の扱いについてはセンシティブな問題を抱えているのも事実です。例えば、個人情報であれば保護すべきものとされており、法律により守られています(個人情報保護法)。
Webスクレイピングの対象はWebサイトに掲載されている情報です。基本的にはWebサイト側が公開しなければ参照できない情報となります。つまり、Webサイトを検索して参照しているのと同等の行為のため、スクレイピングによる情報の収集自体には違法性はありません。
注意しないとならない点として、収集した情報の取り扱い方によっては違法行為が発生する場合があり得ます。また、Webサイトの運営者に迷惑をかける行為も禁じられています。サイトによってはスクレイピングによるデータの取得を禁止している場合もあり、これに逆らってのデータ取得も違法行為となり得ます。
違法性が発生する場合については、下記の記事で詳しく説明していますので、気になる方はご一読ください。
スクレイピング禁止サイトの実例5選
前項でも触れた通り、規約によりスクレイピングを禁止しているWebサイトも多数存在しており、これに反した場合には違法行為を問われかねません。本項では、規約により明確にスクレイピングを禁止しているWebサイトをリストアップしています。
Amazon
EC最大手のAmazon(Amazonジャパン)は利用規約により無許可でのスクレイピングを禁じています。
詳しくは「利用許可およびサイトへのアクセス」を参照下さい。
楽天
国内初のECサイト最大手である楽天もスクレイピングを禁止しています。
詳細は利用規約の第7条禁止事項を参照ください。
世界中で3億3千万人を超えるユーザーに利用されているSNS「Twitter」についても、事前承諾のないクローリング(スクレイピング)は禁止されています。
利用規約の「8.コンテンツおよび本サービスの利用に対する制限」にて、明示的に禁止事項として記載されています。
世界的に利用されているSNS「Facebook」においても、「利用規約」により悪意のあるスクレイピングを禁止事項としています。扱っている情報が個人の情報でもあるため、厳格な取り組みがなされています。
Youtube
Google社が運営する世界最大の動画投稿サイトYoutubeにおいても、利用規約にて特定の場合を除いてスクレイピングを禁止することが明示されています。
スクレイピングが禁止されているかを判断するには?
スクレイピングによるデータ収集を検討している場合、収集対象として考えているWebサイトがスクレイピングを禁止しているかどうかを事前に確認する必要があります。確認する手段としては、下記が挙げられます。
- 利用規約を読む
利用規約に明示的にスクレイピングを禁止する記載があれば、明らかに禁止されています。
- WebAPIの存在
外部からのアクセス方法としてWebAPIを提供している場合、アクセスはWebAPI経由に限られていることがほとんどです。
- robot.txt
コンテンツとともにWebにアップロードされているファイルrobot.txtは、検索エンジンのクローラに対してURLのアクセス可否を記載しています。robot.txtでアクセスが許されていないURLはスクレイピングも禁止されていると考えられます。
特に会員制サイト等では情報の閲覧に関してユーザのアクセス権限を制御していることが一般的です。情報を会員以外のユーザに公開したくないという意図の現れであり、スクレイピングをする場合にはリスクが高くなる傾向があります。
これらの情報からスクレイピングが禁止されているかどうかを判断しましょう。もし、自分では判断ができない場合、曖昧な場合は、ITや法律の専門家へ相談するのも一つの手です。専門的な知識と豊富な事例から、違法性を判断することが可能です。
また、スクレイピングを個人で行うのが不安であれば、専門のサービスとして行っている企業の活用を検討し、スクレイピングを行うリスクを減らすのもよいでしょう。
スクレイピングの法律ならPigData
弊社Indigo Dataでは、Web上でのスクレイピングエンジンとシステム開発をPigDataというサービスとして提供しています。PigDataはスクレイピングを専門としており、それに準ずる法律に関しても熟知しているため、安心して利用できるスクレイピングサービスです。
スクレイピング(クローリング)そのものはデータを収集すること自体が目的ではないため、違法性はありません。スクレイピングで収集した情報から、査定をするためのデータ整形や分析も承っています。まずはお気軽にご相談ください。