【新規事業開発】弁護士リストの自動取得とGoogle検索情報によるデータのリッチ化

今回ご紹介する企業様はWeb事業を行っており、様々なWebサイトを作成しております。Webサイトを作成するためにはマスターデータが必要で、そのデータを得ることが複雑で難しい場合もあります。

特にWebサイトに散らばるオープンデータを収集するには技術と知識が必要になりますが、お客様は適した人材を保有しておりませんでした。しかし新しい人材を雇うには時間もコストもかかるため、外注を決意し、このたびPigDataをご利用いただくことになりました。

今回はWebサイトのマスターデータとして弁護士リストが必要でした。そこでまず、日本弁護士連合会のホームページから弁護士先生のリストを自動収集しました。取得したリストは44121件にものぼり、手作業で行った場合、膨大な時間がかかったと思われます。(2022年5月現在)

スクレイピング技術を活用したことで、Webサイト上のデータを自動収集し、活用目的に合わせて加工したことで大幅な手間と工数を削減しました。

(参照:日本弁護士連合会


さらに本事例のポイントとしてリスト取得に留まらず、Google検索で取得できる様々なメタ情報も合わせて付与した点にあります。例えば、弁護士の過去のインタビュー記事や経歴などの情報でデータベースをリッチ化しました。


Googleからの検索情報は雑多であるため、検索条件に特定のWebサイト、ブログなどを追加してより精度の高い結果がでるよう絞り込み、最終的には弁護士先生のインタビュー記事など必要な情報が掲載されているURLのみを取得し突合しました。この作業を全ての弁護士に対して一度に行うことができるのもスクレイピングならではです。

今回の事例ではスクレイピングによるリスト取得に加えGoogleの検索情報を付与することで事業活用を想定したリッチなマスターデータを作成しました。このようにPigDataでは複数のデータを取得し統合してご提供することが可能です。これにより、ユーザーのニーズが満たされる充実したWebサイトを作成することができ、利用者が増加したと伺っています。また、今後リストがアップデートされることもあるので差分を追加したり、画像データを収集してよりリッチなマスターデータを作成することも検討されています。

PigDataはスクレイピングを中心としたデータ活用を専門としているため、取得サイトに負荷をかけることなく安全にデータを取得することが可能です。

⇒スクレイピング代行サービスのサービスページはこちら

お問い合わせ・資料ダウンロード