【研究者】データを個別にファイリング!大量の辞書データを一括収集

今回ご紹介する事例は教育機関で研究をメインとしているお客様で、Web辞書サービスから用語収集をしたいがそのデータ量が膨大で、どのように収集したらよいのかわからない、全て人力でやるには時間がかかりすぎる、というお悩みを抱えておりました。そこでPigDataはそれらのデータをご要望していた形式でご提供致しました。
データを分けて納品するためにディレクトリを作成
お客様のご要望は「辞書別・用語別にファイルを分けてほしい」ということでした。
辞書も用語も全てひとつのサイトにあるので、スクレイピングを実行すれば基本的に全てひとつのファイルに格納されます。しかし、今回はお客様のご要望に沿うために辞書ごとにディレクトリを作成し、さらにその中の用語ごとにデータを分割して格納することにしました。
複数の辞書も用語も全てスクレイピング
Web辞書サービス「コトバンク」には100以上の辞書データが集まっています。そこから必要な辞書、その中の用語をスクレイピングします。

(参考:コトバンク)
各辞書フォルダに各用語をメモデータで格納
今回お客様は各用語ごとにメモ帳形式で納品してほしい、とのご要望でしたので、全ての用語を個別データにして各辞書フォルダに格納しました。



必要なデータを必要な形式で
今回は大量のデータをひとつのファイルにまとめるのではなく、お客様のご要望に沿ったかたちで複数ファイルにしてご提供致しました。その結果、お客様は必要なデータだけをピックアップしやすくなり、より効率的に研究をすすめることができるようになったと伺っています。
必要なデータ形式はお客様ごとに違います。スクレイピングツールだと決まった形式でしかダウンロードできないデータも、PigDataではお客様のご要望を丁寧にヒアリングして柔軟にご対応致します。複雑な形式でのデータ収集をご希望の場合でもお気軽にご相談ください。