PDFデータをCSVに変換!スクレイピングで収集もデータ整形も!

データ検証のため、過去数十年分のデータを必要とすることもあるでしょう。しかしそのデータは多量で、さらにPDFであった場合は検証データとしてデータ整形することも一苦労です。また、必要なデータがひとつのサイトにまとまっていないとなると、いくつものサイトを確認しなければなりません。
今回ご紹介する企業様は保険商品を取り扱っており、直近20年分の有価証券報告書記載の財務データと保険商品の収益との関係について検証のため、有価証券報告書からデータを必要としておりました。そのデータが多量のPDFデータであったため、今回PigDataではそれらのデータを取得・整形し、ご活用しやすいようにしてご提供致しました。
スクレイピングとクローリング
有価証券報告書が多く集まるEDINETには直近5年分のデータしか掲載されていません。そこで、EDINETからデータを取得しつつ残り15年分のデータを取得するために各企業のコーポレートサイトをクローリングし、有価証券報告書のデータを取得しました。

PDFデータから必要な情報だけをCSV化
必要なデータは財務情報だけだったので、収集したPDFからそこだけをCSVに変換しました。そこからさらにずれのあった箇所などをデータ整形し、活用しやすい形式でご提供しました。

複数の技術を応用しながらデータ収集
今回は、収集するデータ量が多いだけではなく、そのデータの変換も必要であり全て人手でやるには不可能に近い案件でした。しかしスクレイピング、クローリング、PDFをCSVに変換するなど複数の技術を活用することで目的とするデータ取得に至りました。このデータをもとに、お客様は自社商品と企業の財務のどのあたりが関わっていたのかを検証することができ、新しい営業手段を確立することができたと伺っています。
PigDataではスクレイピングでWebデータを取得するだけではなく、お客様の目的に合わせたデータをご提供致します。単にデータを取得するだけだと、用途によっては活用できない場合があります。データを活用のためのデータ整形にお困りの場合も是非ご相談ください。