
スクレイピングを得意とする企業に入社した新入社員佐々木。
しかしまだその効果について疑問をもっている模様。そこで佐々木がとった行動は・・・
目次
こんにちは、新卒の佐々木です
みなさん、こんにちは。インディゴデータ、いわゆるIDDの佐々木です。
新卒でSMSデータテックに入社して、新事業領域であるIDDにいます。
右がこっち、左がこっちくらいはわかるのですが、まだまだわからないことも多く日々スポンジがビシャビシャになるほど吸収しています。

インディゴデータ(IDD)ってこんな会社
そもそもSMSデータテックという会社は、システム運用からITコンサルまでカバーしてる素晴らしい会社なんですけど、そしてだから私も入社したわけなんですけど、
その中でも戦略的位置づけのデータDXの会社がIDDなのです。
オープンデータを独自のスクレイピング技術で、収集、分析、可視化まで行いお客様の課題解決に寄与している、熱い会社です。

人は機械にどれだけあらがえるのか?
そんな私ですが、スクレイピングについてはまだまだ勉強中でして
ぶっちゃけどのくらいスクレイピングやデータサイエンスなるものがすごいのかここだけの話ピンときてるわけではないんですよね。。
データの扱いなら、私理系出身ですし、Z世代ですし、弓道部で鍛え上げた集中力があるのでそこらへんの機械より高速にできるという自負もぬぐい切れないわけです。

ということで、様々な議論や葛藤の末、ついに
新卒の私が体当たりで実証を行う、人対機械の総合格闘技
その名も「人は機械にどれだけあらがえるのか」
が発足したわけなのです。
様々なディメンションにおいて、男佐々木が機械を蹴散らしていくわけです。
営業リスト収集対決!!
ということで、第一回のテーマは
「営業リスト収集対決」!!!!!
ということでせっかくならインディゴデータにとっての営業リストを作ろうと思ったのですが、ちょっとリアル感があれなので、私の独断により私の大好きな
「ご飯屋のリスト作り」にしました!!
弓道部時代めちゃ食べました。社長、私をご飯(高級店)に連れてってください。

さて、ホットペッパーグルメで私の出身の埼玉から見てみましょう・・・
29,886件!!

・・ちょっと多いな。
私も別にこのブログだけが仕事ではないので、視点を変えてみましょう。
そうだ、私その中でも、焼肉が好きなのです。焼肉店にしましょう。

1,190件!!

悪くない数字感です。やれる気がする。
ついに決まりました。
埼玉県の焼肉店のリスト収集対決です。
なお、店舗名、住所、電話番号、営業時間、その他情報をきれいに抜き出します。

実際にやってみた
佐々木の工程
- 食べログで検索
- その後一つずつ、クリックしてコピー
- エクセルにペースト
さあ、やりますよ。
ほー、さくさくやな。

スチャッ

ターン!

1カラムずつや。

・・・
・・・
ちょっとコピペ作業がだるいな。
・・・
・・・

・・・
・・・
・・・
2時間経過
・・・
・・・
・・・
やるって言わなきゃよかった。

一方 PigDataは

0.対象となるWebサイトを指定して、取得項目を設定

この設定の柔軟性がPigDataの売りの一つなんですって。
1.スクレイピング開始

2.終了

完成!! てか2分40秒!! 初期設定入れても11分30秒
結論: スクレイピング鬼速やで!
佐々木 : 2時間10分で100件(転記ミス3件、途中で負けたの気づいてやめた)
PigData: 2分40秒

PigDataは人の577倍のスピード!!
対戦を振り返って
スクレイピングはやいです!手前みそながら人の力超えてます。
いやー、正直分は悪いと思ってましたけど、弓の神様、天照大神(あまてらすおおかみ)に弓の対決を挑んでいるような感覚を味わいましたよ。
やりますね。PigData。
ということで、ちゃんと仕事に戻って総括すると
- スクレイピングで、様々なリスト収集が可能!しかもものすごく鬼速。
- 特定サイトからリストを収集するのはPigDataの十八番の一つ。
- データ収集したものをさらに分析、可視化!
- しかもPigDataは様々なお客様の要望にお答えしてカスタムでご対応!
するのがPigData!!
佐々木の挑戦は続く
はい、ということで今回は惜しくも敗れてしまったわけですが
反省としてはスクレイピングの一番得意の土俵で戦ったことが挙げられます。
メイウェザーと那須川天心で、ボクシングルールで勝負した。みたいな状態です。
男佐々木はまた違うディメンションで機械に挑みますよ!
そう、戦いは始まったばかりなのです。
