
Webから各種の情報を、プログラムを利用して情報収集ができるスクレイピング。情報を活かしたビジネスを行う場合には、大変強力なツールとして働いてくれるでしょう。
そんなスクレイピングを行うためのソフトウェアですが、一部のサービス、ソフトウェアでは無料版を提供してくれているのはご存知でしょうか?多少の利用制限はあるものの、無料で情報収集の自動化を図れるとなれば、これは是非とも利用してみたいところです。
Octoparseはスクレイピングを行うことができるソフトウェアの一つです。無料版が提供されているため、初めてスクレイピングを行う方でも、気軽に取り組めるのが大きなメリットでしょう。
本記事では、Octoparseについて概要と使い方、そして実際に使ってみた際の手順をご紹介します。
スクレイピングの有用性
Web上には膨大な量の情報が溢れています。その中から自分にとって役立つ情報を集めるためには、結構な手間がかかってしまうことが予測されます。
Webスクレイピング(クローリング)はソフトウェアにより自動的にWeb上の情報を集める方法です。利用者はキーワードやデータの取得対象URL等を指定するだけで、後は自動的にWebスクレイピングツールによって有益なデータを集めることが可能です。
Webスクレイピングについては下記の記事で詳しく紹介しています。ぜひご参照ください
Octoparseとは
Octoparse(オクトパス)はOctoparse Data Inc.の提供するアプリケーション型のWebスクレイピングツール(Webクローラー)です。Webスクレイピングを行うことで、Web上から有益な情報を収集することができます。
また、デスクトップ型の無料プランがあるため、誰でもWebサイトからダウンロードして試すことが可能です。(有料版ではクラウドでのスクレイピング機能が利用可能です)
Octoparseの有料プラン・無料プランの比較
Octoparseを利用する場合、無料と有料のプランが存在しています。一度にスクレイピングできる対象数や実行環境などに差異があるため、大規模な利用では有料プランへの加入が必要です。詳細な料金プランや機能差はこちらを参照ください。

これ以外にもスクレイピング設定、データ取得作業まで代行する「データサービス」コースもあります。こちらについては、詳細はお問い合わせください。
Octoparseのメリット・デメリット
Octoparseを利用する際のメリット・デメリットについて記載します。
メリット
- PCとインターネット環境があれば利用可能
- 無料から利用を始められる
- GUIベースで誰でも簡単にスクレイピングできる
- コード不要で専門知識を持っていない人も始められる
- 出力形式も多数用意されている
- チュートリアルなどが用意されているため、使い方も調べやすい
デメリット
- 無料版以上の機能が必要な場合にはコストがかかる
- ローカル版の場合、PC上でアプリケーションを連続稼働させる必要がある
- 海外企業の提供するサービスのため、日本語の翻訳が一部完全ではない
- 海外企業の提供するサービスのため、国内法についての対応などは記載されていない
- 海外企業の提供するサービスであり、データの安全保障、ユーザ情報の流出などには不安が残る
Octoparseでスクレイピングをしてみました
無料プランでOctoparseを実際に利用してみました。Windows10の環境で試しています。
環境準備
利用開始するには、まずユーザー登録をする必要があります。

会員登録後、インストーラをダウンロードします。2022年8月25日時点で最新版は8.5.4でした。ダウンロードページにインストール手順が日本語で記載されていますので、こちらに従ってインストールを行います。


ダウンロードが完了したら、インストーラを起動してPC上にインストールを行います。

タスクの作成と実行
Octoparseをアイコンやメニューから起動します。登録したユーザー情報を使ってログインします。

画面から、新規作成を行いスクレイピングを行うタスクを作成します。チュートリアルやカスタマイズモードなどを使ってもスクレイピングタスクの作成が可能です。使い方を調べながら利用するのに便利です。
今回は新規作成にて、URLにPigDataのサイトトップページを設定しました。

保存すると自動的にページ認識が始まり、データが抽出されます。さらに必要に応じて取得項目等の設定を行いましょう。ページネーションを設定するとページ送りが設定されているWebサイトでは次ページ以降の情報も取得できます。

画面赤枠の「ワークフローを生成」ボタンをクリックすることで、自動的にワークフローが生成されます。下記画像の青枠、画面左側のWebサイトイメージの項目をクリックすることで、下部のリストに項目が追加され取得項目を設定できます。
また、下記画像の赤枠、画面右側のフロー図の矢印部分をクリックすることで、ワークフロー内に処理イベントを追加することが可能です。設定後タスクを保存します。

スクレイピングを行うにあたり、どの様なデータを抽出するか、対象とするWebサイト(URL)をどの様に定めるか、といったあたりを設定しなければなりません。スクレイピングに慣れていない場合には、悩ましいところです。チュートリアルなどを有効利用して設定内容を確認しましょう。
この辺りの設定については、チュートリアル等を参照しながら、自分の集めたい情報に合わせる必要があります。最初に調べておかなくてはならないため、利用上で最初に引っかかるポイントとなるかもしれません。また、スクレイピングを禁止しているサイトも存在するため、注意ください。
スクレイピングを禁止しているサイトについては、こちらの記事もご参照ください。
タスクの実行
ダッシュボード画面から、スクレイピングタスクを実行します。こちらは先ほど作成したタスクが表示されているので、起動するだけでOKです。無料版ではローカル起動のみが実行可能です。


指定したURLは一つだけでしたので、スクレイピングは10秒ほどで終了しました。指定したURLが増えると実行時間が長くなることが予想されます。また、ネットワーク環境やPCの状況によっても、処理時間は変わってくるでしょう。多くのURLを指定する場合にはクラウドでのスクレイピング実行(有料版)が必要と感じました。

データエクスポートすることにより、Excel、CSV、JSONなど様々な形式での出力が可能です。データベースへの出力も可能なようです。この辺りは自動で保存されるように設定しておきたいところとなります。
リンクを辿ったり、ページ遷移を挟んでのデータ抽出も
タスクの編集画面にて、画像赤枠の右側のワークフローを編集することでスクレイピング処理の詳細を設定することが可能です。リンクを辿る、ページ遷移を挟んでデータを抽出するなどの設定を行うことも出来ます。GUIでフロー図を編集していくことでワークフローを編集することができます。

GUIでワークフローを編集できるので、ある程度、直感的に処理を追加することなどが可能です。ただし、選択できる処理の内容の表示文字列が長すぎるため見づらく、慣れが必要です。
手間がかかり設定内容が難しく感じました。取得できるデータを細かく指定できるため使いこなしたいところです。
スクレイピングならPigData
PigDataはスクレイピングエンジンとクラウドサービス型のシステム開発を提供しています。国内企業によるBtoB向けサービスですので、安心して利用することが可能です。スクレイピングによる法律抵触が心配される場合でも、豊富なノウハウから安心して利用可能な方法をご提案します。
「もっとスクレイピングをしたい」「国内のスクレイピングサービスを利用したい」「Octoparseでスクレイピングできない」という方はぜひご相談ください。
また、自動でWebサイトの変化のみを知りたい場合にはより手軽なWebサイト監視ツール「TOWA」がおススメです。監視したいWebページを設定するだけでWebサイトのデータの変化がわかるため、スクレイピングツールよりも手軽に利用することができます。全てのWebデータを収集したいわけではないけど、その変化を知りたい方はぜひご検討ください。