レッスン2:Octoparseを知ってもらおう!

Thursday, March 15, 2018 4:33 AM

このチュートリアルでは、Octoparse Version 7.Xのユーザーインターフェイスを紹介します。このチュートリアルを読んだら、新しいタスクを作ること、抽出したデータをチェックすること、サポートを受けることを知っておきます。OctoparseのUIに慣れ、スクレイピングが成功できるために、これは基本で不可欠なステップです。それでは、 Octoparse V7.0を早速見てみましょう!

 

Octoparseのユーザーインターフェイスには、サイドバーメニューメイン画面の2つの主要部分があります。サイドバーメニューから項目をクリックすると、メイン画面の新しいタブを開きます。

 

Dashboard には、タスクの開始、停止、スケジュールの設定など、すべてのタスクを管理するメインコンソールです。行う中のタスクの進捗状況も表示され、抽出されたデータをチェックできます。

 

ヒント!

1.  をクリックすると、タスクを簡単に改名できます。

2. 一番下にあるバッチ処理機能を使ってタスクの開始/削除/出力をバッチで処理できます。

 

· Toolsには、XPathの生成、正規表現、データベースへの出力、およびAPIに関する追加ヘルプを提供します。

· Tutorialsには、Octoparseのすべての機能に関連する豊富な学習内容や、知名度の高いのウェブサイトをスクレイピンするための多くの段階的な指導が含まれています。

· Data Serviceには、タスクの配置サービスやデータの配信サービスなどの追加ヘルプを探している場合は、Data Serviceがデータのスクレイピングを処理します。

· Contact supportには、Octoparseによるデータの取得に関する質問やその他のデータスクレイピングの質問については、サポートにお問い合わせください。

ヒント!

1. アカウントの状態と有効期限を確認するには、アカウントのユーザー名にマウスを移動してください。

2. アカウントのユーザー名のすぐ下には、2つの便利なアイコンがあります。 をクリックすると新しいタスクが開始され、 をクリックするとアカウント設定が変更されます。

3. をクリックすると、サイドメニューが折りたたまれます。

4. アカウント設定には、新しいタスクの起動時にワークフローモードをデフォルトモードに設定できます。

 

それでは、新しいタスクをはじめ、設定インターフェイスを確認しましょう。

 

1) 選択モード

 

選択モードは、Octoparseバージョン7.0で新しい機能で、簡単なクリックでWebデータを選択できるように特別に設計されています。必要なデータフィールドをクリックして選択し、テキストを選択するかリストを作るかにかかわらず、操作パネルで適切なアクションを選択するだけです。ページから任意の要素をクリックすると、Octoparseは選択したいデータを予測して検出し、利用可能な選択アクションを提供します。

ヒント!

1. をクリックすると、操作パネルを最小化します。選択モードを使うと、Webスクレイピングを簡単に始められますが、最初からタスクの設定を確認するとか、前の手順を正しく追加されているかどうかをチェックするにはどうすればよいでしょうか?これは、ワークフローモードに切り替えることによって行われます。

2. 右上隅にあるオン/オフボタン を使って、選択モードとワークフローモードを切り替えます。

 


2) ワークフローモード

 

ワークフローモードはより柔軟性があります。待ち時間の追加、AJAXの調整など、ワークフローの各ステップをカスタマイズでき、対応するアクションを行います。

ワークフローデザイナでは、あるアクションがどのように次のアクションに流れるかをはっきり示します。すべての抽出操作を手動でドラッグしてワークフローに追加できます。ワークフローの各ステップをクリックすることで、Octoparseがウェブサイトとどのようにやりとりしているか、またターゲットデータフィールドを期待通りに抽出できるかどうかを簡単に確認できます。

 

ここまでは、Octoparseでデータを取得する準備が整いました。

 レッスン3:データ取得 - ページからテキストを抽出する

btn_sidebar_use.png