レッスン7:タスクの実行を行う

Thursday, March 15, 2018 4:14 AM

Octoparseで複数のページからデータを取得するタスクを作る方法を学んだので、Local Extraction(ローカル抽出)またはCloud Extraction(クラウド抽出)を使ってタスクを行い、データを抽出しましょう。

 

1) 「Local Extraction」でタスクを行う

タスクを作った後、「Action Tips」パネルで「Save and run」をクリックするか、「Start Extraction」をクリックするか、タスクを行います。

 

 

次に、「Local Extraction」を選択してローカルクライアント上でスクレイピングを行います。

 

「Local Extraction」画面では、Webページが設定されたワークフローによって自動的に行われ、「Data extracted」パネルにどんどんデータを取得してくれます。

 

 

 タスクの実行を行うと、「Data extracted」パネルの下部に抽出した行数とかかった時間を知らせます。

 

または、ダッシュボード(Dashboard)からローカルクライアント上のデータ抽出量を確認できます。

 

「Extraction settings」をクリックすると:

      · Display error message during “Local Extraction” process(「Local Extraction」処理中のエラーメッセージを表示する)

      · Disable image loading in “Local Extraction”(Local Extraction」でイメージの読み込みを無効にする)

      · Automatic release memory(メモリを自動リリースする)

 

ヒント!

1.「Local Extraction」はどこで行いますか?

Local Extraction」を使ってタスクを行うと、ご自分のローカルIPアドレスを使ってローカルクライアント上で行います。

2.「Local Extraction」の速度に影響するものは何ですか?

「Local Extraction」の速度は、コンピュータの性能、インターネット、対象サイトの読み込み速度に影響されて。

 

 

2) 「Cloud Extraction」でタスクを行う(有料版の場合)

「Cloud Extraction」を選択すると、Octoparseのクラウドプラットフォーム上でスクレイピングを行い、コンピュータまたはアプリケーションが停止されてもタスクを実行できます。Octoparseクラウドサービスには自動IPローテーション、スケジュール設定、抽出速度向上、API接続などの高度な機能があります。(Octoparseクラウドサービスを見る

 

 

ヒント!

1. クラウドタスクのIPは何ですか?

クラウドタスクは、それぞれ唯一のIPアドレスを持つクラウドサーバー上で行われます。「Cloud Extraction」を選択すると、タスクは6〜20台のサーバーに同時配布され、対象サイトでブラックリストに登録される可能性が最小限に抑えられます。

2. 「Cloud Extraction」ではどのように抽出速度を向上しますか?

タスクが分割可能な場合、複数のサーバーで同時に行われるサブタスクに分割されます。 (分割可能なタスクタイプを見る)

 

Cloud Extraction」をクリックしてクラウド上でタスクを行います。タスクが正しく設定されば、抽出したデータに自由にアクセスできます。

 

ダッシュボード(Dashboard)からクラウドタスクのステータスを確認できます。

Status」をクリックすると、さまざまなタスクステータスを選択できます。

 

 

 

抽出量とかかった時間も、ダッシュボードで表示できます。

 

 レッスン8:取得したデータを出力する

 

 

btn_sidebar_use.png