Advanced Mode(カスタマイズモード)

Sunday, April 08, 2018 4:27 AM

Advanced Modeとは?

Advanced Modeは自由度の高く強力なWebスクレイピングモードです。複雑なサイトからスクレイピングしたい人にとって、Advanced Modeを強くお勧めします。

Octoparse Advanced Modeでは、

 · ほとんどWebページからデータをスクレイピングできる;

 · テキスト、URL、画像、HTMLなどのデータを抽出できる;

 · ログイン認証、キーワードの検索、ドロップダウンメニューの開きなど、Webページとのやり取りを設計できる;

 · 待ち時間の設定、XPathの変更、データの再フォーマットなど、ワークフローをカスタマイズできる;

 

スクレイピングするWebサイトが非常にシンプルな場合は、Wizard Mode を使いましょう。

 

このチュートリアルでは、Advanced Modeでタスクを作る3つのステップAdvanced Modeユニークな機能について説明します。

1) Advanced Modeで新しいタスクを作る

2) ワークフローの設計とカスタマイズ

     1. 内蔵ブラウザでWebページとやり取る

         · Action Tips

     2. ワークフローを設計する

         · ワークフローのタスクアクション

         · ワークフローの実行順序

      3. ワークフローをカスタマイズする

         · タスクアクションのカスタマイズ

3) タスクを行いデータを抽出する

 

 

 

 

 

1) Advanced Modeで新しいタスクを作る

1. Advanced Modeで「+Task」をクリックします。

 

2. URLを入力し、「Save URL」をクリックします。

 

 

 

 

 

2) ワークフローの設計とカスタマイズ

「Save URL」をクリックすると、タスク設定画面に入ります。

タスクの最も重要な部分は、特定のデータ抽出要件のワークフローです。Octoparseは、ワークフローで設定されたすべてのアクションを実行して、データ収集を完了します。

Advanced Modeでは、タスク設定画面は、選択モードワークフローモード の2つのモードに切り替えることができます。

通常、Octoparseはデフォルトで選択モードに入りました。右上隅のオン/オフボタン  を使ってワークフローモードを開きます。ワークフローモードを開くと、作ったタスクをよりよく把握でき、ステップを間違いないようにできます。

それでは、ワークフローを一緒に構築しましょう。

 

1. 内蔵ブラウザでWebページとやり取る - 簡単なクリックでデータを取得する

1.1 Action Tips

新しいタスクを作る際には、通常、Webページから取得したいデータを選択して  スクレイピングします。

Advanced Modeでは、内蔵ブラウザでWebページとやりとりするとき、Octoparseは「Action Tips」でお知らせと利用可能なアクティビティを提供します。クリックだけでWebデータをスクレイピングできます。

 

 

2. ワークフローを設計する - 抽出するデータの位置と順番をOctoparseに伝える

2.1 ワークフローにおけるタスクアクション

内蔵ブラウザでページから任意の要素をクリックすると、Octoparseはスクレイピングしたいデータを予測して検出し、利用可能な操作を「Action Tips」から選択できます。必要なアクションを選択すると、対応するタスクアクションがワークフローで自動的に生成されます。

ワークフローを構成するタスクアクションは10種類あります。

 

たとえば、「Action Tips」から[Extract the text of the selected element]をクリックすると、「Extract Data」アクションがワークフローに追加されます。「Click element」を選択すると、「Click Item」がワークフローで生成されます。

 

クリックするだけでなく、タスクアクションを引きずってワークフローに追加できます。したがって、ワークフローを設計する際に自由度を高めることができます。

 

 

ヒント!

1.「Branch Judgement」アクションは、手動追加のみです。「Branch Judgement」の詳細はこちら

2. 「Pagination Loop」は「Loop Item」の一種で、「 Click to paginate 」は「Click Item」の変形です。ページ遷移を扱い複数のページを抽出する とき、ワークフローで作成されたのを見られます。

3. ワークフロー内のすべてのタスクアクションの概要をご覧にたい方は、ここをクリックしてください。

 

 

 

2.2 ワークフローの実行順序

ワークフローで追加されたアクションは、上から下に実行されます。「Loop Item」中のアクションは複数回実行されます。ワークフローの順序を変更するには、アクションを上下に引きずることができます。

 

3. ワークフローをカスタマイズする - ワークフロー内の各アクションを設定する

3.1 タスクアクションをカスタマイズする

今、ワークフロー設計が完了しました。ワークフロー内の各ステップをクリックすると、Octoparseがサイトとどのようにやりとりしているか、対象データを期待どおりに抽出できるかを簡単に確認できます。

Advanced Modeでは、効果的なデータスクレイピングを実現するために、さまざまなカスタマイズオプションを用意しています。

ワークフローのアクションをクリックすると、利用可能なカスタマイズオプションが「Customize Action」に表示されます。

例えば、「Extract Data 」アクションでは、抽出したデータのフィールド名を「Field1_Text」から「Title」に変更したり、クリックして抽出したデータを削除できます。

Go To Web Page」アクションでは、広告が抽出速度を低下させないようにポップアップウィンドウをブロックできます。

 

 

 

 

 

3) タスクを実行する

タスクの設定を確認したら、「Start Extraction」をクリックしてタスクを実行します。

 

 Local Extraction  または Cloud Extraction でタスクを実行できます。

 

 

関連記事:

タスクとは?

タスクを作る 

Webページとのやり取り 

アクションのカスタマイズ 

より多くのテク 

 

btn_sidebar_use.png