Wizard Mode(ウィザードモード)

Sunday, April 08, 2018 4:26 AM

Wizard Mode(ウィザードモード)とは?

Wizard Mode は、あらかじめ作ったテンプレートに基づいて簡単にスクレイピングできる方法で、Webスクレイピングの初心者にとって特に便利です。スクレイピングタスクを作るには、内蔵のウィザード/テンプレートを使うと、提示ガイドがあります。Wizard Modeは、普通なWeb構造への一般的なスクレイピングプロセスを事前定義することによって、Webスクレイピングをよりやすく、よりはやく行うことを目指しています。より複雑な構造を持つWebサイト(ログインや検索が必要なサイトなど)では、より柔軟なワークフローを設定できるAdvanced Modeをお勧めします。

 

このチュートリアルでは、Wizard Modeで3つの抽出タイプを適用してWebデータをスクレイピングする方法を説明します。

1)「List or Table」からスクレイピングする - 単一または複数のWebページからリスト/テーブルを抽出する

2)「List and Detail」からスクレイピングする - リスト上のリンクをクリックしてアイテムページからデータを抽出する

3)「Single Page」からスクレイピングする - 単一のWebページからのデータを抽出する

 

 

 

1) 「List or Table」からスクレイピングする - 単一または複数のWebページからリスト/テーブルを抽出する

1. Wizard Modeでタスクを作る

  · 「+ Task」をクリックします。

 

  · URLを入力し、「Next」をクリックします。

 

2. 抽出タイプを選択する

  · 「List or Table」を選択し、「Next」をクリックします。

    

抽出のタイプを選択したあと、Octoparseはワークフローの各ステップを定義します。全体的な進捗状況は、インターフェイスの右上に表示されます。

 

3. Define list: 対象データを含むリストを指定する

  ·  リストにある最初の2つアイテムをクリックします。Octoparseはすべてのアイテムを自動的に識別し、テキストボックスに追加します。

  · 「Next」をクリックして、次のステップに進みます: Define field

 

ヒント!

リスト上のアイテムを選択するときは、必要なデータが選択/強調されるのを確認することが重要です。 この例では、各アイテムから3つのデータ要素を抽出します。

 

4. Define field: 対象データフィールドを指定する

  · 対象データをクリックすると、「Data field」に表示されます。

  · フィールド名を編集します。

  · 「Next」をクリックして次のステップに進みます:Pagination

 

5. Pagination: 複数のページからスクレイピングするならOctoparseに伝える

Wizard Modeでは、Paginationはデフォルトで無効になっています。 単一のページからのデータをスクレイピング場合は、「Next」をクリックして続きます。

複数のページからスクレイピングする必要がある場合は、「Enable pagination」を選択し、「Next page」ボタンをクリックしてページの遷移を定義します。

ナビメニューの「Next」をクリックして次の手順に進みます。

 

6. 完了

タスクの設定が完了しました。 Local Extraction  または Cloud Extraction  でタスクを行います。

 

 

 

2) 「List and Detail」からスクレイピングする - リスト上のリンクをクリックしてアイテムページからデータを抽出する

1. Wizard Modeでタスクを作る

  · 「+ Task」をクリックします。

 

  ·  URLを入力し、「Next」をクリックします。

2. 抽出タイプを選択する

  · 「List and Detail」を選択し、「Next」をクリックします。

     

抽出のタイプを選択したあと、Octoparseはワークフローの各ステップを定義します。全体的な進捗状況は、インターフェイスの右上に表示されます。

 

3. Define list: 対象データを含むリストを指定する

  ·  リストにある最初の2つアイテムをクリックします。Octoparseはすべてのアイテムを自動的に識別し、テキストボックスに追加します。

  · 「Next」をクリックして、次のステップに進みます: Pagination

 

 

4. Pagination: 複数のページからスクレイピングするならOctoparseに伝える

Wizard Modeでは、Paginationはデフォルトで無効になっています。 単一のページからのデータをスクレイピング場合は、「Next」をクリックして続きます。

 

複数のページからスクレイピングする必要がある場合は、「Enable pagination」を選択し、「Next page」ボタンをクリックしてページの遷移を定義します。

 ナビメニューの「Next」をクリックして次の手順に進みます。

           

 

5. Define field: 抽出するデータフィールドを指定する

「List or Table」のスクレイピングとは異なり、この場合はリストの各リンクをクリックし、詳細ページに移動します。

  · 対象データをクリックすると、「Data field」に表示されます。

  · フィールド名を編集します。

  · 「Next」をクリックしてタスクの設定は完了します。

 

6. 完了

タスクの設定が完了しました。 Local Extraction  または Cloud Extraction  タスクを行います。

 

 

 

3) 「Single Page」からスクレイピングする - 単一のWebページからのデータを抽出する

1. Wizard Modeでタスクを作る

  · 「+ Task」をクリック

 

  · URLを入力し、「Next」をクリックします。

   

2. 抽出タイプを選択する

  · 「Single Page」を選択し、「Next」をクリックします。 

3. Define field:抽出するデータフィールドを指定する

  · 対象データを選択します。

  · フィールド名を編集します。

  · 「Next」をクリックします。

タスクの設定が完了しました。 Local Extraction  または Cloud Extraction  タスクを行います。

 

 

ヒント!

1. Wizard Modeでテキスト以外のデータタイプを抽出できますか?

  · はい、できます。「Data type」のドロップダウンリストをクリックして、抽出データのタイプを選択できます。

        

  · 通常、テキスト、内部HTML、外部HTMLの形式でデータを抽出できます。

       

  · 画像の場合、 Wizard Modeでは、 "src"をスクレイピングこともできます。

       

 

2. Wizard ModeでXPathを変更やデータを再フォーマットできますか?

いいえ、できません。スクレイピングの精度を向上させるため、またはXPathの変更やデータの再フォーマットする必要がある場合は、Advanced Modeに切り替えてください。

XPathで要素を見つける とデータを再フォーマットする方法をご覧ください。

 

3. Advanced Modeに切り替えるには?

Advanced Mode切り替える方法が2つあります。

  · ワークフローを完了してタスクを実行する前に、「Edit with Advanced Mode」をクリックして、Advanced Mode に切り替えることができます。

  

 

  · ダッシュボードでは、Wizard Modeで作ったタスクには があり、Advanced Modeで作ったタスクにはがあります。 

Advanced Modeに切り替えるには、タスクの右端にある「More Actions」をクリックし、「Task」を選択すると「Edit with Advanced Mode」オプションがあります。

   

 

 

 

関連記事:

Advanced Mode 

XPathで要素を見つける 

取得したデータを再フォーマットする 

Local extraction 

Cloud extraction 

Octoparseでタスクを作る 

btn_sidebar_use.png