レッスン4:データ取得 - リストの内容を抽出する

Thursday, March 15, 2018 4:19 AM

前のレッスンでは、簡単なテキストを抽出する方法を学びました(レッスン3:ページからテキストを抽出する方法を参照してください )。今回では、より進化したスクレイピング技術、つまりリストの内容を抽出する方法を学びます。

通常、Webページ上のコンテンツは特定のパターンで編成されます。最も見られるパターンの一つははリストです。以下はコンテンツがリストとして表示される例です。
 
 
Octoparseは、リストの内容を素早く簡単に抽出することを目指しています。リスト内のすべての可能な要素を自動的に検出できるからです。それでは、例を挙げてそれがどのように行われているかを見てみましょう。[このレッスンのタスクファイルをダウンロードする]

 

 1. リストの定義を行い「Loop Item」を作成する

「Loop Item」を作成するために、リスト要素を2つを選択することで定義を行います。

· 最初の2つの製品をクリックします(残りの同じ構えのリスト要素は自動的に選択され、緑で強調表示され、要素内の情報は赤で強調表示されます)。

 

 

· 「Extract text of the selected elements」をクリックします。そして、リストの内容を抽出するための 「Loop Item」が自動的に作成されます。(Octoparseは選択した内容を自動的に抽出します。削除して必要なデータを追加できます。)

 

ヒント!

1. すべての製品情報を正しくスクレイピングするには、最初の2つのリスト要素は全く同じエリアを選択することを確認してください。エリアを拡大するには、「Action Tips」の下部にある他のタグ(DIV、A、LIなど)をクリックしてください。

2. リスト内の一部の製品が見つからない場合は、リスト内のすべての製品が緑色で強調表示されるまで、ほかの製品情報をクリックしてみてください。


2. サブ要素をクリックしてスクレイピングする

1つ目の製品のサブ要素をクリックして抽出します。「Loop Item」が作成されたので、1つ目の製品に抽出データを指定するだけで、残りはOctoparseより処理します。にするだけです。

· 「Loop Items」にある1つ目の製品のサブ要素をクリックします。

· サブ要素の選択が終了したら、「Extract text of the selected elements」をクリックします。

 

 

3. すべてのサブ要素が自動的にスクレイピングされる

サブ要素をスクレイピングする別の方法があります。 Octoparse 7.Xでは、Octoparseは 「Loop Item」で選択された各項目のすべてのサブ要素を検出し、自動的にデータフィールドを生成することができます。

最初の2つの項目を選択したら、「Select all sub-elements」をクリックします。

 

 

すべてのサブ要素が選択され、「Action Tips」パネルに表示されます。

· 不要な列を削除するには、「X」をクリックします

· 「Extract data」を選択します(抽出するデータは「Data field」パネルに表示されます)

 

 

レッスン5:データ取得 - 各アイテムのページからデータを抽出する

 

 

 

btn_sidebar_use.png