なぜOctoparseは最初のアイテムだけを抽出して重複のデータを取得するのですか?

Tuesday, September 25, 2018 5:25 PM

「Loop Item」は、Octoparseでは非常に重要です。なぜなら、これは、スクレイピング・タスクを構築する際に最も頻繁に使用される手順の1つです。

Octoparseが最初のアイテムのみを抽出して重複のデータを取得するタスクがある場合は、そのタスクで作成した「Loop Item」を修正する必要があります。

発生した原因は主に2つがあります。

1) 抽出対象のデータが選択領域にありません。(たとえば、タイトルだけを選択してループを作成するで、タイトル以外のデータをクリックして抽出するなど)

通常、リストページからデータを抽出する必要があるときにこの間違いはよく発生します。

この場合、「Loop Item」全体を削除し、再構築する必要があります。ループを作成するには、領域全体をアイテムとして選択しなければなりません。(データ抽出は選択した領域でのみ可能です。)領域全体を直接選択できない場合は、「Action Tips」のこのアイコンをクリックして必要なすべてのデータを含めるまで領域を拡大します。

 

 

2) ループを終了すると、Octoparseは最初の項目を赤色でマークします。下のスクリーンショットの表示のように、最初の項目からデータの抽出を始めるように指示します。

しかしOctoparseのヒントに従わず、2番目のアイテムまたは他のアイテムからデータを抽出し始めると、Octoparseは2番目のアイテムまたは他のアイテムのデータをスクレイピングし、重複のデータを生成する可能性があります。「Extract Data」のステップを削除し、Octoparseの指示に従ってループ内に「Extract Data」の新しいステップを追加してください。

 

以下の手順に従って、「Loop Item」を手動でチェックすることができます。

  1. 下のスクリーンショットに示すように、「Loop Item」の最初のアイテムをクリックすると、抽出されたデータをチェックできます。
  2. 「Loop Item」の2番目のアイテムをクリックしてデータを確認します。 2番目のアイテムを選択しても抽出されたデータが常に同じ場合は、上記の解決策に従ってタスクを修正する必要があります。

 

 

btn_sidebar_use.png