空白のフィールドを抽出したら何をすべきか?

Tuesday, October 16, 2018 5:43 PM

なぜ空白のフィールドがあるのですか?

Webページ上の要素を選択すると、Octoparseはページのソースコード内でその要素を表すパターン(XPath経由)を知的に把握します。そのパターンに基づいて、複数のページにわたるすべての「類似」要素が検出され、抽出されます。

デフォルトでOctoparseがページ上で定義されたパターンの要素を見つけられない場合、フィールドは空白のままになります。

 

どのような場合にOctoparseは定義されたパターンの要素を見つけられませんか?

最も一般的なケースは次のとおりです。

- 実際には、目標要素はすべてのページに表示されません。

- 目標要素はすべてのページにあるのが、常に同じ場所にあるわけではありません。

- 目標要素の一部は偶然に残されています。

- Octoparseは、目標要素が読み込まれる前に抽出を開始します。

 

空白のフィールドを扱うには?

抽出された結果に空白のフィールドがある場合、それぞれは異なる原因によって誘導される可能性があります。正確な原因を究明するには、欠落しているデータを含む特定のページを調べる必要があります。

Octoparseは、ページを追跡するためのショートカットを提供します。複数のページからデータを抽出する場合、各ページのURLを同時に抽出することができます。

Add predefine fields > Add current page information > Web page URL

 

空白のフィールドに対応するURLをブラウザに開き、定義されたパターンの失敗に対処する方法がわかります。

- 目標データはこのページに表示されない > 大丈夫

- 目標データは対応するものと異なる場所に表示される > XPathを変更する必要がある

- 目標データは同じ場所に表示されますが、対応するものとしては抽出されない > XPathを変更する必要がある

- 目標データは同じ場所に表示され、正常に取得される > 待ち時間を設定する/ 2回目の実行

 

 

 

 

 

btn_sidebar_use.png