なぜOctoparseはいくつかのページをスキップしますか?

Tuesday, October 16, 2018 5:45 PM

多くのユーザーは、OctoparseがWebサイトをスクレイピングするときにいくつかのページをスキップするようなケースに遭遇しました。例えば、最初の2つのページを正常にスクレイピングした後、ページ5に直接ジャンプしてから10ページ目にジャンプしますが、順番にページに移動しません。

これは、自動生成されたページネーションループのXPathが次のページボタンを見つけられないからです。

次の例を見てください:(例のURL)

最初のページでは、ページネーションループが表示され、XPathは次のボタンを正しく探します。

ただし、2番目のページでは、XPathがページ10を定めます。

 

だから、第2ページのスクレイピングを終えた後、Octoparseは直接第10ページに行き、その間の多くのページをスキップします。

 

この問題を解決するには?

そのような問題を解決するのは簡単です:XPathを変更して、常に次のボタンの位置を確認するだけです。

FireFoxの次のボタンを調べて、ソースコードを確認することができます。

Aタグにはtitle属性があります。この属性を使ってXPath://a[@title='Next'] を書くことができます(XPathを書く方法をご覧ください。)

OctoparseにXPathを入力して、次へのボタンが見つかるかどうかを確認します。

 

 

ヒント!

タスク内でページネーションループを作成した後、このチュートリアルで示すように、手動で「Click to paginate」をクリックして複数のページに移動し、自動生成されたXPathが次へのボタンを正確に見つけることができるかどうかを確認することをおすすめします。

 

btn_sidebar_use.png