広告ブロック&キャッシュクリア

Friday, April 27, 2018 2:47 AM

一般に、Octoparseで作ったタスクは、対象のWebページを開くことから始まります。この手順を容易にするため、広告ブロックとキャッシュクリアという2つの機能を提供しています。これらの機能を適切に活用することで、Webスクレイピングの作業を大幅に高速化できます。

 

 

 

広告ブロック

クローラの抽出速度は、ページの読み込み速度の影響を受けます。バナーやポップアップなど多くの広告がページに表示された場合、ページの読み込みは遅くなり、時間がかかります。 広告をブロックすると、読み込みは速くなります。

 

広告をブロックする方法

Octoparseには広告ブロックを設定する方法が2つあります。

1. 「Go To Web Page」のステップを選択して、「Advanced Options」の「Ad Blocking」を簡単に見つけられます。

 

 

 

2. または「Settings」をクリックすると、「Block ads」オプションがあります。

 

 

 

ヒント!

広告ブロック技術を使うと、Webページの構造が変更されることがあります。その場合は、要素の位置を定めるためにXPathを直してください。

XPathで要素を見つける詳細をご覧ください。

 

 

 

 

キャッシュクリア

例えば、ログイン後にデータを抽出するために、保存されたクッキーを削除する必要がある場合など、Octoparseではキャッシュクリアのオプション提供し、ページを再度読み込むこともできます。

 

 

キャッシュをクリアする方法

1. 「Go To Web Page」のステップを選択すると、「Cache Settings」で「Clear Cache」を簡単に見つけられます。

 

2. ページを開いた後、Octoparseに新しいクッキーを保存記憶させたいのも簡単です。

  • 「Use specified Cookie」をクリックします。
  • 「Load cookie from current web page」をクリックします。

 

そうすると、新しいクッキーはOctoparseに保存されました。

 

ヒント!

1. クッキーはさまざまなので、有効期間も異なります。ブラウザを閉じた後すぐに無効になるのがあり、長く滞在するのもあります。Octoparseでは、保存されたクッキーは有効期限が切れたら無効になります。ですから、キャッシュをクリアしてクッキーを再度読み込む必要があります。

2. キャッシュ設定は、特にログインが必要なウェブサイトにとっては非常に重要です。ログインした後のデータ取得ご覧ください。

 

関連記事:

XPathで要素を見つける

ログインした後のデータ取得

 

btn_sidebar_use.png