ローカル抽出が動作しているのに、なぜクラウド抽出にデータがないのですか?

Tuesday, October 16, 2018 5:41 PM

場合によっては、ローカル抽出でテストをした後にクラウドでタスクを実行すると、データの抽出に問題がありません。

データ抽出できない主な理由は以下と考えられます。

1) 対象Webサイトが完全に読み込まれない、または目標データが読み込まれていません。

Webサイトの読み込み時間は、インターネットの状態とサイト自体によって異なります。ローカルコンピュータでWebサイトをテストすると、読み込み時間がクラウドよりも短くなる可能性があります。

そのため、目標データが見つからない場合は、「Go To Web Page」アクションのタイムアウトを長くしてみてください。

 

2) クラウドIPは、頻繁なスクレイピングのためサイトへのアクセスに制限されています。

多くのサイトでは、スクレイピング防止技術が適用されています。アクセスできる時間を制限し、制限を超えるIPをブロックする可能性があります。

一部のWebサイトでは、ある地域からのすべてのIPをブロックすることさえできます。たとえば、日本のWebサイトがカナダで開かれない場合があります。

あまりにも頻繁にスクレイピングによってブラックリストに載っているIPは、抽出を遅くするための待ち時間を追加することで解決できますが、現在のところ、OctoparseクラウドIPのすべてがアメリカに拠点を置くため、IP位置の制限は問題になります。残っています。

3) 対象Webサイトへのログインに失敗しました。

Webサイトをスクレイピングするためにログイン手順を設定したり、クッキーをタスクに保存すると、ローカル抽出は完全に機能しますが、実行中に回転するIPが異なるためクラウドの抽出に失敗することがあります。

多くのWebサイトはログインする前に認証を求めます。キャプチャのような認証はクラウド抽出では解決できません。

保存されたクッキーは常に有効な時間を持ち、有効期限が切れたときには動作しなくなります。これを解決するには、更新されたクッキーを取得して保存するために適切なアクションを追加して、再度ログインのステップを実行する必要があります(クッキーを保存する方法をご覧てください)。

4) クラウドで開いたときサイトのHTML構造は変わります。

Octoparseでは、Webデータを抽出するには、実際にソースコード/ HTMLファイルからコンテンツを取得することです。データを抽出するには、HTMLコードを認識する必要があります。

クラウドでWebサイトの構造が異なりより抽出に失敗した場合があります。

たとえば、中国のIPでSephora.comを開くと、そのページはSephora.cnにリダイレクトされます。異なる地域のサイトのデザインはまったく異なります。したがって、Octopareクラウド抽出を使用する場合は、対象サイトはIPの地域に応じてリダイレクトされないことを確認してください。

Webサイトがリダイレクトされなくても、異なるネットワーク条件下でソースコードは別のブラウザで少し変更することができます。

 

クラウド抽出に失敗した原因をどのようにわかるのですか?

Octoparseクラウド抽出プロセスは、ローカル抽出のように見えることではありません。クラウドで起こることをテストする簡単な方法があります:ページ全体の外側のHTMLコードを抽出することです。

次の手順に従って、HTMLコードを抽出することができます。

ステップ1. サイトのページを開いたら、どこかをクリックして 「Action Tips」を出させます。

 

 

ステップ2.「Action Tips」の下部にあるHTMLタグをクリックします。

 

ステップ3. クラウドでタスクを実行し、HTMLコードを取得します。

ステップ4. 抽出したデータをテキストファイルにコピーし、HTMLとして保存します。

ステップ5. ChromeまたはFireFoxを使用してHTMLファイルを開き、Webサイトのページがクラウドに読み込まれている内容を確認します。

 

 

 

 

 

btn_sidebar_use.png