IPローテーション用のプロキシを設定する

Sunday, April 08, 2018 10:34 AM

サイトのスクレイピングは、スクレイピング先のサーバーに負荷をかけるため、あるサイトはIPブロックのようなスクレイビング防止対策を取ります。Octoparseでプロキシの手動設定は、外部プロキシー(または特定の国)からサイトにアクセスしたい場合や、Cloud Extraction の自動IPローテーション機能を使わなくご自分のプロキシを使う場合にとても便利です。また、「スクレイピング禁止」と書かれているサイトでのご利用は控えてください。

 

有料の外部プロキシ設定機能を持つ他のスクレイピングツールとは異なり、Octoparseではすべてのユーザーがカスタマイズのプロキシを追加できます。IPアクセス拒否は、スクレイピングに発生する問題の1つです。ですから、プロキシまたはプロキシサーバーは、Webスクレイピングの不可欠な部分であり、匿名Webスクレイピングに広く使用されています。

ローテーションに外部プロキシを使うには:

タスクの設定が完了したら、ワークフローの上にある「Settings」をクリックします。

(「Setting」オプションは、ワークフローに「Extract data」ステップがある場合にのみ使用できます。)

 

「Use proxies」を選択し、「Settings」をクリックしてカスタムプロキシを追加します。 現在、OctoparseはHTTPプロキシだけをサポートしています。プロキシサーバーのIPアドレスとポート番号をコロンで区切ります。例: 58.22.214.29:2318

複数のIPがある場合は、「IP Proxies」に各プロキシを新しい行で追加します。

 

 

「OK」と「Save」をクリックして変更を保存します。ローカルでタスクを行うとき、Octoparseは設定のIPに従って実行します。

 

ヒント!

プロキシのカスタマイズは、Local Extraction でのみ使用可能です。(現在、Octoparseはローカル抽出のIPプロキシーを提供していません。外部プロキシーを取得するには、Web上にプロキシサーバーが多数あります。)

 Octoparse有料版 の場合、Cloud Extraction を選択すると、タスクは独自のIPアドレスを持つ数千台のクラウドサーバによってサポートされるクラウドプラットフォーム上で実行されます。6〜20台のサーバーが同時に割り当てられ、さまざまなIPを介してアクセスするため、追跡またはブラックリストに登録する可能性が最小限に抑えられます。

(Octoparseクラウドサービスのメリットを見る)

 

プロキシを使ってIPアドレスを変更してOctoparseにログインする - 学校または企業のイントラネットが外部アクセスを制限するせいで、Octoparseにログインできない場合、プロキシを使ってOctoparseを使用します。

これを行うには、「Use IP Proxy」をクリックし、必要な情報を入力してください:

接続が成功したかどうかをテストするには、「Test」ボタンをクリックします。 成功すると、以下の提示が出てきます。

 

関連記事:

クラウドでタスクを行う 

ローカルコンピューターでタスクを行う 

タスクとは?

 

btn_sidebar_use.png