ログインした後のデータ取得

Sunday, April 08, 2018 7:55 AM

対象サイトがログインする必要がある場合でも、Octoparseでデータをスクレイピングできます。ログイン情報(ユーザー名とパスワード)を入力してログインします。このチュートリアルでは、ログイン後のデータ抽出方法とクッキーの使う方法を紹介します。

web scraping with octoparse - extract behind a login

 

1) ログイン情報を入力してログインする

2) クッキーを使ってワークフローを最適化する

 

 

 

ログイン情報を入力してログインする

  • ユーザー名入力用のテキストボックスをクリックします。

web scraping with octoparse - extract behind a login

  • 「Action Tips」から「Enter text」を選択します。

web scraping with octoparse - extract behind a login

  • テキストボックスにユーザー名を入力します。

web scraping with octoparse - extract behind a login

  • 「OK」をクリックすると、入力されたユーザー名がWebページのユーザー名ボックスに自動的に入力されます。
  • 同じ手順に従ってパスワードを入力します。
  • ページの「Sign In」ボタンをクリックします。

web scraping with octoparse - extract behind a login

  • 「Action Tips」から「Click button」を選択します。

   web scraping with octoparse - extract behind a login


ウェブサイトに正常にログインしました!

 

 

 

クッキーを使ってワークフローを最適化する

1. クッキーを保存する

ほとんどの場合、ログイン後にクッキーをタスクに保存してワークフローを最適化できます。そうすると、読み込む時、Octoparseはクッキーをサイトに送信し、サイトがユーザー情報を記録し、ログインをスキップする可能性があります。 

  • ログインしていない場合は内蔵ブラウザでサイトにログインしてください。
  • ワークフローモードに切り替え、「Go To Web Page」アクションをワークフローに追加し、ログインステップの下に置きます。
  • 「Page URL」のテキストボックスに対象ページのURLを入力します。

web scraping with octoparse - extract behind a login

  • 「Advanced Options」で「Cache Settings」をクリックします。
  • 「Use specified Cookie」を選択します。
  • 「Load cookie from current web page」をクリックします。
  • 「OK」をクリックして設定を保存します。

 

  • Webページがユーザー情報を記録しログインステップをスキップするようになったので、前作ったログインアクションを削除します。アクションを右クリックし、「Delete」を選択します。

ヒント!

保存されたクッキーは有効期限が切れる前に有効です。

クッキーには有効期限があり、有効期限が切れたクッキーは消滅し、リクエストに載りません。更新されたクッキーを取得して保存するために、適切なアクションを追加して、再度ログインする必要があります。

ご入力のパスワードは十分に保護されています。

· Octoparseでは、パスワードを入力すると、自分のOctoparseアカウントでのみアクセスできます。タスクを出力すると、タスクに保存されたパスワードは自動削除されます。

· タスクを削除すると、保存されたログイン情報はすぐにアカウントから永久に削除されます。

 

 

2. クッキーをクリアする

新しいユーザー情報でログインする場合、以前保存したクッキーをクリアしなければなりません。そうすると、対象サイトは前の情報を削除し、ログインページに移動します。

  • ログインページの「Go to Web Page」をクリックします。
  • 「Cache Setting」で「Clear cache before opening the web page」を選択します。

           

 

ヒント!

local extraction(ローカル抽出)を実行しながらキャプチャ認証を手動で入力する

· キャプチャ認証が出た場合は、ローカルで実行するときにキャプチャを手動で入力できます。 Cloud Extractionはキャプチャ認証の処理をサポートしていません。

· 現在、Octoparesはデジタルキャプチャのみをサポートしており、reCaptcha v2などの他のタイプはサポートしていません。

 

 

関連記事:

テキスト/キーワードの入力  

待ち時間を設定す  

 

btn_sidebar_use.png