Amazonから製品情報をスクレイピングする

Sunday, April 08, 2018 10:36 AM

ネットショップやオンラインビジネスを始めるときは、Amazon、eBayなどで販売されている同類の製品について市場調査を行いますよね。これはすごく面倒な作業です。もしWebスクレイピングスキルを身につけるなら、マーケティングリサーチを大幅に促進できます。

今回は使いやすいWebスクレイピングツールOctoparse 7.Xを紹介し、Amazonから製品情報の取得を簡単にします。

このチュートリアルで次のURLを例として使います。

https://www.amazon.com/s?rh=i%3Aelectronics%2Cn%3A172541%2Cp_n_feature_four_browse-bin%3A12097501011&ie=UTF8&lo=electronics

 

この度、AmazonからBluetoothイヤホンの製品情報をスクレイピングします。以下はチュートリアルの主な手順です。 [タスクファイルをダウンロードする]

1) 「Go To Web Page」 - 内蔵ブラウザで対象のWebページを開く

2) ページ遷移のループを作る - 複数のページからデータを取得する

3) 「Loop Item」を作る - 各ページ上のデータを取得する

4) データを抽出する - 抽出したいデータを選択する

5) 抽出タスクを始める - タスクの実行を行いデータを取得する

 

 

 

 

1) 「Go To Web Page」 - 内蔵ブラウザで対象のWebページを開く

     · 「Advanced Mode」を選択し、タスクを作ります。 自由度の高いAdvanced modeは、複雑なウェブサイトを対応できます。

     · URLを入力して「Save URL」をクリックします。

     · 「Workflow」をオンにするとタスクの作りはやすくなります。

 

 

 

 

2) ページ遷移のループを作る - 複数のページからデータを取得する

     · ページの下にある「Next」ボタンをクリックし、「Action Tips」パネルから「Loop click the selected link」を選択します。

 

 

 

 

3) 「Loop Item」を作る - 各ページ上のデータを取得する

     · Loop Item」を作るには、参照ページであるサイトの最初ページに戻ってください。

   · 「Go To Web Page」をクリックすると、最初のWebページを開きます。

   · 「Pagination」ループを選択します。

 

 

 これで、ループアイテムを作って、すべてのページにある関する情報を抽出できます。

  • 一番目のリスト製品のタイトルをクリックすると、Octoparseはページ内の同じのURLを自動的に識別します。
  • 「Action Tips」にある「Select all」をクリックします。
  • Loop click each element」をクリックします。

 

 

 

4) データを抽出する - 抽出したいデータを選択する 

     · 必要なデータをクリックし、「Action Tips」にある「Extract text of the selected element」を選択します。

     · ファイル名を編集します。

 

 

ヒント!

ページのコンテンツが既に表示されていても読み込み中の場合は、ナビメニューの右端にある「X」ボタンをクリックして読み込みを停止できます。

 

 

 

5) 抽出タスクを始める - タスクの実行を行いデータを取得する

     · 「Save」をクリックします。

     · 「Start Extraction」をクリックします。

 

 

 

 

この記事は役に立ちましたか? もしご不明な点がございましたら、いつでもお問い合わせください!

btn_sidebar_use.png