eBayから商品価格をスクレイピングする

Sunday, April 08, 2018 10:40 AM

eBayやAmazonなどのネットショップから情報をWebスクレイピングするのは非常に重要なデータソースになっており、価格、機能、評価から人気商品を比較できます。

今回では、使いやすいWebスクレイピングツールOctoparse 7.XによるeBayからの商品情報の取得を紹介します。ウェブサイトでのデータマイニングをやすくします。

このチュートリアルで次のURLを例として使います。

https://www.ebay.com/sch/Digital-Cameras-/31388/i.html

 

この度、eBayから「デジタルカメラ」の商品情報をスクレイピングします。以下はチュートリアルの主な手順です。[タスクファイルをダウンロードする]

 

1) 「Go To Web Page」 - 内蔵ブラウザで対象のWebページを開く

2) ページ遷移のループを作る - 複数のページからデータを取得する

3) 「Loop Item」を作る - 各ページ上のデータを取得する

4) データを抽出する - 抽出したいデータを選択する

5) データカスタマイズ - 不要な文字を削除してデータを整理する

6) 抽出タスクを始める - タスクの実行を行いデータを取得する

 

 

 

 

1) 「Go To Web Page」 - 内蔵ブラウザで対象のWebページを開く

     · 「Advanced Mode」を選択し、タスクを作ります。 自由度の高いAdvanced modeは、複雑なウェブサイトを対応できます。

     · URLを入力して「Save URL」をクリックします。

     · 「Workflow」をオンにするとタスクの作りはやすくなります。

 

 

 

 

2) ページ遷移のループを作る - 複数のページからデータを取得する

     · ページの下にある「Next」ボタンをクリックし、「Action Tips」パネルから「Loop click the selected link」を選択します。

 

 

 

3) 「Loop Item」を作る - 各ページ上のデータを取得する

     · 一番目のリスト製品のタイトルをクリックすると、Octoparseはページ内の同じのURLを自動的に識別します。

     · 「Action Tips」にある「Select all」をクリックします。

     · 「Loop click each element」をクリックします。

 

 

 

 

4) データを抽出する - 抽出したいデータを選択する 

     · 必要なデータをクリックし、「Action Tips」にある「Extract text of the selected element」を選択します。

     · ファイル名を編集します。

 

 

ヒント!

1. 選択したアイテムに抽出したい情報がない場合、「Loop Item」の他のアイテムを選択してデータ抽出を完成させます。 このケースでは、eBayの商品価格の展示は異なり、「Current Bid」があるし、「Price」もあるので、「Loop Item」の3番目のアイテムを選択してデータフィールドを完成にします。

 

2. 商品価格は時々変更される可能性があるため、データ抽出のタイミングを追加する必要があると思います。データフィールドの下部にある 「Add predefine fields」をクリックすると、「Add Current Time」というオプションが表示されます。

 

 

 

 

5) データカスタマイズ - 不要な文字を削除してデータを整理する

今すべての商品タイトルが「Details about」で始まることに気付くかもしれません。これを削除して、データをきれいにする必要があるかもしれません。操作は以下のようにします:     

     · データフィールドを選択します。

     · Customize data field」をクリックします。

     · Refine extracted data」を選択します。

     · Add step」をクリックし、「Replace」を選択します。   

     · Replace」フィールドに「Details about  」をコピーし、「With」フィールドを空白にしてから「evaluate」をクリックします。

     · 「OK」をクリックします。

     · 「Save」をクリックします。

 

 

 

 

6) 抽出タスクを始める - タスクの実行を行いデータを取得する

     · 「Save」をクリックします。

     · 「Start Extraction」をクリックします。

 

 

この記事は役に立ちましたか?もしご不明な点がございましたら、いつでもお問い合わせください!

 

btn_sidebar_use.png