ASINコードでAmazonの商品情報をスクレイピングする

Thursday, November 22, 2018 11:59 AM

ASINコードは、Amazonグループの独自のコードで書籍以外の商品を識別する10桁の固有番号です。同じ商品は、どの国のamazonでも、同じASINコードで管理されています。ですから、ASINを知ってると、商品リサーチをする際に無駄な時間を奪われることが減るかもしれません。

このチュートリアルでは、WebスクレイピングツールOctoparseを使って、ASINコードでAmazonから商品情報を取得する方法を説明します。

始める前に、事前にASINのリストを用意しておく必要があります。

 

 

チュートリアルで次のURLを使用します。

https://www.amazon.com/

 

以下はチュートリアルの主な手順です。 [タスクファイルをダウンロードする ]

1) 「Go To Web Page」 - 対象のWebページを開く

2) 「Loop Item」を作る - 各リストのデータを取得する

3) データを抽出する - 抽出したいデータを選択する

4) XPathを変更する - データ抽出の精度を向上させる(オプション)

5) 抽出タスクを始める - タスクの実行を行いデータを取得する

 

 

 

 

 

 

 

 

 

 

1) 「Go To Web Page」 - 対象のWebページを開く

· Advanced Modeの「+ Task」をクリックします。

· URLを「Extraction URL」ボックスに貼り付け、「Save URL」をクリックして移動します。

 

 

 

 

 

 

 

2) 「Loop Item」を作る - 各リストのデータを取得する

ASINリストを「Text list」に貼り付け、検索ループを作ります。Octoparseがリスト中のASINコードを1つずつ検索ボックスに自動的に入力します。

· 「Loop Item」アクションをワークフローデザイナにドロップする

· 「Loop Mode」の「Text list」をクリックする

· 「A」バーをクリックする

· ASINリストをテキストボックスに貼り付ける

· 「OK」をクリックして保存する

 

 

今、ASINリストがLoop Itemボックスに表示されています。それでは検索アクションループを作り始めましょう。

· 検索ボックスをクリックする

· 「Action Tips」の「Enter text」をクリックする

· 一番目のASINをテキストボックスに入力する

· 「OK」をクリックして保存する

Octoparseの正しい実行順序を生成するために、ワークフローの「Enter text」アクションの位置を調整する必要があります。

· 「Enter text」アクションを「Loop item」にドラッグする

· 「Use the text in Loop Item to fill in the text box」をチェックする

· 「OK」をクリックして保存する

 

Loop item」と「Enter text」アクションを設定した後、検索アクションを有効にするために「Click item」アクションを追加する必要があります。

· ページの検索ボタンをクリックする

· 「Action Tips」の「Click button」をクリックする

AmazonはAJAXで検索結果を読み込むので、ソフトウェアが停止するのを防ぐために、「AJAX Load」を設定する必要があります。

· 「Auto retry」のチェックを外す

· 「AJAX Load」をチェックし、時間を設定する

· 「OK」をクリックして保存する

 

ヒント!

AJAXについて以下チュートリアルをご参考ください。

· AJAXを扱う 

 

 

 

 

 

 

3) データを抽出する - 抽出したいデータを選択する

· 必要な情報をクリックする

· 「Action Tips」の「Extract data」を選択する

· 必要に応じて、フィールド名を変更する

 

 

 

 

 

 

 

4) XPathを変更する - データ抽出の精度を向上させる(オプション)

このケースには、異なる詳細ページにある「Reviewer」要素は、必ずしもの同じ場所に配置されているとは限りません。したがって、この問題によってデータが失われるのを防ぐために、OctoparseでXPathを変更する必要があります。

このチュートリアルでは、「Reviewer」フィールドのXPathを直します。

· 「Reviewer」データフィールドを選択する

· 「Customize data field」をクリックする

· 「Customize XPath」を選択する

· 直したXPathを「Matching XPath」に貼り付ける

「Reviewer」フィールドのXPathは: //span[@class="sx-price sx-price-large"]

· 「OK」をクリックする

 

ヒント!

OctoparseでXPathを変更すると、自動生成されたXPathよりも高い柔軟性と精度で非常にうまく動作します。

関連するチュートリアル:

 · 正しいデータフィールドを抽出できません

 · XPathで要素を見つける

 · 近くの2箇所のデータを関連付ける方法

 

 

 

 

 

 

5) 抽出タスクを始める - タスクの実行を行いデータを取得する

· 「Start Extraction」をクリックする

· コンピュータでタスクを実行するには「Local Extraction」を選択し、クラウドでタスクを実行するには「Cloud Extraction」を選択します(有料版のみ)。

 

 

ここにサンプル出力があります。

 

 

 

この記事は役に立ちましたか?もしご不明な点がございましたら、いつでもお問い合わせください!

btn_sidebar_use.png