レッスン5:データ取得 - 各アイテムのページからデータを抽出する

Thursday, March 15, 2018 4:18 AM
前では簡単なテキスト(レッスン3を参照  ) とリストの内容 (レッスン4を参照  )を抽出することを学びました。次は、これらのテクニックを組み合わせて、リストに含まれているリンクをクリックして、各アイテムページの詳細情報を取得する方法を紹介します。Eコマースサイトのような一覧リストサイトから情報を抽出する際に便利です。

web scraping with octoparse - extract from item page

例を挙げてその取得する手順を見てみましょう。[このレッスンのタスクファイルをダウンロード ]

 

1) 「Loop Item」を作成し、結果ページの各製品をループクリックする

最初の2つ製品のリンクを選択します。

      · URLを含む1目の製品タイトルをクリックすると、詳細ページにアクセスします(同じ構えのアイテムが赤で強調表示されていて、選択されたアイテムが緑色で強調表示されています)

      · 2番目の商品タイトルをクリックします。

      · 「Loop click each URL」を選択します(ワークフロー内で「Loop Item」が自動生成されます)。

 

ヒント!

リストページにある各アイテムをループするには、アンカーテキスト(文字リンク)を選択してください。 Octoparseは、選択したアイテムのタグを自動的に識別します。 リンクが張られているアイテムを選択すると、選択されたタグは "A"になります。「a」タグは通常、あるページから他のページに移動するアンカーを表します。

 

2) アイテムページに抽出するデータを選択する

「Loop Item」を作成したと、Octoparseは1番目のアイテムページを開きます。

アイテムページに抽出するデータを指定すると、Octoparseが残りの作業を行います。

      · タイトル、レビュー、価格などの情報を選択します。

      · 選択が終わったら、「Extract data」をクリックして抽出します。

      · ワークフローで「Extract data」ステップが自動生成されます。 抽出するデータフィールドは、[Data field]パネルに表示されます。

 

 

ヒント!

「Click Item」や「Extract Data」のような手順では、データのスキップを避け、より人間らしく動作するために、「Advanced Options」で待ち時間を長く設定してください! (通常2〜5秒です)

 

これで終わり!スクレイピングプロジェクトを完了するためにレッスン6でページ遷移を扱う方法を学びましょう!

 

レッスン6:ページ遷移の扱い - 複数のページからデータを抽出する

 

btn_sidebar_use.png