Google検索の結果をスクレイピングする

Monday, October 29, 2018 6:23 PM

Google検索は最も多く使われている検索エンジンですよね。このチュートリアルでは、Google検索のデータをスクレイピングする方法を説明します。

 

チュートリアルで次のURLを使用します。

https://www.google.com/

 

以下はチュートリアルの主な手順です。[タスクファイルをダウンロードする ]

1) 「Go To Web Page」 - 対象のWebページを開く

2) 「Enter Text」 – 一つ/複数の検索するキーワードを入力する

3) ページ遷移のループを作る - 複数のページからデータを取得する

4) データ抽出 - 各ページのデータをスクレイピングする

5) 抽出タスクを始める - タスクの実行を行いデータを取得する

 

 

 

 

 

1) 「Go To Web Page」 - 対象のWebページを開く

· Advanced Modeの「+ Task」をクリックします。

自由度の高い「Advanced mode」は、複雑なサイトを対応できます。特にGoogleのような複雑な構造のサイトからデータを抽出するなら、Advanced modeを強くお勧めします。 

· URLを「Extraction URL」ボックスに貼り付け、「Save URL」をクリックして移動します。

 

 

 

2) 「Enter Text」 – 一つ/複数の検索するキーワードを入力する

· 「Search box」をクリックします。

· 「Action Tips」の「Enter text」をクリックします。

· キーワードを入力します。

Octoparseに複数のキーワードを入力すると、Octoparseはループを生成し、すべての単語を1ずつ検索ボックスに自動的に入力します。

· 「OK」をクリックします。

· 「Search」ボタンをクリックします。

· 「Action Tips」の「Click button」をクリックします。

 

ヒント!

デフォルトの内蔵ブラウザーが結果ページと互換性がないと判明した場合は、ブラウザー設定を変更できます。

· 「Setting」をクリックします。

Octoparse 7.0.2を使用している場合は、設定を変更する前にタスクを保存してください。

· デフォルトのブラウザをFirefox 45.0に切り替えます。

· 変更した設定を適用するには、「Save」をクリックします。

テキスト/キーワード入力の詳細についてを参照してください。

 

 

 

3) ページ遷移のループを作る - 複数のページからデータを取得する

· 下にスクロールして、Webページの「Next」ボタンをクリックします。

· 「Action Tips」の「Loop click next page」をクリックします。

 

 

 

 

4)データ抽出 - 各ページのデータをスクレイピングする

今、2番目の結果ページに入っています。続く前に、一番目のページに戻ってください。

· ワークフローの「Go To Web Page」をクリックします。

· 「Enter text」と「Click item」を順番にクリックします。

ワークフローの各ステップをクリックすることで、Octoparseがサイトとどのようにやり取りしているかを簡単に確認できます。

· ワークフローでページネーションループを選択します。

これにより、Octoparseが実行順序を決定し、ワークフローの適切な位置にループアイテムを生成するのを支援できます。

 

さて、検索結果を抽出しましょう!

· 一番目と二番目の検索結果を選択します。

必要なセクション全体が強調表示されるまで、セクションの上にマウスを移動します。

選択した部分は緑色で強調表示され、タイトルと説明のようなすべてのサブ要素が赤色で強調表示されます。

· 「Select all sub-elements」をクリックします。

· 「Select all」をクリックします。

· 「Extract data」をクリックします。

· 必要に応じて、不要なデータフィールドを削除するとか、フィールド名を変更するとかします。

 

 

 

 

 

5) 抽出タスクを始める - タスクの実行を行いデータを取得する

· 「Start Extraction」をクリックします。

· コンピュータでタスクを実行するには「Local Extraction」を選択し、クラウドでタスクを実行するには「Cloud Extraction」を選択します(有料版のみ)。

 

 

ここにサンプル出力があります。

 

 

 

この記事は役に立ちましたか?もしご不明な点がございましたら、いつでもお問い合わせください!

btn_sidebar_use.png