Indeedから求人情報をスクレイピングする

Sunday, April 08, 2018 10:44 AM

このチュートリアルでは、Indeed.comから求人情報をスクレイピングする方法を説明します。 Octoparseを使うと、仕事名、会社、給料、説明などの情報を簡単に抽出できます。コーディング必要もないし、URLを入力して抽出タスクを設定するだけで、たくさんの求人情報を無料で入手できます!

indeed.comから求人情報をスクラビングすると、次のことができます。

· より多くの就職チャンス

· 業界の長所と短所を分析する

· 仕事の説明を分析して自分の能力を高める

...

 

 

今回は、ホームページの直接抽出ではなく、キーワード「DevOps」と 「Dallas-Fort Worth, TX」を検索した後にデータをスクレイピングします。そうすると、必要なURLをが出てきます:

 https://www.indeed.com/jobs?q=devops&l=Dallas-Fort%20Worth%2C%20TX&radius=50

 

 

以下はチュートリアルの主な手順です。[タスクファイルをダウンロードする ]

1) 「Go To Web Page」 - 内蔵ブラウザで対象のWebページを開く

2) ページ遷移のループを作る - 複数のページからデータを取得する

3) XPathを直す - ページの遷移を正しくする

4) データを抽出する - 抽出したいデータを選択する

5) 抽出タスクを始める - タスクの実行を行いデータを取得する

 

 

1) 「Go To Web Page」 - 内蔵ブラウザで対象のWebページを開く

 

  • 「Advanced Mode」を選択し、タスクを作ります。 自由度の高いAdvanced modeは、複雑なウェブサイトを対応できます。
  • URLを入力して「Save URL」をクリックします。
  • 「Workflow」をオンにするとタスクの作りはやすくなります。

 

 

 

2) ページ遷移のループを作る - 複数のページからデータを取得する

      · スクロールして「Next」ボタンをクリックします。ボタンの「A」タグに自動的に置かないので、「A」タグを選択し、「Loop click the selected link」をクリックする必要があります。

 

 

 

 

3) XPathを直す - ページの遷移を正しくする

XPathは、タグと属性に基づいて文書内の位置を正確に指し示す言語構文です。したがって、XPathを書く前に、HTML構造をチェックする必要があります。

      · FirefoxブラウザでFirepath / Firebug拡張機能から正しいXPathを見つけます。 正しいXPathは

//span[contains(text(),'Next')][@class="np"]/../..

      · ワークフローにある「Pagination」ループをクリックし、正しいXPathを「Advanced Options」の「Single element」ボックスに貼り付けます。

ヒント!

      · Firebug拡張ツールは、HTML文書の要素を検索するのに非常に便利です。(Firebugは旧バージョンのFireboxでのみ利用可能です。旧バージョンのFireboxをダウンロードする)

      · 要素をクリックすることによって自動生成されるXPathより、XPathの変更で、タスクは自由度が高くなり、正しくしくなります。したがって、次のページからデータを抽出できない場合は、「Loop mode」で「Single element」をチェックする必要があります。

      · Xpathの初心者なら、このチュートリアルをご覧ください

 

 

 

4) データを抽出する - 抽出したいデータを選択する

      · 1番目の仕事を選択し、「Action Tips」にある「Select all」および「Extract link text」をクリックします。

      · 「Advanced Options」の下の 「Variable list」ボックスに正しいXPathを貼り付け、「OK」をクリックして保存します。 正しいXPathは  .//td[@id='resultsCol']/div[contains(@class,'row')]

      · 必要に応じて、フィールド名を編集変します。

 

 

 

 

5) 抽出タスクを始める - タスクの実行を行いデータを取得する

      ·  「Save」をクリックします。

      ·  「Start Extraction」をクリックします。

 

 

  

 

 

 この記事は役に立ちましたか?もしご不明な点がございましたら、いつでもお問い合わせください!

 

btn_sidebar_use.png