iタウンページから電話番号を取得する

Wednesday, June 13, 2018 4:12 PM

iタウンページは、全国のお店・企業の電話番号や地図を無料で探せるインターネット電話帳です。それを利用して、営業リストを作ることができます。でも、電話番号のコピペは面倒な仕事ですね。今回、WebスクレイピングツールOctoparseを使って、電話番号の取得を簡単にします。

 

この度、東京都の歯科のお店の電話番号を取得します。

次のURLを例として使います。

https://itp.ne.jp/tokyo/genre_dir/dentistry/?nad=1&sr=1

 

以下はチュートリアルの主な手順です。 [タスクファイルをダウンロードする]

1) 「Go To Web Page」 - 内蔵ブラウザで対象のWebページを開く

2) ページ遷移のループを作る - 複数のページからデータを取得する

3) データを抽出する - 抽出したいデータを選択する

4) データカスタマイズ - 余計なデータを削除する

5) 抽出タスクを始める - タスクの実行を行いデータを取得する

 

 

 

1) 「Go To Web Page」 - 内蔵ブラウザで対象のWebページを開く
  • 「Advanced Mode」を選択し、タスクを作ります。 自由度の高い「Advanced mode」は、複雑なウェブサイトを対応できます。
  • URLを入力して「Save URL」をクリックします。
  • 「Workflow」をオンにするとタスクの作りはやすくなります。

 

 

2) ページ遷移のループを作る - 複数のページからデータを取得する
  • ページの下にある「次への」ボタンをクリックし、「Action Tips」パネルから「Loop click the selected link」を選択します。
  • チェックした結果、 ページ遷移のXpathは間違いました。「single element」に正しいXpathを入力します。

//*[text()='次へ']

 

3) データを抽出する - 抽出したいデータを選択する
  • ステップ2では、2ページ目に移動しました。ですから、「Go To Web Page」をクリックして1ページ目に戻ります。
  • 「pagination」をクリックします。
  • ページにある各情報一覧を全体として、今回は3つのリストをクリックする必要があります。Octoparseはページ内の同じのデータを自動的に識別します。
  • 「Action Tips」にある「Extract data in the loop」をクリックします。
  • 不要なフィールドを削除します。
  • 必要に応じて、フィールド名を編集します。

 

 

ヒント!

普通には、抽出したいデータを1つをクリックしたら、Octoparseはページ内の同じのデータを自動的に識別します。もし、識別できなければ、より多く同じ構造のデータをクリックすると、Octoparseは識別になります。

 

 

4) データカスタマイズ - 余計なデータを削除する

場合によっては、必要なデータが不要な文字列と一緒になることがあります。たとえば、住所を抽出したいですが、それをクリックして横にある「住所」と「地図・ナビ」も一緒に抽出されます。この場合、まずすべてを抽出し、不要な文字列を削除するために抽出したデータを再フォーマットする必要があります。 

  • 「住所」データを選択し、「Customize data field」をクリックします。
  • 「Refine extracted data」と「Add step」を選択し、「Replace」をクリックします。
  • 「Replace」に 「住所」を入力、「Evaluate」をクリックします。
  • 「OK」をクリックします。
  • 地図・ナビ」も同じように削除できます。

 

 

5) 抽出タスクを始める - タスクの実行を行いデータを取得する
  • 「Save」をクリックします。
  • 「Start Extraction」をクリックします。

 

 

 

この記事は役に立ちましたか?もしご不明な点がございましたら、いつでもお問い合わせください!

btn_sidebar_use.png