テキスト/URL/画像/HTMLを抽出する方法

Sunday, April 08, 2018 7:40 AM

このチュートリアルでは、Octoparseを使ってテキスト、URL、画像、およびHTMLを抽出する方法を説明します。

 

始める前に、Octoparseが必要なデータをどのようにスクレイピングするかを見てみましょう。

新しいタスクを作る際に、Webページで必要なデータを選択してスクレイピングします。ページ上の要素を選択するには、選択を作る必要があります。一般に、選択を作るには2つのステップがあります。

1. 対象データをクリックします。

2. 「Action Tips」から適切なアクションを選択します。

対象要素をクリックすると、選択エリアが緑色になります。同時に他にもいくつかの要素が赤色になることもあります。これは、Octoparseがページ上の選択された要素のパターンを識別し、同じ構えがある他の要素を自動的に選択するためです。

選択を作ると、複数のページにわたるすべての同じ要素が検出され、選択アイテムに追加されます。Octoparseは、選択範囲内のすべての要素を抽出するまで繰り返しスクレイピングを実行します。

これから、 Octoparseで特定の3種類のデータを選択して抽出する方法を見てみましょう!

 

1) テキストを抽出する

2)リンクや画像のURLを抽出する 

3) 内部/外部HTMLを抽出する

 

 

 

 

 

 

1) テキストを抽出する

ほとんどのデータは、ニュース記事、製品情報、ブログなどのような読めるテキストとしてWeb上に表示されます。ですから、テキストデータを抽出する方法を身につければ、ページの遷移やリストの作るなどの他のテクニックと組み合わせると、ほぼすべてのWebページからデータを取得できます。

Octoparseでテキストデータを抽出する方法を見てみましょう。

 

1. 対象データをクリックする

対象要素をクリックすると、選択エリアが緑色になります。同時に他にもいくつかの要素が赤色になることもあります。

2. 選択を作る

「Action Tips」にある「Select all」をクリックして、赤色の同じ要素は緑色になります。 Octoparseは、選択範囲内のすべての要素を抽出するまで繰り返しスクレイピングを実行します。

3. テキストを抽出する

「Extract text of the selected elements」をクリックして、選択を終了し、抽出を始めます。

 

 

 

2) リンクや画像のURLを抽出する

簡単にいえば、URLはハイパーリンクです。URLをクリックするだけで、新しいWebページを開いたり、新しいWebサイトに移動することができます。

Webページ以外、URLを使うと、画像など特定のファイルにもアクセスできます。URLを取得したら、インターネットからファイルや画像をダウンロードできます。

Octoparseを使ってリンクや画像のURLを抽出する方法を見てみましょう。

 

1. 必要なリンク/画像をクリックする

必要なリンク/画像をクリックすると、選択エリアが緑色になります。同時に他にもいくつかの要素が赤色になることもあります。 

ヒント!

URLを含む要素を選択すると、「Action Tips」の下部にあるタグは「A」になります。「A」タグはあるページから別のページにリンクするアンカーを表します。正しい要素を選択するのを確認してください。

 

2. 選択を作る

「Action Tips」にある「Select all」をクリックして、赤色の同じ要素は緑色になります。 Octoparseは、選択範囲内のすべての要素を抽出するまで繰り返しスクレイピングを実行します。

3. URLを抽出する

「Extract the URLs of the selected elements」/「Extract image URL in the loop」をクリックして、選択を終了し、抽出を始めます。

 

ヒント!

URLではなく画像をWebページから直接取得できますか?

残念ですが、画像を直接抽出できません。画像を抽出する場合は、まず画像のURLを抽出し、「download from URL」ツールを使って画像を一括ダウンロードできます。

  

 

 

 

3) 内部/外部HTMLを抽出する

テキストやURLとは異なり、アイコンのようなデータは直接抽出できません。星の評価のような非テキストコンテンツを抽出する場合は、これらの内部/外部HTMLを抽出しなければなりません。

アイコンのほかに、要素のHTMLを抽出することで、Webページから隠されたテキスト、グラフをスクレイピングもできます。

アイコンに埋め込まれたデータを取得するには、正規表現を適用してデータを処理する必要があります。

Octoparseで内部/外部のHTMLを抽出する方法を見てみましょう。

 

1. 対象データをクリックする

必要な要素をクリックすると、選択エリアが緑色になります。同時に他にもいくつかの要素が赤色になることもあります。

2. 内部/外部HTMLを抽出する

「Action Tips」の「Extract inner/outer HTML of the selected」をクリックして、選択を終了し、抽出を始めます。

 

ヒント!

Octoparseは、正規表現を適用するための便利な機能とツールを提供します。

関連記事:

HTMLからテキストを抽出する - RegExツールを使う  

正規表現を使ってデータを再フォーマットする 

取得したデータを再フォーマットする  

 

 

関連記事:

リストを使ってデータを抽出する

複数のページからデータを抽出する

ソースコードからデータを抽出する

 

 

 

 

btn_sidebar_use.png