レッスン3:データ取得 - ページからテキストを抽出する

Thursday, March 15, 2018 4:31 AM
前のレッスンではOctoparseをダウンロードし、ユーザーインターフェイスも十分了解したので、今ご自分のWebスクレイピングプロジェクトを始める準備が完了しました。
 
スクレイピングに、テキストデータの抽出は基本的なスキルです。ニュース記事、製品情報、ブログなど、Web上のほとんどのデータがビジュアルテキストとして表現されるからです。このレッスンでは、簡単なテキストデータをWebページから取得する方法について説明します。基本的なテキスト抽出スキルは、ページネーションの移動やリストの作るなどの他のテクニックと組み合わせると、様々なWebページでデータをスクレイピングするための基盤となります。

それでは、単一ページ上テキストを抽出しましょう。[このレッスンのタスクファイルをダウンロードする]

1) 新しいタスクをはじめ、対象のWebページのURLを入力する

ログインしたら、Advanced Modeの「+ Task 」ボタンをクリックして新しいタスクを作ります。次に、1つまたは複数のURLを入力します。

ヒント!

1. タスクは何ですか?

タスクとは、通常は1つのWebサイトからデータをスクレイピングするためのクローラを意味します。 Octoparseのクローラは、設定されたスクレイピングタスクによって決まります。スクレイピング作業はどのウェブサイトを開くか、クロールする予定のデータはどこにあるかなどをOctoparseに伝えます。

2. Advanced Modeを使う理由は何ですか?

Advanced Modeはすごく強力なモードで、より柔軟に使用できます。キーワードの検索、ログイン認証、ドロップダウンリストの開きなど、抽出を行うための必要なすべてのアクションを選択できます。

 
ここでは、ブログ記事の1つを例として取り上げます。URLをコピーして 「Extraction URL」というテキストボックスに貼り付けます。その後、 「Save URL」をクリックすると、Octoparseは内蔵ブラウザでWebページを開きます。

URL: https://www.octoparse.com/blog/top-5-web-scraping-tools-comparison/

 

2) 対象データをクリックし選択する

Webページをクリックすることで、必要なデータを選択できます。

データが選択されると、選択領域は緑色のボックスになります。

タイトル、日付、または他のデータをクリックします。

 

抽出するデータが操作パネルに表示されます。 クリックでまたは後で「Data field」パネルでフィールド名を編集できます。選択したデータを取得するには、「Extract Data」をクリックします。

 

 

ヒント!

1. 「Workflow」ボタンをオンにして、設計したワークフローをプレビューできます。

2. Octoparse 7.Xバージョンでは、タスク名が設定インターフェースの一番上に自動的に作成されます。変更したい場合は、テキストボックスをクリックして改名してください。 をクリックして変更を保存することを忘れないでください。

 

3) タスクを保存し、データ抽出の実行を行う

操作パネルで[Save and run]をクリックするか、[Start Extraction]をクリックしてタスクを行います。

 

 抽出したデータをエクセルで表示すると以下のように、ちゃんと取得されています。

 

 

レッスン4:データ取得 - リストの内容を抽出する

 

btn_sidebar_use.png