URLの一括インポート

Monday, November 26, 2018 5:44 PM

URLリストからデータを抽出することは、Octoparseで大規模なデータスクレイピングを達成するための最も効率的で強力な方法の1つです。URLのリストが多い場合、Octoparseはローカルファイル(テキストまたはスプレッドシート)から、別のタスクからURLのインポートをサポートしたり、あらかじめ定義されたパターンに基づいてURLを生成することさえできます。これらの機能により、Octoparseは大規模なデータ抽出に伴う退屈な作業負荷を削減することを目指しています。

単一のタスク/クローラにURLを一括してインポートするには、次の3つの方法があります(最大100万件のURL):

1. ローカルファイルからURLをインポートする

2. 別のタスクからURLをインポートする

3. あらかじめ定義されたパターンに基づいてURLをバッチ生成する

 

ヒント!

インポート/生成されたURLの数が100万に達すると、Octoparseはすぐにインポート/生成を停止します。

 

 

 

 

 

 

1. ローカルファイルからURLをインポートする

以下のファイル形式からURLをインポートできます。

- CSV

- TXT

- Excel (.xlsx & .xls)

 

· 「Advanced Mode」を選択して「+Task」をクリックし、新しいタスクを作る

· 「Input from file」を選択する

 

· 「Select file」をクリックし、インポートするURLを含むファイルを選択する

OctoparseはファイルからすべてのURLを自動的に識別してインポートします。プレビューの目的で最初の100件のURLのみが表示されます。

· 「Save URL」をクリックしてインポートを完了する

 

 

 

 

2. 別のタスクからURLをインポートする

この機能により、URL抽出を別のタスクと別々に行う必要がある場合に、2つのタスクをシームレスに統合することができます。余分なURLのエクスポートとインポートは不要です。

 

· 「Advanced Mode」を選択して「+Task」をクリックすると、新しいタスクを作る

· 「Input from task」を選択する

 

· ターゲットURLを含むタスクを選択し、適切なデータフィールドを指定する

· 「Save URL」をクリックしてインポートを完了する

選択したタスク(より多くのクロールに必要なURLを含むタスク)は親タスクと呼ばれ、作る新しいタスクは子タスクになります。2つのタスクは自動的に関連付けられ、お互いに関連して実行されます。

タスクが親タスクとして選択されると、Octoparseは自動的に選択されたタスク(クラウドとローカル)に抽出されたすべてのデータを取得します。

 

まだ実行され、URLを取得していないタスクを親タスクとして選択することもできます。テキストボックスにURLの1つを入力してから、子タスクを作り続けます。 

 

 

 

 

 

- 関連付けられた実行 

子タスクを実行するように設定すると、抽出を開始する基準を指定できます。

· タスク構成インターフェースの「Start Extraction」をクリックするか、Dashboardの「Options」をクリックする

· 「Parent Task settings」/「Config with start」を選択する

 

 

選択肢は4つあります。

 · 親タスクにURLを抽出するとすぐに子タスクを実行する場合は、「Run task as soon as its parent task starts」を選択します。

 

 

 

ヒント!

1. 親タスクの設定から任意のオプションを選択して関連する実行を設定すると、両方のタスクがOctoparse Cloud Serviceを介してクラウド内で実行されます。関連付けられた実行はローカル抽出を使えません。

2. 関連する実行が設定されている場合、子タスクの実行にはタスクスケジュールを使えません。

 

 

 

 

 

 

 

3. あらかじめ定義されたパターンに基づいてURLをバッチ生成する

「URL Batch Generate」機能を使用すると、特定のURLのさまざまなパラメータを変更することで、特定のパターンに従った大量のURLを簡単に生成できます。

この機能は、特定のWebサイトからの多数の異なるページからのスクレイピングに特に役立ちます。URLジェネレータを使って、すべてのページURLをすばやく生成でき、ページごとに1つずつ通る必要はありません。

· 「Advanced Mode」を選択して「+Task」をクリックすると、新しいタスクを作る

· 「Batch generate」を選択する

· バッチ生成のベースとするURLを入力する

· URLパラメータをハイライトし、「Add parameter」をクリックする

· 4つの「Parameter Type」オプションから選択して、必要なパターンを定義する

· 「Save URL」をクリックしてインポートを完了する

 

 

 

 

- 4つの「Parameter Type」オプション

    - Type 1 : Numbers

    - Type 2 : Letters

    - Type 3 : Date

    - Type 4: Custom list

 

 

関連記事:  

複数のURLからデータを抽出する 

クラウド抽出/スケジュール設定 

ローカル抽出 

Octoparse 7.1の新機能を見ましょう!  

btn_sidebar_use.png