Octoparse 7.1の新機能を見ましょう!

Monday, November 19, 2018 4:58 PM

Octoparseバージョン7.1.2のリリースをお知らせ致します!

このリリースでは、新しい機能を導入した:タスクテンプレート。これはAmazon、Twitter、食べログなどのさまざまなWebサイトを抽出するための使用準備済のプログラムです。他には、ダッシュボードURL入力機能ブロック防止の設定が含まれる3つの主要な更新があります。

 

New

· タスクテンプレート

Octoparseの新しいタスクテンプレートは、誰でも簡単にWebスクレイピングを利用できるように設計されています。あらかじめ作成されたタスクテンプレートを使用すると、スクレイピングタスクを設定する必要はありません。すぐに使用できるタスクテンプレートは学習時間を短縮し、すぐにデータを取得できます。

 

 

 

 

- どのようにスクレイピングを容易にするのか?

タスクテンプレートを使うと、プログラミング知識の少ない/ない人でも簡単にWebスクレイピングを達成できます。パラメータ(ターゲットページのURL、検索キーワードなど)を入力するだけで、データがどんどん抽出されてきます。

1. 異なる業界間で最も人気のあるWebサイトをカバーする数十類のテンプレート

 

2. 豊富な作成されたデータフィールド

 

3. サンプル出力のプレビュー

 

 

 

- 使い方?

必要のテンプレートを選択すると、検索対象のキーワードやターゲットURLなどの必須パラメータを入力するよう要求されます。Webスクレーパーは自動実行してWebサイトからデータを収集します。

 

ヒント!

Wizard Mode は引き続き使えます。Advanced Modeの「+タスク」のプルダウンメニューから見つけられます。

 

 

 

 

Updates

· ダッシュボードのアップグレード

バージョン7.0のダッシュボードと比べると、新しいダッシュボードのレイアウトは、より情報に富んだ、カスタマイズ可能で効率的です。

 

 

 

 

 

バージョン7.1では、ダッシュボードの外観とタスクの表示順序を変更できます。

1. カスタマイズ可能な情報コラム

どのようなタスク情報を表示するかは、ユーザーが選択できるようになっています。

 

2. 2つのデフォルト閲覧モード

デフォルトでは、タスクはダッシュボード上のグループによって分けされます。閲覧モードを切り替えると、最後に実行された時間に基づいてタスクを降順で並べ替えることができます。

 

3. 効率的なカスタムフィルタ

アップグレードされたカスタムフィルタを使うと、ごくわずかな労力で、独自のダッシュボードを持つことも、単一のタスク/特定のタスククラスタに絞り込むこともできます。

 

 

 

· URL入力のアップグレード

入力URLの制限を20,000から100,000に拡大し、大規模なデータ抽出プロジェクトに2つの新しい入力方法を導入しました。

 

 

1. URLの最大入力数の増加

一度に入力できるURLの最大数が大幅に増加します。これまでの20k URLと比べると、Octoparseは最大100万のURLを単一のタスク/クローラーに追加できるようになりました。

 

ヒント!

URLをペストして入力するなら最大数は10Kに推定されることをご注意ください。

  

2. ファイルまたは別のタスクからURLの一括インポート

- ファイルからURLをインポートする

バージョン7.1では、CSV、TXT、またはExcelファイルをインポートすることができ、OctoparseはファイルからURLデータをインテリジェントに読み込みます。

 

- タスクからURLをインポートする

2つのオプションがあります。1つは単純なインポートで、完了したタスクからURLを直接インポートします。もう1つはアドバンスドインポートで、親タスクのURLを関連する実行中の子タスクに「転送」します。

 

 

2つのタスクが関連付けられている場合、Octoparseは4つの実行オプションを提供します。たとえば、「Run task as soon as its parent task starts」を選択すると、Octoparseは親タスクで抽出されたURLを読み込むと自動的にそのURLを子タスクに転送し、子タスクを実行します。

 

 

 

ヒント!

1. アドバンスドインポートは Octoparse Cloud Extractionによってのみサポートされています。

2. 親タスクに抽出されたデータがない場合、子タスクの作成を開始するには、手動で1つのURLに貼り付ける必要があります。

 

 

 

3. あらかじめ定義されたパターンに基づいてURLをバッチ生成する

この機能を使用すると、特定のURL内の必要なパラメータを簡単に変更して、そのパターンに基づくURLのリストを生成することができます。

 

必要なパラメータを強調表示し、「Add parameter」をクリックして、必要なパターンを定義する4つのオプションから選択します。

 

 · ブロック防止設定のアップグレード

スクレイピングに敏感なWebサイトによってブロックされる可能性を減らすために、2つのオプションが追加されました。バージョン7.1では、Octoparseは自動的にユーザエージェントを切り替え、クッキーをクリアすることができます。

 

 

1. ブラウザを自動切り替える(ユーザエージェント)

 

2. 自動クリアクッキー

 

 

 

 

btn_sidebar_use.png