取得したデータを合併する

Sunday, April 08, 2018 10:31 AM

このチュートリアルでは、Octoparseで取得した様々なデータを一行に合併する方法を説明します。

 

例えば、ブログから記事を抽出します。ある時、記事全体を選択して抽出できないことがあります。しかし、以下のように記事全体を段落に分かれ、異なるデータフィールドに入れるの代わり、一行に入れたいです。

 

異なる行を1行のデータに合併するには、抽出を設定する際にOctoparseの集合機能を使うのをお勧めします。

ここでは、https://philipyancey.com/a-view-from-abroad のブログコンテンツを例として、抽出したデータを合併するための集合機能を紹介します。

 

1) 抽出するデータを選択する

1.ページで1つの段落を選択し、「Select all」をクリックして、各段落を抽出できる「Loop Item」を作ります。

 

2.「Extract text of the selected elements」を選択します。

                                                                                 

 

2) データを合併するためにデータ集をカスタマイズする 

1. 「Extract Data」アクションをクリックし、データフィールドをクリックしてカスタマイズします。

 

 

2.    をクリックして、データフィールドをカスタマイズします。

 

3. 「Customize data conglomeration」を選択します。

 

4.  「Conglomerate data captured for the same data field into a single row.」を選択します。

ここで、「Text」フィールドに抽出した段落は、実行時に1行に合併されます。

 

タスクを実行して結果を出力して、「Text」フィールドで抽出した段落が1行に合併されているのを見られます。

 

 

ヒント!

1. データ集は、記事の抽出に特に有用です。空白行、コメント、画像などを持たなく、記事を全体の塊として抽出できます。

2. データが1つの塊として集合される場合は、データの再フォーマットツール を使って、「|」 と 「\」のようなプレフィックまたはサフィックスを追加して、各アイテムをより見やすくします。

 

 

 

関連記事:

テキスト/URL/画像/HTMLを抽出する

リストを使ってデータを抽出する

複数のページからデータを抽出する

 

btn_sidebar_use.png