取得したデータを再フォーマットする

Sunday, April 08, 2018 10:28 AM

Webスクレイピングスのプロジェクトでは、一部のデータは欲しい形式ではないかもしれません。ですから、Octoparseは8つのデータ再フォーマットオプションを提供し、抽出したデータを処理できます。

 

Octoparseでこれらの機能に使うには、ステップが5つあります。

1. 再フォーマットするデータを選択します。

 

2.   をクリックして、データフィールドをカスタマイズします。

 

3.「Refine extracted data」を選択します。

 

4.「Add step」をクリックします。

 

5. データ再フォーマットオプションを選択します。

 

再フォーマットオプションを紹介する前に、「string(文字列)」という用語を説明します。

プログラミングでは、string(文字列)は基本的に文字、数字、記号、句読点などの文字の集合を指します。例えば、「 」(スペース)は文字列です。「Octoparse」は文字列です。「Hello 2 *% World!」も文字列です。文字列には文字がない可能性もあります。つまり、文字のない文字列は空です。単語を空の文字列で置き換えると、単語を削除します。

Octoparseのデータ再フォーマットオプションの機能説明には「string」という単語がよく見られます。「string」を見ると、そのオプションで文字、単語、数字、スペース、句読点などのデータに対応できることがわかります。

 

1. Replace

2. Replace with regular expression

3. Match with regular expression

4. Trim spaces

5. Add a prefix

6. Add suffix

7. Reformat extracted data/time

8. HTML transcoding

 

 

 

 

 

 

 

1. Replace

機能:抽出したデータ内の特定の文字列を新しい文字列に置き換えます。

 

 

 

 

2. Replace with regular expression

機能:正規表現を使って、抽出したデータ内の特定の文字列を新しい文字列に置き換えます。

正規表現の詳細は、 W3schools をご覧ください。

 

 

 

 

 

3. Match with regular expression

機能:正規表現を使って、抽出したデータから指定する文字列を取得します。

正規表現の詳細は、 W3schools をご覧ください。

 

 

Octoparseには正規表現を自動生成できるRegExツールもあります。RegExツールを使って正規表現を生成する方法を見てみましょう。

例えば、抽出した外部HTMLから星評価の数値を取得します。

· 「Try RegEx Tool」をクリックします。

· マッチ基準を入力します: start with「alt=" 」 end with「star rating"」

· 「generate」をクリックして正規表現を生成します。

· 「Match」をクリックして、一致する文字列を選択します。

· 「Apply」をクリックします。

· 「OK」をクリックして設定を保存します。

 

 

 

 

 

 

4. Trim spaces

機能:抽出したデータの最初または最後から不要なスペースを削除します。

データの中のペースを削除する場合は、Replace または Replace with regular expression を使います。

 

 

 

 

5. Add a prefix

機能:抽出したデータの先頭に文字列を追加します。

 

 

 

 

6. Add suffix

機能:抽出したデータの最後に文字列を追加します。

 

 

 

 

7. Reformat extracted data/time

機能:抽出した日付/時刻を14類の内蔵フォーマットに、またはカスタマイズされたフォーマットに変更します。

 

 

 

 

8. HTML transcoding

機能:特定のHTMLタグをプレーンテキストに自動変換します。たとえば、 "&gt"を ">"に変換し、 "&nbsp"をスペースに変換します。

 

 

 

関連記事:

ソースコードからデータを抽出する

取得したデータを合併する

テキスト/URL/画像/HTMLを抽出する

 

 

 

btn_sidebar_use.png