Twitterからツイートをスクレイピングする

Sunday, April 08, 2018 10:44 AM

Octoparseを使うと、様々なソーシャルメディアのWebサイト(Twitter、Facebook、Quoraなど)から、トップニュース、最新の話題、世界的な動向などの情報を簡単に抽出できます。コーディング必要もないし、URLを入力して抽出タスクを設定するだけで、たくさんの情報を無料で入手できます!このチュートリアルでは、Twitterからデータを抽出する方法を説明します。Twitterのようなソーシャルメディアからデータを収集することに興味があれば、このチュートリアルをご参考ください。

 

Twitterからデータをマイニングすることで、次のことが可能になります。

  • 世界中の最新動向をもっと知る
  • ビジネスの見込み客を見つける
  • 最新の話題のマーケティング価値を分析する

今回は、Twitterのニュース情報を例としてスクレイピングします。

例のURL:https://twitter.com/search?q=news&src=typd&lang=en

 

以下は、このチュートリアルの主な手順です。[タスクファイルをダウンロードする]

1) 「Go To Web Page」 - 内蔵ブラウザで対象のWebページを開く

2) スクロールダウンを使う - リストされたページからさらにデータを取得する

3) 「Loop Item」を作る - 各ツイートを回して抽出する

4) 正規表現を設定する - 必要に応じてデータを削除/再フォーマットする

5) 抽出タスクを始める - タスクの実行を行いデータを取得する

 

 

 

 

 

1) 「Go To Web Page」 - 内蔵ブラウザで対象のWebページを開く

      · 「Advanced Mode」を選択し、タスクを作ります。 自由度の高いAdvanced modeは、複雑なウェブサイトを対応できます。

      · URLを入力して「Save URL」をクリックします。

      · 「Workflow」をオンにするとタスクの作りはやすくなります。

 

 

ヒント!

      · このページはTwitterにあるのニュースページで、ログインする必要はありません。ログイン後のデータを抽出する場合は、このチュートリアルを参照してください

 

 

 

 

 

2) スクロールダウンを使う - リストされたページからさらにデータを取得する

      · 「Scroll Down」オプションを選択します。

      · 必要な「Scroll times」と「Interval」を設定します。

      · 「Scroll way」を「Scroll down for one screen」にして「OK」ボタンをクリックします。

 

ヒント!

      · ほとんどのソーシャルメディアのWebサイトでは、スクロールダウンを使って、一画面に収まらない分量のデータなどを見ていくことができます。(無限スクロールを扱う詳細を見る

      · より多くのデータが必要な場合は、「Scroll times」の値を高く設定することをお勧めします。

 

 

 

3) 「Loop Item」を作る - 各ツイートを回して抽出する

      · スクレイピングしたいデータをクリックすると、その背景色が緑色になります。

      · 「Select all」をクリックし、「Action Tips」にある「Extract text from the selected elements」を選択します。

      · 必要に応じて、フィールドの名前を編集します。

 

 

 

 

4) 正規表現を設定する - 必要に応じてデータを削除/再フォーマットする

Octoparseで、正規表現は、抽出したにデータを再フォーマットできます。たとえば、この場合「Reply」、「Retweet」、「Like」などの単語を削除する場合は、正規表現を使って、余計な文字列を削除します。必要がない場合は、この手順をスキップできます。

      · 「Reply」行を選択し、「Customize data field」をクリックし、「Refine extracted data」を選択して「Add step」ボタンをクリックします。

      · 「Replace」をクリックし、「856」の前にあるすべての値「Reply      」を「Replace」ボックスに貼り付けます。

      · 「OK」ボタンをクリックします。

 

ヒント!

      · 「Replace」ボックスに入力する値は、元のスペース値をすべてコピーしてください。 

      · 必要に応じて、「Retweet」と「Like」の行の値を再フォーマットすることもできます。

      · 8つのデータ再フォーマットオプションの詳細を読む

 

 

 

 

5) 抽出タスクを始める - タスクの実行を行いデータを取得する

      · 「Save」をクリックします。

      · 「Start Extraction」をクリックします。

 

 

 

この記事は役に立ちましたか?もしご不明な点がございましたら、いつでもお問い合わせください!

 

btn_sidebar_use.png