Instagramから投稿をスクレイピングする

Wednesday, October 17, 2018 11:27 AM

KOLという言葉をご存じですか?「Key Opinion Leader」の略で、SNS上で影響力の高いアカウントのことを指します。いわゆるインフルエンサーで、人気のあるKOLを商品のプロモーションにうまく利用すれば、大きな利益を上げることができます。中国でKOLはマーケティング上欠かせない存在となっており、中国のECサイトで商品を売りたい日本企業などの間では、KOLを使ったプロモーションが常識になっています。

「インスタ映え」の流行語に象徴されるように、すでに多くの人が楽しんでいる人気SNSのInstagram(インスタグラム)にも多くKOLがいます。今回はWebスクレイピングツールOctoparseを使って、KOLの投稿をスクレイピングしてみます。

このチュートリアルでは、Instagramから投稿をスクレイピングする方法を示すために、https://www.instagram.com/izkiz/ を例として使います。

 

 

以下はチュートリアルの主な手順です:[タスクファイルをダウンロードする]

1)「Go To Web Page」 - 内蔵ブラウザで対象のWebページを開く

2) ページ遷移のループを作る - 複数のページからデータを取得する

3) データを抽出する - 抽出したいデータを選択する

4) 抽出タスクを始める - タスクの実行を行いデータを取得する

 

 

 

 

1) 「Go To Web Page」 - 内蔵ブラウザで対象のWebページを開く

 · 「Advanced Mode」でタスクを作成します。

 · URLを「Extraction URL」ボックスに貼り付け、「Save URL」をクリックして移動します。

 · Webページの内容を読み込めない場合は、「setting」でブラウザを変更してください。

 

 

 

 

 

 

2)  ページ遷移のループを作る - 複数のページからデータを取得する

 · 一番目の画像をクリックし、「Action Tips」の下部にある「UL」から「A」にタブを変更してください。(データ/ URL /画像/ HTMLを詳細に選択して抽出する方法をご覧ください。

 · 「Action Tips」にある「Click the link」をクリックします。

 · 「>」をクリックし、 「Loop click next page」を選択します。

 · 「Advanced Options」パネルで「Load the page with AJAX」をチェックし、「AJAX timeout」を設定します。

 

 

ヒント!

AJAXとは「Asynchronous JavaScript + XML」の略で、簡単に言えばページを再読み込むことなくコンテンツの一部をWebページが更新できるようにする一連のWeb開発テクニックです。

AJAX技術を使ったページには「AJAX Load」を選択するほうがいいです。AJAXの詳細はこちら 

 

 

 

 

3)  データを抽出する - 抽出したいデータを選択する

 · 必要なデータをクリックし、「Action Tips」にある「Extract data」を選択します。

 · 必要に応じて、フィールド名を編集します。

 

 

 

ヒント!

OctoparseはWebサイトから選択した画像のURLのみを抽出することができます。場合によっては、「Action Tips」の下部にあるタブを調整し、正しい情報を得る必要があります。

 

 

 

 

 

 

 

4) 抽出タスクを始める - タスクの実行を行いデータを取得する

 · 「Save」をクリックします。

 · 「Start Extraction」をクリックします。

 

 

この記事は役に立ちましたか? もしご不明な点がございましたら、いつでもお問い合わせください!

 

 

 

btn_sidebar_use.png