2017年1月11日水曜日

SASでtwitterのつぶやき情報を取得して遊んでみました。

何かしらのイベントがあればSNSにて話題になる時代になりました。
そこで、毎月おとずれるビッグイベント"給料日"について調べてみようと思います。
twitterから"給料"を含むツイート情報を取得してSASで加工してみます。


毎月25日が給料日と仮定してして考えると?

25日が日曜日場合、前倒しで23日に給与の振込みがある会社が多いと思います。
2016年9月25日は日曜日の為、23日に件数が多くなる?と考えました。


データの準備

実は件数の推移をみるだけであれば、SASデータセットで用意する必要ありません。
調べたい単語の件数推移を検索エンジンで見ることも可能です。
今回はデータの取得からやってみたいと思います。
※データの取得方法はSAS社のブログにサンプルプログラムが解説付きでありましたので、
 そちらを参考に取得を行います。
プログラムを実行した結果、9月21日の10時頃~9月28日の08時頃までの期間で、
215,285件のツイート情報を取得できました。


データの確認

取得できたデータの確認をします。利用目的に応じてさまざまな対処が必要になります。
考えられる例として
・リツイートされているものの扱い。
・リプライ(特定ユーザーへ向けた返信)の扱い。
などなど、多くの考慮点があると思います。

また、データを見て初めて気づくパターンも多いです。
"給料日までもう少し!"、"給料が入ったら散財するぞ!"というような"給料日"というイベントの為、
ツイートされたのであろう情報を取得したかったのですが、
求人広告や"副業で給料以上稼ぎました!"のような定期的に流れているものも多く取得されました。
とりあえず、"給料日"を含むツイートと、それ以外で分類してグラフ化したいと思います。


日ごとの件数比率(左)と件数(右)の折れ線グラフ




時間ごとの件数比率(左)と件数(右)の折れ線グラフ



上記のグラフを見ると・・・

"給料日"を含むツイート(青線)に注目してみると
日ごとのグラフで23日が24日以降に比べて多いですね。
また、日ごとでは分からなかったのですが、時間ごとのグラフで見ると、
22日の夕方から23日の件数は他の人比べてグラフの形が異なりますね。


今回はデータを取得して時系列の件数推移を出すだけですが、
このデータを利用して、何に給料を使っているのかまで調べられると面白そうです。


個人的には給料日の晩御飯に関するツイートだけ取得すれば
"焼肉"、"寿司"だけではなく、気軽に行ける"ラーメン"、少し値段が張る"ピザ"なども
多くつぶやかれているのでは?と思います。

0 件のコメント:

コメントを投稿

ツイート数からみる"バーチャルYouTuber"ブーム

今や YouTuber の話題の半分を占めるほどのクチコミ数に 当社が提供するソーシャルビッグデータ検索ツールの「 beInsight (ビーインサイト)」を使って、話題の「バーチャル YouTuber 」について調べてみました。 「バーチャル YouTuber...