データサイエンス

Tweetから見る特徴的な散布図

 

Twitterでは、いつ、どんな話題が盛り上がったのか、ちょっと探ってみます。(こまかいことはこちら

5月最後の日(5/31)、この日のT-news【新聞】では、ちょっと特徴的な散布図が得られました。その時の散布図はこちら。

NP

原点あたりにいろいろな語があって、「9」時台ころ(左)、「14」時台ころ(上)、「23」時台ころ(右下)、だけ、語のかたまりが飛び出ています。
一日中、分かりやすい特徴もなく、いろいろな語が繰り返し語られるなか、「9」時代には「山手線」の「田町」あたりに新駅が「建設」される話題、「14」時台には「大分」県「日田」市で「最高」「気温」が35度以上の「猛暑」日となった話題、「23」時台には原監督の「父」であるもと高校野球「監督」の原「貢」氏が「死去」とのニュース。
対応分析では、行と列の連関が特定の部分でだけ強いと、図の中で目立って(原点から離れて)現れる場合があります。この図は、行に時間、列に語の分割表(クロス表、下図)から計算しています。これら3つの話題は、それまでも、それ以降も、ほかの時間ではほとんど話題にならなかったのに、特定の時間だけ急に話題になり、ほどなく話題にあがらなくなったのでしょう。

クリックすると拡大して見れますクリックすると拡大して見れます

たとえば、過去にも似たようなことがありました。

>対応分析(コレスポンデンスアナリシス)の布置
https://www.facebook.com/notes/404801642910378
入り組んだ話にはなりますが、こんなところも、この手法(対応分析)の上手いところです(もとの行列の基準化の仕方、特異値分解、行/列への特異値の割り振り方)。