DATA-SCIENCE

Tweetから見る特徴的な散布図

t-news_top2

Twitterでは、いつ、どんな話題が盛り上がったのか、ちょっと探ってみます。(こまかいことはこちら

5月最後の日(5/31)、この日のT-news【新聞】では、ちょっと特徴的な散布図が得られました。その時の散布図はこちら。

NP

原点あたりにいろいろな語があって、「9」時台ころ(左)、「14」時台ころ(上)、「23」時台ころ(右下)、だけ、語のかたまりが飛び出ています。
一日中、分かりやすい特徴もなく、いろいろな語が繰り返し語られるなか、「9」時代には「山手線」の「田町」あたりに新駅が「建設」される話題、「14」時台には「大分」県「日田」市で「最高」「気温」が35度以上の「猛暑」日となった話題、「23」時台には原監督の「父」であるもと高校野球「監督」の原「貢」氏が「死去」とのニュース。
対応分析では、行と列の連関が特定の部分でだけ強いと、図の中で目立って(原点から離れて)現れる場合があります。この図は、行に時間、列に語の分割表(クロス表、下図)から計算しています。これら3つの話題は、それまでも、それ以降も、ほかの時間ではほとんど話題にならなかったのに、特定の時間だけ急に話題になり、ほどなく話題にあがらなくなったのでしょう。

クリックすると拡大して見れます

クリックすると拡大して見れます

たとえば、過去にも似たようなことがありました。

>対応分析(コレスポンデンスアナリシス)の布置
https://www.facebook.com/notes/404801642910378
入り組んだ話にはなりますが、こんなところも、この手法(対応分析)の上手いところです(もとの行列の基準化の仕方、特異値分解、行/列への特異値の割り振り方)。

(著者について)
出口慎二(でぐちしんじ)
1972年生まれ。1997年、統計分析サービスを行う会社に入社。調査データの入力・集計から多変量解析による分析、関連するプログラミング業務などに携わる。退社後、2001年以降、個人でデータ分析事業を行なう。

2003〜2004年、IRJ(インターネットリサーチ研究会)にて会員社合同の実験調査プロジェクトの統括ディレクターを務める。
2004年、『自分でできるネットリサーチ』を3人共著で上梓。
2005年〜2007年、インフォプラント(現、マクロミル(2007年9月〜2010年7月はヤフー・バリュー・インサイト))に在籍してRQI(ResearchQualityInstitute)を設立し主任研究員を務める。
2005年〜2007年度、サーベイ・メソドロジー研究会(日本行動計量学会の研究部会のひとつ)に参加、インターネットリサーチを含むデータ収集法の研究に携わる。

現在は現場におけるデータ分析業務に重きを置いています。

この記事をシェアする