データサイエンス

スイーツ店はこの駅に出せ! – 重回帰分析で今一番甘味処が求められる駅を突き止める

デイリーポータルZさん(以下DPZさん)とのコラボ記事『山手線の糖分を調べる』でせっかく色々調べて頂いたので、そのデータを元にさらに(無駄に)分析をしてみよう!という事になりました。

我々は市場調査を生業としている会社なので、このデータから何らかの結論を導き出すべきだ!ということで、社長以下寝ずに検討した結果、今回は、『今山手線内にスイーツ店を出店すなら、どの駅が穴場か?』という結論に向かって(無駄に)多変量解析を駆使して分析したいと思います!

※こんな但し書きは無粋かと思いますが、本記事はあくまでネタですので笑って読んでください。

1.各駅の糖分濃度を(再び)割り出す

前回DPZさんが体を張って各駅のスイーツ店数をカウントして頂いたので、有り難くそのデータを使わせて頂きます。(※カウントの基準など詳しい事は先ほどのDPZさんの記事を御覧ください)

まず、DPZさんに調べて頂いた各駅のスイーツ店数を、各駅の乗降客数で割って、駅利用者一人当たりの糖分濃度を算出します。DPZさんの記事ではJR山手線の乗降客数をベースに計算していたのに対し、今回は各駅の私鉄や地下鉄も含めた全路線の乗降客数をベースに計算しました。

また、東京、品川、日暮里、池袋、上野の5駅には、ecuteやEchikaといった改札内で買い物ができる施設があるため、これらを”お土産駅”として、乗降客数に乗り換え客数を加えてから除算しています。

参考

その結果、新たに算出した各駅の糖分濃度がこちらです。

1

一番右の糖分濃度の表で黄色の駅が”お土産駅”、そして赤でマークしたのが糖分濃度トップ5の駅です。意外にも巣鴨や大塚など、それほど大きく無い駅の濃度が高い事がわかります。

さて、次はこの糖分濃度の高さが、何に起因するものなのかを(無駄に)探っていきたいと思います。

色々な仮説が考えられると思いますが、今回は誌面の都合上、無理やり(?)以下の4つに絞り込みました。

  • 仮説1:学生の多い駅は糖分濃度が高い。
  • 仮説2:高齢者の多い街は糖分濃度が高い。
  • 仮説3:アパレル店の多い駅は糖分濃度が高い。
  • 仮説4:居酒屋の多い駅は糖分濃度が低い。

それでは、一つ一つ検証してみましょう。

仮説1:学生の多い駅は糖分濃度が高い。

スイーツといえば女性、中でも女子学生のはず!ということで、まずは仮説1を検証します。男女別の学生数までは何ともわからないので、取り敢えず山手線各駅が最寄りである中学、高校、大学・短大の数を調べました。参考にしたサイトはこちら。

2 th

全く知らなかったのですが、巣鴨を頂点とした駒込、大塚周辺は中学校、高校が多いんですね。そして、この学校の合計数と糖分濃度をプロットしてみます。

3

うーん。残念ながら学校数と糖分濃度に関係はなさそうですね。念のため相関関係を調べてみましたが、相関係数は0.265、p値は0.165で有意な相関はありませんでした。

しかしながら、学校数を中学校の数に絞ってみると何らかの相関がありそうなので、そちらもプロットしてみました。

4

相関関係を調べてみると、相関係数0.345、p値0.067となり、厳密ではありませんが弱い相関関係がありました。スイーツといえば大学生や高校生というイメージだったので、少し意外ですよね。もちろん他の要素が影響している可能性もおおいにありますが。

仮説2:高齢者の多い街は糖分濃度が高い。

冒頭で算出した糖分濃度ですが、巣鴨など高齢者の多そうな駅が意外と高かったので、続いて仮説2を検証したいと思います。オープンデータからは駅ごとの高齢者の住居者数まではわからないので、無理やりですが……駅周辺の病院の数で高齢者の多さを計ることにします。参考にしたサイトはこちら。

その結果がこちら。

5 th

街の大きさに左右されないように、乗降客1万人あたりの病院数を算出しました。それと糖分濃度をプロットしてみると、以下のようになります。

6

これはさすがに使えませんね……。相関関係についても分析しましたが、相関係数0.2694927、p値0.156で 有意な関係ではありませんでした。

なかなかズバッとハマる相関が見えてこない……。

仮説3:アパレル店の多い駅は糖分濃度が高い。

若干こじつけな感じもしますが、スイーツを好むのは若い女性である事は間違いないですよね。そして前述した学校数とは別の着眼点は何か無いものか……というわけで、若い女性が好きなファッション!に着目しました。洋服を販売するアパレル店が多い駅には、糖分濃度との相関があるのではないか。しかしながら駅ごとのアパレル店舗数というのもデータが無かったので、アパレル店舗のアルバイト募集数から算出してみました。参考にしたのはこちら。

その結果がこちらです。

7

アパレル店舗のバイト募集数を、全販売アルバイトの募集数で割り、駅の規模や活気による影響を排除した”アパレル率”を算出しました。赤でマークした駅はアパレル率トップ5です。納得の駅が揃っていますね。それを糖分濃度とプロットしてみるとこうなります。

8

色々考えてヒネったものの!関係はなさそうです……。相関関係を調べてみましたが、相関係数0.21、p値0.272で有意な関係ではありませんでした。

仮説4:居酒屋の多い駅は糖分濃度が低い

最後はこの仮説。大抵の酒飲みは甘いモノを食べないはず!という事で、仮説4を検証します。利用したサイトはこちら。

今回は駅の半径300m圏内でカウントしました。

9

こちらも同様に、街の規模が影響しないように居酒屋数を全飲食店数で割り、居酒屋率を算出しました。こちらも納得のトップ5となっております。そして居酒屋率と糖分濃度をプロットしたものがこちらです。

10

おお!これはここまでで一番関係がありそう!

相関関係を調べてみると相関係数‐0.507、p値0.01で有意な関係でした。つまり居酒屋率が高まるほど、駅の糖分濃度は減っていくということです。まあスイーツ店があるのはだいたい昼の街。居酒屋率の高い夜の街とは違う場所にあるというのは納得できます。客層も違うのでしょう。

2.説明変数が決まったので、(無駄に)重回帰分析をしてみる

さて、ここまで様々な仮説を検証してきました。多少無理やりなところもありましたが、ここまでの結果を踏まえ、結論まで一気に辿り着きたいと思います。各駅の糖分濃度を目的変数に、相関の強かった中学校数と居酒屋率を説明変数にして、重回帰分析してみます!

11 th

そして残差をみると……

12

山手線の全29駅中、糖分濃度の測定値と予測値との残差が最も大きい、即ちスイーツの需要があるのに競合が少ない駅は駒込だ!

全国のスイーツ屋さん、駒込に出店するなら今ですよ!

関連する話としてこちらもどうぞhttps://gri.jp/media/entry/27711