GIS

データサイエンティストが商圏分析に郵便番号を推挙する3つの理由

先日ニュースを見ているとふとこんな記事が目に飛び込んできました。

要旨としては「河野太郎デジタル大臣がテレビ番組でマイナ保険証関連のトラブルに関して、住所の表記揺れ問題をその原因としてあげ、将来的にはAIの活用を視野に入れると発言したところ、ネットが賛否両論で大盛り上がり」のような感じです。

そんなんExcelでええやん
こんなことにAIを使う必要がない

などの批判的な意見もあれば、

AIを用いて取り組むべき課題
日本の住所の正規化、難しそうだなと思ったけど、想像の1000倍難しそうで泣いちゃった

などの賛同的な意見もあり、あまりの反響の大きさにTwitterでは「日本の住所のヤバさ」がトレンド入りするほどだったそうです。

そしてそれを受けて書かれた

という記事は公開からわずか1日で5,000スキを獲得するほどのバズりを見せています。

ちなみに僕の意見もこのnote記事に賛同で、冒頭の、

住所の揺らぎ程度のことにAIを使いたいだとかデジタル音痴」だの「住所の正規化なんてExcelで2時間あれば作れそう」だの、たいへんフットワークの軽やかな言説の数々に、位置情報界隈のみならず住所の正規化や名寄せに少しでも関わったことのあるエンジニアが総立ちでマサカリを投げていたのも記憶に新しい今日この頃ですが(2023年6月6日)

という部分には大きく首肯せざるを得ません。

日本の住所はヤバい

これはエンジニアのみならず、データサイエンス業界でも半ば常識であり、正規化を軽く見ている人は実際に手を動かしたことがないのだろうなと断じざるを得ません。

データサイエンスのプロ集団である弊社もこの問題は認識しており、過去のセミナーでも紹介しております。

 

さて、そんな弊社が、数々の案件で日本住所界の闇に闇堕ちを繰り返していく中で見つけた、商圏分析時のベストプラクティスが「郵便番号を使う」ことでした。

今回の騒動は別々(マイナンバーと健康保険)で取得した住所を名寄せすることをモチベーションとした話でしたのでそのものにアプローチするわけではないのですが、同様の闇は分析業界にも存在し、そしてそれを乗り越えるために郵便番号を使うというアイデアがなぜ生まれたのか、その理由を解説していきたいと思います。

 

 

理由(1)商圏分析を行うのにちょうどいい粒度

分析の粒度をどうするのか、どの粒度で入り口を設定していくのか、といったところはデータサイエンティストの腕の見せ所です。細かすぎても該当データが少なくし、荒すぎても有用なインサイトを発見できない、、、

商圏分析でも同じで、都道府県や市区町村だとちょっと荒いかなという感じで、町丁目粒度だと細かすぎて隣町との差異がほとんどでない、というケースが多いです。そこで郵便番号粒度で切ってみたところ、エリア性が際立ちかつ分析に必要なデータ量も確保できることが数多くの案件で確認できました。

エリア・マーケティングで利用すべきシェープファイル(地域境界情報データ)エリア・マーケティングを行う際、地域境界で可視化した方が遥かに分かりやすいのですが、Tableauなどを利用する際、実践的なものが存在し...

上の記事でも説明しているのでさらに知りたい方は読んでみてください。

また、以前に自分が書いた以下の記事でも、東京の23区間での男女比比較と港区に絞った時の郵便番号粒度での男女比比較を書いたんですが、やはり郵便番号粒度は細かい差異を捉えられていました。(六本木と白金台の違いがわかる)

「港区女子と足立区男子は永遠に出会えない」は本当なのか?この前(と言ってもだいぶ前なんですが)Twitterでこんな記事を見つけました。 https://president.jp/art...

目的からすると上の記事では市区町村粒度でもいいんじゃないか?という反論も来そうで、しかも割とその通りではあるんですが(笑)、商圏分析となると市区町村粒度は一気に物足りなくなります。

前にやったエリア別の賃貸家賃分析もそうでしたね。区レベルでは見えない区内でのエリア性がはっきり見えてくるので郵便番号の方が断然面白かったです。

【ForecastFlow×LLoco】機械学習を使って会社近くのお得物件をSUUMOから探し出せ 〜(2)前処理・可視化編〜こちらの記事の続きです https://gri.jp/media/entry/8771 TL; DR 自動機械...

 

理由(2)別々で取得したデータの結合が容易

今回の騒動の発端でもあるんですが、とにかく住所は表記揺れがえげつないです。

先人たちもその正規化に取り組んでは鼻血を出し続けているほど。

そもそも何で分析時にデータ結合がしたくなるかというと、エリア別の自社商品の購買傾向や自社のシェアを計算したいからです。以下のようなイメージです。

  • 単身世帯が多いエリアではシェアが落ちてきているのではないか?
  • 若年層、特に20代前半の女性が多いエリアで特に売れている商品は何か?
  • 特定の職種に従事する人が多いエリア(金融・ITなど)で特に売れている商品は何か?

それは自社で取得した顧客の住所と、オープンデータとして利用できる国勢調査などの地域ごと人口統計などの外部データを結合することで実現できます。

と口で言うのは簡単なんですが、そこで日本の住所ヤバい問題が出てくるわけです。
要は表記揺れすぎててくっつかないんですよね、自社データと外部データが。

漢数字かアラビア数字か、半角か全角か、ハイフンの書式は、、、考えればキリがないほど例外処理の魔窟となっています。
そんなよーわからんもん同士を結合するなんてデータサイエンティストがやりたくない処理トップ3に入るわけです(個人の感想)。

その点郵便番号は簡単です。
7桁の数字なので表記揺れがほぼなく、あったとして簡単な幾つかの処理で分析レディーな状態にすることが可能。最高やな郵便番号。

 

理由(3)データ取得が容易

さて、最後の理由ですがそれは顧客目線で見た時の話になります。

必要がない限り住所を渡すのはプライバシー的にちょっと抵抗あるし、手書きだと記述するのがめんどくさいし、PCだと半角でいいのか全角の方がいいのかハイフンで繋げばいいのか○番◯号とかいた方がいいのかよくわからない、、、そんな顧客の方は多いと思います。

皆さんもご経験がありませんか?意気揚々とWebで住所を入力していて、送信ボタンを押すと以下のような画面が出てきたことが

スマホを壁にぶん投げたくなります。半角ダメなら最初っからそう言わんかい

とまあ、郵便番号であればこんなこともないので収集コストが断然安くなります。
当然、分析のためだけにデータをとっているわけではないので、住所そのものがないとサービス利用できないこともあるとは思うんですが、商圏分析してマーケティングに活かしたいだけであれば郵便番号だけを取得するという選択肢も全然ありなわけです。

実際この前近所のOKストアに行ったんですが、ひょんなことからポイントカードを作ることになり、その時に聞かれた情報が郵便番号だけだった、なんてことがありました。

さすがOKさん、わかってらっしゃる。

 

でも結合する外部データ用意するの大変なんじゃないの?

はい、大変ですw

なぜなら郵便番号は日本郵政独自の地域区分ですから、政府が公開している国勢調査などのオープンデータには当然郵便番号での区分なんてものはないわけです。

本当にやりたいことは「自社データと適切な外部データの結合した上でのエリア性分析」なので、上で説明した通り自社の顧客に対しいて郵便番号が取得できても、外部データの方が郵便番号粒度で入っていなければしょうがないわけです。

そしてその郵便番号粒度と国勢調査の町丁目データを対応づけることは、噛み合ってるようで若干噛み合わない、その噛み合わせを正すにはまたしても日本郵便界の広大な闇が広がっています。

ここへきて振り出しに戻ってしまうのでしょうか?

いいえそうではありません、なぜなら我々がそんな闇を照らす光を開発したからです。
そうLLocoです。

郵便番号粒度データの有用性に気づきつつも、そのマッチングパターンに絶望し、時に闇にまみれ闇と戯れ闇を克服し作成したのがこのLLocoです。

その格闘の歴史の一端を知りたい方は以下の記事を参考にしてみてください。
闇を覗く時、あなたもまた闇に覗かれることになるでしょう、、、

日本の地名データに潜む闇〜LLoco開発時に苦労した「名寄せ」の話〜(前編)弊社では、地理空間データの分析および可視化のためのサービスとしてLLocoを提供しています。 https://gri.jp/ser...
日本の地名データに潜む闇〜LLoco開発時に苦労した「名寄せ」の話〜(中編)弊社では、地理空間データの分析および可視化のためのサービスとしてLLocoを提供しています。 https://gri.jp/ser...
日本の地名データに潜む闇〜LLoco開発時に苦労した「名寄せ」の話〜(後編)弊社では、地理空間データの分析および可視化のためのサービスとしてLLocoを提供しています。 https://gri.jp/ser...

LLocoであれば郵便番号粒度で国勢調査のデータが活用できますし、ポリゴンデータも保持しているのでTablueaやLookerStudioなどのBIツール上で可視化も可能だったりします。これで外部データと結合して分析し放題ですね。

「オッケー勝手は分かったんで同じもん作ってみるわ」っていう勇者の方は是非チャレンジしみてください、同じ問題にぶち当たったものとして応援させていただきます。

が、従来のエリアアナリティクスツールに比べればそんな高額なものでもないですので(価格情報:50万円/年間)、「そんなもんやるんやったら最初っから照らしてもらった方がええわ、闇」って方はぜひお問い合わせを。

 

最後は宣伝っぽくなっちゃいましたが、個人的には日本住所界の問題は素人が迂闊に立ち入らないほうがいいとマジで思ってますので、生半可な覚悟の方は我々の努力の結晶を使っていただけたらと思います。

生半可でない覚悟をお持ちの方は、共に闇に立ち向かい、エリアアナリティクス界を盛り上げていきましょう。

 

Taizo Okabe
脳筋系データサイエンティスト。筋肉は裏切らない。筋肉。