GIS

日本の地名データに潜む闇〜LLoco開発時に苦労した「名寄せ」の話〜(後編)

弊社では、地理空間データの分析および可視化のためのサービスとしてLLocoを提供しています。

私はこのサービスの中で、「郵便番号」「町丁目境界データ」を住所でマッチングさせたデータセットの開発を主に担当しています。

本記事ではその中で特に大変だった、住所の「名寄せ」について後編に分けて紹介します。

後編では、中編の「部分一致」よりも特殊なパターンを集めた「特例処理」を紹介します。住所データを扱うエンジニアの参考になれば幸いです。

名寄せの分類2: 「特例処理」

郵便番号単位の住所とe-Stat境界データの住所における名寄せには大きな分類として2種類あり、こちらで手を加えることで共通の住所として自動処理可能な「部分一致」と、明示的にマッチングを指定し手動で結びつける「特例処理」に分けられます。

今回はその後者であり、マッチさせるべき郵便番号(約11万件)で見た時のおよそ4%弱、全国で4,000件ほど見られた「特例処理」についてです。

特例処理については、掘り下げると4,000件全て紹介するまでいくらでも小分類ができてしまいますが、今回は以下の3パターンに分けて紹介します。

① 表記揺れ

郵便番号 郵便番号での地名 境界データでの地名
150-0046 東京都渋谷区松濤 東京都渋谷区松涛一丁目
東京都渋谷区松涛二丁目
郵便番号 郵便番号での地名 境界データでの地名
190-1221 東京都西多摩郡瑞穂町箱根ケ崎 東京都西多摩郡瑞穂町大字箱根ヶ崎
郵便番号 郵便番号での地名 境界データでの地名
089-4351 北海道足寄郡陸別町勲祢別 北海道足寄郡陸別町字クンネベツ

様々なパターンが見られますが、1つ目は郵便番号と境界データで異体字となっているもの、2つ目は「ケ」と「ヶ」の違い、3つ目は漢字かカタカナかの違いとなっています。

これらはどちらが正しいと法的に決まっていないものがほとんどであり、「ケ」「ヶ」や「ツ」「ッ」も、どれが採用されているかは地域によって異なっています。LLocoでは便宜上郵便番号における地名を正として、境界データの地名を合わせるようにしています。

異体字についてはその一覧のデータセットがあればまだなんとか自動マッチ可能かもしれません。ただ、3つ目のようなカタカナと漢字については自動処理での対処が不可能であったため、こういった表記揺れは全部手動で対応関係を明示してマッチさせることとしました。

また表記揺れの中にも、上記の例で見られるように[中編]で示した「大字の有無」などが同時に存在しているため、注意が必要です。

② 全く異なる地名

郵便番号 郵便番号での地名 境界データでの地名
194-0032 東京都町田市本町田 東京都町田市本町田
194-0039 東京都町田市藤の台(1、2丁目)
195-0039 東京都町田市藤の台(3丁目)

上記は1つの境界データに複数の郵便番号が該当する珍しい例となっています。この地域で「本町田」「藤の台」という全く異なる地名を結びつけている要因には、郵便番号の更新時期と境界データの更新時期の違いがあります。

郵便番号は開発時の最新のデータを反映していますが、境界データは5年に一度更新される国勢調査の結果に基づいています。上記では、郵便番号として2022年10月、境界データとして2020年国勢調査のデータを用いているため、ズレが生まれています。

「町田市藤の台」は2020年7月に新たにできた地名のため、境界データにはまだ反映されてなく、本町田の領域に含めることで対処している、という訳になります。このような場合は、住所表示変更の公示など、いくつかの文献をあたることで最適解と思われる結びつけを手動で行っています。

ちなみに「LLocoでは便宜上郵便番号における地名を正としている」理由としては、そちらがより更新の頻度の高い方であることも要因の1つです。

③ 境界データにおいて地名無し

郵便番号 郵便番号での地名 境界データでの地名
100-1701 東京都青ヶ島村青ケ島 東京都青ヶ島村

境界データにおいて市町村名以降がないものがいくつか存在します。要因は様々ありますが、上記は実際にも地名が存在しない例です。郵便番号の方では便宜上「青ケ島」と付けられていますが、実際には青ヶ島村には大字や番地が存在しないため、このような表記となっています。

この他の例として、

  • 湖など水上の領域に対応している
  • 境界データでいくつかの小字がまとめて1つの地域にされてしまっている
  • 島嶼部の1つの島に対応しているなどで名前がつけられていない

といったものが存在します。水上の領域についてはLLocoでは郵便番号と結びつけてはいませんが、それ以外については本当にどうしようもないため、実際の境界データを各種の地図等で参照して対応する郵便番号を結びつけるようにしています。

特殊処理での名寄せのまとめ

以上の分類に対応する特殊処理を行うことで、日本のほぼすべての地域について郵便番号と境界データの名寄せは達成できます。しかし、この項目についてはほぼ手作業となり、一番労力がかかる箇所であるということは想像に難くないと思います。

今後も、参照データの更新に合わせてLLocoはアップデートされるため、この特殊処理をなるべく少なくできる方法は日々考えています。これを読んでくれた方も、このような点に注意しつつより効率的な手法を各自で検討していただければ幸いです。

また、LLoco自体につきましても、興味や活用ご検討いただけることがございましたら下記からぜひご連絡ください。

日本の地名データに潜む闇〜LLoco開発時に苦労した「名寄せ」の話〜(前編)弊社では、地理空間データの分析および可視化のためのサービスとしてLLocoを提供しています。 https://gri.jp/ser...
日本の地名データに潜む闇〜LLoco開発時に苦労した「名寄せ」の話〜(中編)弊社では、地理空間データの分析および可視化のためのサービスとしてLLocoを提供しています。 https://gri.jp/ser...

 

kai
アナリティクス&デベロップメント所属。 平日に大きなデータを扱い、週末は大きな楽器を扱う