マイナンバーの誤登録を巡り、大臣が住所の表記ゆれの問題に言及し、それを発端に日本の住所の難解さがSNSやメディアでクローズアップされました。
表記ゆれとは、大臣の発言を例にとれば「港区赤坂一丁目2の3」と書く人もいれば「港区赤坂1-2-3」と書く人もいて、同じ住所を示していても表記が一致しないことを指します。
デジタルデータとしてこの2つの住所をテキスト照合すれば当然不一致と判定されます。
本コラムでは住所の表記ゆれの解消=住所クレンジングがなぜ必要なのか、具体的な業務目標を掲げつつその作業を実践的に述べていきたいと思います。
目次
● 業務目標:取引先がインボイス対応されているかをチェックする
● 適格請求書(インボイス)発行事業者公表サイト
● 取引先リスト
● 住所クレンジングを行う
● 住所クレンジング ①国税庁リスト
● 住所クレンジング ②取引先リスト
● リスト突合
● 眠れる住所データを活用しませんか
業務目標:取引先がインボイス対応されているかをチェックする
10/1からインボイス制度が開始されます。制度の詳細は文字数が足りなくなるので割愛しますが、取引先がインボイスに対応していないと貴社が消費税を余分に負担することになるかもしれません。
掲げられた業務目標は、取引先が数十社であれば個別にメールを送って確認することもできますが、数千社ともなると事務作業の手間は膨大になります。
仮に取引先が2000社あったとしたら、確認作業に1社あたり3分かかるとすると総作業時間は100時間にもなります。
適格請求書(インボイス)発行事業者公表サイト
国税庁のサイトで「インボイスに対応している法人のリスト(以降、国税庁リストと記す)」が公表されています。
国税庁適格請求書発行事業者公表サイト(国税庁)
https://www.invoice-kohyo.nta.go.jp/download/index.html
※本コラムでは2023年8月末時点の情報に基づきます。
この国税庁リストと取引先リストを照合して、取引先が国税庁リスト側にあればインボイスに対応していることになります。
国税庁リストは上記サイトにてCSV/XML/JSON形式でダウンロードすることができます。
ここではCSV形式でダウンロードします。
h_all_20230731_csv_001.zip ~ h_all_20230731_csv_005.zip を入手しました。
取引先リスト
ここでは仮想の取引先として公益法人informationホームページで公開されている公益法人リストを使用することにします。
公益法人informationホームページ
https://www.koeki-info.go.jp/index.html
※本コラムでは2023年8月末時点の情報に基づきます。
上記サイトの「公益法人等の検索」から公益法人のリストをダウンロードします。
以下の条件で抽出し、
法人区分:公益社団法人
事業の種類:1,2,3,4
行政庁:全て
yyyymmddhhmm-法人詳細情報一覧.csv を入手しました。
2225件の公益社団法人を収録しています。
国税庁リストと取引先リストはどちらも行政庁から入手したファイルなので、住所の表記は比較的揃っているものの表記ゆれはあります。
おおむね「●丁目▲番■号」と表記していますが、「●-▲-■」の表記も散見されます。
→住所における番と番地、号有無の使い分けルールは脱線するので割愛します。
住所クレンジングを行う
住所クレンジングには「アドレスクレンジングツール」を使用します。
住所正規化 アドレスクレンジングツール
https://mapple.com/products/system-addcleansing/
約4500万件を収録した住所辞書を基に、独自ロジックで住所の表記ゆれを解消し、住所文字列を階層別に分割整理する住所クレンジング専用ツールです。
インストール型のアプリケーションとなっており処理件数による課金体系ではありませんので、頻繁にお使いいただく方や大量に情報を処理する場合でも、料金を気にせずご利用いただけます。
また、オフラインで動作するため、個人情報など機密性の高いデータに対しても安全に住所をクレンジングすることが可能です。
住所クレンジング ①国税庁リスト
ダウンロードした国税庁リストを解凍し、文字コードをUTF8からSJISに置き換えます。
ヘッダ行はなくてもよいのですがないと不便なので、同サイトにある「リソース定義書(EXCEL形式)」を参照してヘッダ行を追加しておきます。
アドレスクレンジングツールに国税庁リストを読み込ませ、住所クレンジングを行います。
CSV1ファイルでおおよそ39~44万レコードありそれが5ファイルあるので、PCスペックにもよりますが丸1日がかりの処理になります。
アドレスクレンジングツールでは作業途中のファイルを保存しておくことができます。
メニュー>ファイル>作業状態を名前を付けて保存 (adw形式)
レコード数が膨大で処理時間のかかるファイルは作業状態を保存しておくと、設定を変えて出力したい時や不慮の事故が起こった時に再処理時間がかからず作業を再開できます。
住所クレンジングした国税庁リストをCSV出力します。
住所クレンジング ②取引先リスト
アドレスクレンジングツールに取引先リストを読み込ませ、住所クレンジングを行います。
(実際の取引先リストの仕様は各社それぞれなので事前準備は省略します)
今回読み込ませる取引先リストは「都道府県」と「市区町村以下の住所」のカラムが分かれているので両方を選択します。
2225件ですのでさほど時間はかからず完了します。
取引先リストが作業のベースになるので、ツール内で結合レベル(※)の低い住所をチェックします。
※住所辞書とのマッチングの高さを表します。
結合レベル3以下の住所が21件あります。
取引先リストでは「都道府県」カラムに都道府県名、「主たる事務所の住所」カラムに市区町村以下の住所が入っていますが、「主たる事務所の住所」カラムの中に都道府県から始まる住所が潜んでいます。これらが結合レベル1を発生させています。
例)東京都東京都渋谷区神宮前6-34-24AEAJグリーンテラス
アドレスクレンジングツールでは省略された都道府県を補完する機能があります。読み込ませる時に市区町村以下の住所つまり「主たる事務所の住所」だけを選択すればこの事象は回避できそうです。
アドレスクレンジングツールに取引先リストを読み込み直し、住所クレンジングをやり直しました。今度は7件まで減っています。回避できました。
こういったトライアンドエラーは、試行回数に制限のないアプリケーション提供ならではの利点です。
住所処理1件あたりで費用が発生するWebサービスですと、試行の都度課金が発生してしまいますので、失敗は許されません。
7件のうち結合レベル2,3の残住所はアドレスクレンジングツールの住所辞書に登録がないようです。突合先の国税庁リストも同じ住所であれば同じ結果になるのでこれらはこのままにしておきます。
結合レベル0を手当てします。
市区町村まで省略されているものが2件、余分な文字列が入ってしまっているものが2件。
これらはアドレスクレンジングツールの住所編集機能で補完することができます。
ツール下部に表示された住所階層からそれぞれ該当するものを選択し、修正します。
「六本木7丁目11番10号」は「東京都港区」なので、そのように住所階層を選択します。
「確定」ボタンを押すと選択した住所が適用されます。
残る3件も同様に編集して、住所クレンジングした取引先リストを出力します。
リスト突合
住所クレンジングした国税庁リストと取引先リストをMS Accessに取り込みます。
5つに分かれた国税庁リストはここで1つにまとめてしまいます。(やり方は省略)
※これから述べる作業はMS Excelに取り込んでVLOOKUP関数を使って同じことができます。ただし国税庁リストが200万件超あるのでMS Excelでは一度に取り込めません。1つにまとめずに作業を5回に分けるか、適宜足し合わせて2~3回に分ける必要があります。
赤で囲んだカラムがアドレスクレンジングツールで出力した項目になります。
国税庁リストの「氏名又は名称」、取引先リストの「法人の名称」が法人名になります。
法人名だけで突合すると同名の別会社に結びついてしまう可能性があるので、住所を突合キーに加えます。
・「法人名」と「正規化した住所」をキーに突合 → 1432件が一致
さらに階層化した住所を突合キーに活用します。
●「法人名」と「都道府県名」「市区町村名」「大字通称名」「字丁目名」「街区番号/地番(親番)」「街区番号/地番(子番)」をキーに突合 → 113件が一致
●「法人名」と「都道府県名」「市区町村名」「大字通称名」「字丁目名」「街区番号/地番(親番)」をキーに突合 → 22件が一致
●「法人名」と「都道府県名」「市区町村名」「大字通称名」「字丁目名」をキーに突合 → 3件が一致
●「法人名」と「都道府県名」「市区町村名」「大字通称名」をキーに突合 → 56件が一致
●「法人名」と「都道府県名」「市区町村名」をキーに突合 → 13件が一致
●「法人名」と「都道府県名」をキーに突合 → 4件が一致
●「法人名」をキーに突合 → 0件が一致
だんだん突合条件が緩くなっていきますので、場合によっては目視確認が必要になります。
ここまでやってまだ582件が突合できていません。「法人名」を外して住所だけで突合していきます。
法人名を外しているので、この条件では目視確認は必須です。特に公益法人は同じ住所に複数の団体が同居しているケースが多いです。
●「正規化した住所」をキーに突合 → 38件が一致(重複あり)
●「都道府県名」「市区町村名」「大字通称名」「字丁目名」「街区番号/地番(親番)」「街区番号/地番(子番)」をキーに突合 → 54件が一致(重複あり)
●「都道府県名」「市区町村名」「大字通称名」「字丁目名」「街区番号/地番(親番)」をキーに突合 → 22件が一致(重複あり)
●「都道府県名」「市区町村名」「大字通称名」「字丁目名」をキーに突合 → 169件が一致(重複あり)
残り455件になりました。取引先リストが2225件ですので2割残った形になります。
これ以上条件を緩めると無関係なところに紐づいてしまうのでこのあたりが限度でしょう。突合できなかったものは個別に国税庁リストから探していくか、直接問い合わせるかになります。インボイスに対応していないという可能性ももちろんあります。
ここまでで「取引先がインボイス対応されているかをチェックする」作業はひとまず終了です。
いかがだったでしょうか。
住所は、特殊な地域や複数企業が入居するオフィスビルなどの例外はありますが、その意味は本拠を特定するユニークキーですので、表記ゆれを解消すれば有効な突合キーになります。住所クレンジングすることで、由来の異なるリスト同士を住所をキーにして結びつけることができるようになります。
眠れる住所データを活用しませんか
住所件数が多くなるほど住所クレンジングの費用対効果が大きくなることは事実ですが、それだけではなく「住所を階層化する」ことも大きな利点になります。
エリア単位で条件を絞り込んでいく、あるいは広げていくといった使い方は突合のみならず分析業務で力を発揮します。住所の表記ゆれをクレンジングすることがゴールではなく、それを活用して新たなビジネスを生み出すことに繋がります。
もちろん、住所クレンジングで住所データベースをクリーニングすることもオススメします。住所の誤りは誤配送に繋がり、この先に控える物流の2024年問題に影を落とすことになります。
社内に眠る住所データの活用に、住所データベースのクリーニングに、アドレスクレンジングツールを是非ご検討ください。
こちらのコラムも
おすすめです
住所正規化(住所クレンジング)とは?
~「住所の表記ゆれ解消」で業務は効率化できる!~
住所の表記ゆれとそこで発生する問題、処理方法についてご案内しています。
関連製品