ふと
Yahoo!Japanの形態素解析APIを使っててふと思い出したのですが、
株式会社 言語工学研究所という会社があります。
どうやら先日「類語jp」という新しいサービスを開始されていたようです。
Flexで作られているようです。
有料なので、サイトの中身は見れませんでしたが、いったいどんなことになってるのかすんごく気になります。
ところで、この会社様のサイトで日本語の処理を扱った資料がたくさん公開されていてとても参考になります。
少し話は変わりますが、
旧システムから新システムへのデータベースの移行時などによく発生する問題として、
「住所」のカラム違いが挙げられると思います。
旧システム[都道府県,その他住所]
↓
新システム[都道府県,市区町村,町域,その他住所]
さて、どうやって移行します??
わたしの場合は、ExcelのVBAで市区町村までは切り出してあげて、
それ以降の文字列は全部[町域]に入れる事までしか出来ませんでした。
2年ほど前に、前述の会社様のサイトを見ながら、javaで解析プログラムを作ろうとしたことがあるのですが、途中で挫折しました。
追記
郵政省から提供される郵便番号及び住所のcsvファイルを使えば、町域まで割り出すことができそうですが、それでもビル・マンション名などの抽出は困難なものになることが予想されます。
住所の項目なんぞ、最初からマイクロフォーマッツのようにフォームが統一されていればどれだけ助かることか。。。