日本語文字コードを判別するプログラムを書いてみた。

日曜日は、モンスターハンターを新宿ヨドバシまで買いに行ったら売りきれていて、仕方なくプログラミングしてました。そういえば、僕はずっと前から日本語文字コードを判別するプログラム書きたいなーと思っていたのでした。

まぁ、実はNKFやらICUやfirefoxで使われているuniversal charset detectorやらBABELやらが既にあって車輪の再発明にしかならないわけなんですが、手軽に使える文字コード判定器が欲しかったのです。

C言語のコードを書くのも久しぶりでしたが、C++やってるとC言語のコードも書けるようになるものですね。

詳細は省きますがダウンロードと使い方の説明はこちらです。

NMH-0.0.1

このプログラムもそうですが、以前やりたいと思っていながら記憶のどこかにしまってしまっていたものを、最近、少しでも形にしていこうかなぁと思っていたりしています。

補足) 実装にあたっては、雅階凡さんの文字コードの判定を参考にさせて頂きました。また、EUCとSJISの判別については、shiroさんのGaucheにおいて実装されている文字エンコーディング自動判定関数のアイディア(文字の出現頻度を考慮してスコア付けする方法)を利用させて頂きました。ありがとうございました。一応こちらでも記述させていただきます。