かな漢字変換

携帯やパソコンで「叱る」が表示できなくなるかもしれない…新常用漢字が2010年3月から実施

この記事は約3分で読めます。

叱は「口」+「七」
新常用漢字が改正され2010年3月にもスタートする見込みだ。注目する漢字は「叱」。「叱」は「しかる/叱る」で使われており馴染みの深い漢字だ。
よく漢字を見て欲しい。この「叱」の字源は「口」+「七」であり、漢字の右部分(つくり)は「七」であり「匕」ではない。しかし、慣用的にはつくりが「匕」に近い字体が頻用されており、かな漢字変換で「しかる」と変換すると「叱る」となる。
で、新常用漢字では本来の「口」+「七」にすべきだということで、これまでの「叱」ではなくなる。

このまま、新常用漢字で「叱」が「口」+「七」になると、困ったことが起こる。文字コードのシフトJISでは「叱」の表示は問題ないが、「口」+「七」の漢字の文字コードは存在しないため「?」になってしまう。

ITproで、「新常用漢字表が迫るUnicode移行、「シフトJIS」では対応不可能」という記事には以下の記述がある。

新しい常用漢字表2136字のなかでも、最も大きな問題をはらんでいるのが、「?」(口へんに七)だ。「しかる」の漢字である。2000年の表外漢字字体表では、シフトJISやEUC-JPに存在する「叱」ではなく、Unicodeにしか存在しない「?」(口へんに七)が採用された。それが新しい常用漢字表でも踏襲される。表外漢字字体表が字体の標準とする「康煕字典」(中国清朝の康煕帝の命令によって編纂された漢字字典)にあるのが、「?」(口へんに七)だったためだ。
 「?」(口へんに七)のUnicodeは「U+20B9F」であり、Windows XPやMac OS9などの古いOSでは表示や処理に問題が生じる可能性がある。「?」(口へんに七)はUnicodeの文字符号化形式(エンコーディング形式)である
「UTF-8」や「UTF-16」で、4バイトとして扱われる。4バイトの文字は、漢字を2バイトと決め打ちにしているシステムでは全く利用できない。シフトJISやEUC-JPだけでなく、Unicodeでも「UCS-2」で処理ができない。シフトJISやEUC-JPに存在する「叱」で代用するアイデアもあるかもしれないが、叱のUnicodeは「U+53F1」で、「?」(口へんに七)のU+20B9Fとは全く異なる文字コードだ。データのやりとりを考えた場合、代用は不可能である。

※「?」は文字コードの「𠮟」ですが記録できずにやむをえず「?」としました。このような問題がおきるということです。

ここで問題になるのが、シフトJISで表現できない文字コードが新常用漢字になるということである。携帯電話で使われている文字コードはシフトJISだし、既存ホームページでもかなりがシフトJISである。すでに使われている機器の文字コードを変更するのは容易ではないが、どうするつもりだろうか…?

ホームページでは、UTFへの移行が進んでいる。先日ダウンロード開始になったMT5は文字コードがUTF指定でシフトJISが使えなくなっていることを不便に思ったが、このような環境変化も視野に入れていたのだろう。

なお、パソコンの場合は、ウィンドウズ7に移行すればUTFが標準で文字表現はOKのようだ。意外にこの理由でウィンドウズ7の導入が進むかもしれない。