UTF-16のJavaの文字コード表現について、耳慣れない言葉がいろいろ出てきたので調べてみました。
#今までおざなりにしていた文字コード関連の再調査といった感じですね。。。
コードポイント
個々の文字に一意の数値(コード)を割り当てた文字セットをあらわす、コード化文字セットで使用できる数値(コード)のこと。
基本多言語面と補助文字
基本多言語面 (Basic Multilingual Plane、BMP)とは U+0000 ~ U+FFFF の範囲の文字のこと。補助文字とはそれを超える、U+10000 ~ U+10FFFF の範囲のコードポイントを持つ文字のこと。つまり、従来の 16 ビットの Unicode では表現できなかった文字のことをあらわす。また、上記のように分類されるが、Unicode の各文字は、BMP または補助文字のどちらかに分類される。
※U+とは16進数表記を表す。
参考:
Java プラットフォームにおける補助文字のサポート
0 件のコメント:
コメントを投稿