文字コード入門

松木雅幸
Oct 21st, 2011

アジェンダ

文字コードとは?

文字集合

符号化形式

符号化形式の変遷

日本語の文字コード

ISO-2022-JP系

Shift_JIS系

EUC-JP系

ISO-2022-JP系

Shift_JIS系

EUC-JP系

http://msyk.at.webry.info/200511/article_2.html

UNICODEの符号化形式

UTF-8の符号化方式

もうちょっと詳しく

先頭バイト

後続バイト

ex. \x1110xxxx \x10xxxxxx \x10xxxxxx

現状のUnicodeの問題点

日本語と中国語(簡体字)

日本語 中文
同じ意味,違うコード,違う字形
同じ意味,違うコード,違う字形
(ただし几は別の意味で使うことが多い)
同じ意味,同じコード,違う字形
同じ意味,違うコード,違う字形

異体字とフォント

アプローチ

漢字は増え続けている!

meitnerium  meitnerium