Unicode
Unicode 是一个标准的 字符集,它为世界不同语言、书写系统和符号的 字符 进行了编号和定义。
通过为每个字符分配一个数字,程序员可以创建 字符编码,以便计算机在同一个文件或程序中存储、处理和传输任何语言组合。
在 Unicode 出现之前,在同一数据中混合使用多种语言非常困难且容易出错。例如,一个字符集可能存储日文字符,而另一个字符集可能存储阿拉伯字母。如果未明确标记数据中哪些部分属于哪个字符集,其他程序和计算机将错误地显示文本,或者在处理过程中损坏文本。如果您曾见过像花体引号 (“”) 被替换成 £ 这样的乱码,那么您就遇到过这个问题,这被称为 Mojibake(乱码)。
Web 上最常见的 Unicode 字符编码是 UTF-8。也存在其他编码,如 UTF-16 或已废弃的 UCS-2,但推荐使用 UTF-8。
另见
- Unicode on Wikipedia (维基百科上的 Unicode)
- Unicode 标准:技术入门