Unicode

Unicode 是一种标准的 字符集,它对来自世界不同语言、书写系统和符号的 字符 进行编号和定义。

通过为每个字符分配一个数字,程序员可以创建 字符编码,使计算机能够在同一文件或程序中存储、处理和传输任何语言组合。

在 Unicode 出现之前,在同一数据中混合语言很困难且容易出错。例如,一个字符集用于存储日文字符,另一个用于存储阿拉伯字母。如果未明确标记数据中哪些部分属于哪个字符集,其他程序和计算机将错误地显示文本,或在处理过程中损坏文本。如果您曾经见过文本中带弯引号(“”)的字符被替换成类似 £ 的乱码,那么您就见过这个问题,它被称为 Mojibake

Web 上最常见的 Unicode 字符编码是 UTF-8。其他编码也存在,例如 UTF-16 或已废弃的 UCS-2,但建议使用 UTF-8。

另请参阅