Unicode

Unicode 是一个标准的字符集，它为世界不同语言、书写系统和符号的字符进行了编号和定义。

通过为每个字符分配一个数字，程序员可以创建字符编码，以便计算机在同一个文件或程序中存储、处理和传输任何语言组合。

在 Unicode 出现之前，在同一数据中混合使用多种语言非常困难且容易出错。例如，一个字符集可能存储日文字符，而另一个字符集可能存储阿拉伯字母。如果未明确标记数据中哪些部分属于哪个字符集，其他程序和计算机将错误地显示文本，或者在处理过程中损坏文本。如果您曾见过像花体引号 (“”) 被替换成 Ã‚Â£ 这样的乱码，那么您就遇到过这个问题，这被称为 Mojibake（乱码）。

Web 上最常见的 Unicode 字符编码是 UTF-8。也存在其他编码，如 UTF-16 或已废弃的 UCS-2，但推荐使用 UTF-8。

另见

Unicode on Wikipedia (维基百科上的 Unicode)
Unicode 标准：技术入门

帮助改进 MDN

了解如何贡献

此页面最后修改于 2025年7月11日，作者是 MDN 贡献者。

在 GitHub 上查看此页面 • 报告此内容的问题