UTF-8
UTF-8(UCS转换格式8)是万维网上最常用的字符编码。每个字符由一个到四个字节表示。UTF-8与ASCII向后兼容,并且可以表示任何标准的Unicode字符。
前128个UTF-8字符与前128个ASCII字符(编号为0-127)完全匹配,这意味着现有的ASCII文本已经是有效的UTF-8。所有其他字符使用两个到四个字节。每个字节都有一些位保留用于编码目的。由于非ASCII字符需要多个字节来存储,因此如果字节被分离并且没有重新组合,则它们存在被损坏的风险。
另请参阅
- UTF-8 在维基百科上
- Unicode网站上的关于UTF-8的常见问题解答