中文编码

首页	网上购物货比多家	移盘检索精灵	批量缩略图工具	BatchDoc Word文档批处理	软件下载

中文繁简字编码知识库

中文编码初步

处理网页是总是碰到中文编码问题，中文编码主要有以下四种：

GB2312:简体中文编码，一个汉字占用2字节，在大陆是主要编码方式。当文章/网页中包含繁体中文、日文、韩文等等时，这些内容可能无法被正确编码。

BIG5:繁体中文编码。主要在台湾地区采用。

GBK:支持简体及繁体中文，但对他国非拉丁字母语言还是有问题。

UTF-8:Unicode编码的一种。Unicode用一些基本的保留字符制定了三套编码方式，它们分别UTF-8,UTF-16和UTF-32。在UTF－8中，字符是以8位序列来编码的，用一个或几个字节来表示一个字符。这种方式的最大好处，是UTF－8保留了ASCII字符的编码做为它的一部分。UTF-8俗称“万国码”，可以同屏显示多语种，一个汉字占用3字节。为了做到国际化，网页应尽可能采用UTF-8编码。当然，处理中文时http头也要改成UTF-8编码的-----加上<meta http-equiv="Content-Type" content="text/html; charset=utf-8">。

Word文档中文繁简批量转换

BatchDoc 是一个Word文档批量处理工具，其中提供了一项功能：Word文档中文繁简批量转换。

中文编码GB,GBK,Unicode的介绍

汉字编码系统

为进行信息交换，各汉字使用地区都制订了一系列汉字字符集标准。

国标码（“国标”是中华人民共和国国家标准的简称）在中国大陆使用。GB2312收录6763个汉字，GBK收录20912个汉字，最新的GB18030收录27533个汉字。

BIG5码。收录13053个汉字。在台湾和香港使用的一字节或两字节编码。

Unicode并不被中国政府很好的接受。中国政府要求在中国大陆出售的软件必须支持GB 18030编码。

在国际通信化和软件设计领域，CJK编码收集了汉语、日语、韩语中的汉字集。

关于Unicode

由于各国国家标准字集所收的汉字字数、常用字的差异，虽然象中国两岸GB/BIG5字集常用字基本类似，转换后阅读并不成问题，但是这种编码转换的混乱关系，对文字交流始终是一种障碍。因此相关国家的标准化组织和文字工作者经过共同努力，终于在93年完成了包含中日韩(CJK)汉字的Unicode 汉字标准ISO 10646.1。 Unicode是完全双字节表示的多国文字编码体系，编码空间0x0000-0xFFFF。 ISO 10646.1汉字标准使用编码0x4E00-9FA5，共包含20902个汉字。其中：大陆(S)提出的汉字17124个，台湾(T)提出的汉字17258个; S与T的并集，即中国(C)提出的汉字为20158个。日本(J)提出的汉字为12157个，中国未提出的690个(Ja); 韩国(K)提出的汉字为7477个，其中中国未提出的90个(Ka); Ja与Ka并集共744字。支持Unicode编码的相关电脑系统软件，如Unix, Win95已有推出，但是由于Unicode的ASCII码是用双字节编码(即一般电脑系统中的单字节ASCII码前加 0x00)，同时其汉字编码与各国的现有编码也不兼容，造成现有的软件和数据不能直接使用，所以目前完全使用Unicode软件系统的用户并不多，大多数只将它此作为一个国际语言编码标准来使用。

GBK和gb2312的区别

中国大陆最常用的就是GBK18030编码，除此之外还有GBK，GB2312，这几个编码的关系是这样的。

最早制定的汉字编码是GB2312，包括6763个汉字和682个其它符号。 95年重新修订了编码，命名GBK1.0，共收录了21886个符号。之后又推出了GBK18030编码，共收录了27484个汉字，同时还收录了藏文、蒙文、维吾尔文等主要的少数民族文字，现在WINDOWS平台必需要支持GBK18030编码。

按照GBK18030、GBK、GB2312的顺序，３种编码是向下兼容，同一个汉字在三个编码方案中是相同的编码。