计算机汉字编码问题.docx-资源下载

计算机汉字编码问题.docx

1、计算机汉字编码问题汉字编码问题一、GB2312-80介绍GB2312码是中华人民共和国国家汉字信息交换用编码，全称信息交换用汉字编码字符集-基本集，由国家标准总局发布，1981年5月1日实施，通行于大陆。新加坡等地也使用此编码。GB2312收录简化汉字及符号、字母、日文假名等共7445个图形字符，其中汉字占6763个。GB2312规定“对任意一个图形字符都采用两个字节表示，每个字节均采用七位编码表示”，习惯上称第一个字节为“高字节”，第二个字节为“低字节”。GB2312-80包含了大部分常用的一、二级汉字，和9区的符号。该字符集是几乎所有的中文系统和国际化的软件都支持的中文字符集，这也是最基本

2、的中文字符集。其编码范围是高位0xa10xfe，低位也是0xa1-0xfe；汉字从0xb0a1开始，结束于0xf7fe。GB2312将代码表分为94个区，对应第一字节（0xa1-0xfe）；每个区94个位（0xa1-0xfe），对应第二字节，两个字节的值分别为区号值和位号值加32（2OH），因此也称为区位码。01-09区为符号、数字区，16-87区为汉字区（0xb0-0xf7），10-15区、88-94区是有待进一步标准化的空白区。GB2312将收录的汉字分成两级：第一级是常用汉字计3755个，置于16-55区，按汉语拼音字母/笔形顺序排列；第二级汉字是次常用汉字计3008个，置于56-87区

3、，按部首/笔画顺序排列。故而GB2312最多能表示6763个汉字。GB2312的编码范围为2121H-777EH，与ASCII有重叠，通行方法是将GB码两个字节的最高位置1以示区别。图1:GB2312编码图图中位于ASCII区中的虚线区域即为原GB2312编码区域，右下角实线区域为平移后的GB2312编码区域。二、GB2312-80的扩展GBK是GB2312-80的扩展，是向上兼容的。它包含了20902个汉字，其编码范围是0x8140-0xfefe，剔除高位0x80的字位。其所有字符都可以一对一映射到Unicode2.0。GB18030-2000(GBK2K)在GBK的基础上进一步扩展了汉字，

4、增加了藏、蒙等少数民族的字形。GBK2K从根本上解决了字位不够，字形不足的问题。它有几个特点：它并没有确定所有的字形，只是规定了编码范围，留待以后扩充。编码是变长的，其二字节部分与GBK兼容；四字节部分是扩充的字形、字位，其编码范围是首字节0x81-0xfe、二字节0x30-0x39、三字节0x81-0xfe、四字节0x30-0x39。它的推广是分阶段的，首先要求实现的是能够完全映射到Unicode3.0标准的所有字形。它是国家标准，是强制性的。现在还没有任何一个操作系统或软件实现了GBK2K的支持，这是现阶段和将来汉化的工作内容。三、Unicode编码国际标准组织于1984年4月成

5、立ISO/IECJTC1/SC2/WG2工作组，针对各国文字、符号进行统一性编码。1991年美国跨国公司成立UnicodeConsortium，并于1991年10月与WG2达成协议，采用同一编码字集。目前Unicode是采用16位编码体系，其字符集内容与ISO10646的BMP（BasicMultilingualPlane）相同。Unicode于1992年6月通过DIS（DrafInternationalStandard），目前版本V2.0于1996公布，内容包含符号6811个，汉字20902个，韩文拼音11172个，造字区6400个，保留20249个，共计65534个。随着国际互联网的迅速发

6、展，要求进行数据交换的需求越来越大，不同的编码体系越来越成为信息交换的障碍，而且多种语言共存的文档不断增多，单靠代码页已很难解决这些问题，于是UNICODE应运而生。UNICODE有双重含义，首先UNICODE是对国际标准ISO/IEC10646编码的一种称谓（ISO/IEC10646是一个国际标准，亦称大字符集，它是ISO于1993年颁布的一项重要国际标准，其宗旨是全球所有文种统一编码），另外它又是由美国的HP、Microsoft、IBM、Apple等大企业组成的联盟集团的名称，成立该集团的宗旨就是要推进多文种的统一编码。UNICODE同现在流行的代码页最显著不同点在于：UNICODE是两字

7、节的全编码，对于ASCII字符它也使用两字节表示。代码页是通过高字节的取值范围来确定是ASCII字符，还是汉字的高字节。如果发生数据损坏，某处内容破坏，则会引起其后汉字的混乱。UNICODE则一律使用两个字节表示一个字符，最明显的好处是它简化了汉字的处理过程。UNICODE使用平面来描述编码空间，每个平面分为256行，256列，相对于两字节编码的高低两个字节。UNICODE的第一个平面，称为BasicMultilingualPlane（基本多文种平面），简称BMP，由于BMP仅用两个字节表示，所以倍受青睐。图2:BMP的最新概貌图其中A_ZONE为拼音文字编码区，拉丁文、阿拉伯文、日文的平假名

8、及片假名等都在此区编码。CJKExtensionA和CJK为汉字区域共计27487个汉字。Y1即彝文，位于O-ZONE保留待将来使用。Hangul即韩文。EUDC为用户私有区，用户可以根据需要自己定义此区的编码。R-ZONE为限制使用区，一些兼容字符、特殊字符均放在此区。UNICODE定义BMP中的D800-DFFF为代理区（SurrogateZone），其中D800-D8FF为高半代理（highsurrogate），DC00-DFFF为低半代理（lowsurrogate）。从两个区域分别取一个编码，组成一个4字节的代理对来表示一个编码字符，此即为UTF-16。利用UTF-16机制，UNICO

9、DE扩充了1024*1024个字符，相应于OO-OF平面，并且将02平面分配给了CJKExtensionB。Microsoft在Windows2000已实现了UTF-16。Unicode编码布局0000.007F;BasicLatin0080.00FF;Latin-1Supplement0100.017F;LatinExtended-A0180.024F;LatinExtended-B0250.02AF;IPAExtensions02B0.02FF;SpacingModifierLetters0300.036F;CombiningDiacriticalMarks0370.03FF;Greeka

10、ndCoptic0400.04FF;Cyrillic0500.052F;CyrillicSupplementary0530.058F;Armenian0590.05FF;Hebrew0600.06FF;Arabic0700.074F;Syriac0780.07BF;Thaana0900.097F;Devanagari0980.09FF;Bengali0A00.0A7F;Gurmukhi0A80.0AFF;Gujarati0B00.0B7F;Oriya0B80.0BFF;Tamil0C00.0C7F;Telugu0C80.0CFF;Kannada0D00.0D7F;Malayalam0D80.0

11、DFF;Sinhala0E00.0E7F;Thai0E80.0EFF;Lao0F00.0FFF;Tibetan1000.109F;Myanmar10A0.10FF;Georgian1100.11FF;HangulJamo1200.137F;Ethiopic13A0.13FF;Cherokee1400.167F;UnifiedCanadianAboriginalSyllabics1680.169F;Ogham16A0.16FF;Runic1700.171F;Tagalog1720.173F;Hanunoo1740.175F;Buhid1760.177F;Tagbanwa1780.17FF;Khm

12、er1800.18AF;Mongolian1E00.1EFF;LatinExtendedAdditional1F00.1FFF;GreekExtended2000.206F;GeneralPunctuation2070.209F;SuperscriptsandSubscripts20A0.20CF;CurrencySymbols20D0.20FF;CombiningDiacriticalMarksforSymbols2100.214F;LetterlikeSymbols2150.218F;NumberForms2190.21FF;Arrows2200.22FF;MathematicalOper

13、ators2300.23FF;MiscellaneousTechnical2400.243F;ControlPictures2440.245F;OpticalCharacterRecognition2460.24FF;EnclosedAlphanumerics2500.257F;BoxDrawing2580.259F;BlockElements25A0.25FF;GeometricShapes2600.26FF;MiscellaneousSymbols2700.27BF;Dingbats27C0.27EF;MiscellaneousMathematicalSymbols-A27F0.27FF;

14、SupplementalArrows-A2800.28FF;BraillePatterns2900.297F;SupplementalArrows-B2980.29FF;MiscellaneousMathematicalSymbols-B2A00.2AFF;SupplementalMathematicalOperators2E80.2EFF;CJKRadicalsSupplement2F00.2FDF;KangxiRadicals2FF0.2FFF;IdeographicDescriptionCharacters3000.303F;CJKSymbolsandPunctuation3040.30

15、9F;Hiragana30A0.30FF;Katakana3100.312F;Bopomofo3130.318F;HangulCompatibilityJamo3190.319F;Kanbun31A0.31BF;BopomofoExtended31F0.31FF;KatakanaPhoneticExtensions3200.32FF;EnclosedCJKLettersandMonths3300.33FF;CJKCompatibility3400.4DBF;CJKUnifiedIdeographsExtensionA4E00.9FFF;CJKUnifiedIdeographsA000.A48F

16、;YiSyllablesA490.A4CF;YiRadicalsAC00.D7AF;HangulSyllablesD800.DB7F;HighSurrogatesDB80.DBFF;HighPrivateUseSurrogatesDC00.DFFF;LowSurrogatesE000.F8FF;PrivateUseAreaF900.FAFF;CJKCompatibilityIdeographsFB00.FB4F;AlphabeticPresentationFormsFB50.FDFF;ArabicPresentationForms-AFE00.FE0F;VariationSelectorsFE

17、20.FE2F;CombiningHalfMarksFE30.FE4F;CJKCompatibilityFormsFE50.FE6F;SmallFormVariantsFE70.FEFF;ArabicPresentationForms-BFF00.FFEF;HalfwidthandFullwidthFormsFFF0.FFFF;Specials10300.1032F;OldItalic10330.1034F;Gothic10400.1044F;Deseret1D000.1D0FF;ByzantineMusicalSymbols1D100.1D1FF;MusicalSymbols1D400.1D

18、7FF;MathematicalAlphanumericSymbols20000.2A6DF;CJKUnifiedIdeographsExtensionB2F800.2FA1F;CJKCompatibilityIdeographsSupplementE0000.E007F;TagsF0000.FFFFF;SupplementaryPrivateUseArea-A100000.10FFFF;SupplementaryPrivateUseArea-B0000.007F;BasicLatin0080.00FF;Latin-1Supplement0100.017F;LatinExtended-A018

19、0.024F;LatinExtended-B0250.02AF;IPAExtensions02B0.02FF;SpacingModifierLetters0300.036F;CombiningDiacriticalMarks0370.03FF;GreekandCoptic0400.04FF;Cyrillic0500.052F;CyrillicSupplementary0530.058F;Armenian0590.05FF;Hebrew0600.06FF;Arabic0700.074F;Syriac0780.07BF;Thaana0900.097F;Devanagari0980.09FF;Ben

20、gali0A00.0A7F;Gurmukhi0A80.0AFF;Gujarati0B00.0B7F;Oriya0B80.0BFF;Tamil0C00.0C7F;Telugu0C80.0CFF;Kannada0D00.0D7F;Malayalam0D80.0DFF;Sinhala0E00.0E7F;Thai0E80.0EFF;Lao0F00.0FFF;Tibetan1000.109F;Myanmar10A0.10FF;Georgian1100.11FF;HangulJamo1200.137F;Ethiopic13A0.13FF;Cherokee1400.167F;UnifiedCanadianA

21、boriginalSyllabics1680.169F;Ogham16A0.16FF;Runic1700.171F;Tagalog1720.173F;Hanunoo1740.175F;Buhid1760.177F;Tagbanwa1780.17FF;Khmer1800.18AF;Mongolian1E00.1EFF;LatinExtendedAdditional1F00.1FFF;GreekExtended2000.206F;GeneralPunctuation2070.209F;SuperscriptsandSubscripts20A0.20CF;CurrencySymbols20D0.20

22、FF;CombiningDiacriticalMarksforSymbols2100.214F;LetterlikeSymbols2150.218F;NumberForms2190.21FF;Arrows2200.22FF;MathematicalOperators2300.23FF;MiscellaneousTechnical2400.243F;ControlPictures2440.245F;OpticalCharacterRecognition2460.24FF;EnclosedAlphanumerics2500.257F;BoxDrawing2580.259F;BlockElement

23、s25A0.25FF;GeometricShapes2600.26FF;MiscellaneousSymbols2700.27BF;Dingbats27C0.27EF;MiscellaneousMathematicalSymbols-A27F0.27FF;SupplementalArrows-A2800.28FF;BraillePatterns2900.297F;SupplementalArrows-B2980.29FF;MiscellaneousMathematicalSymbols-B2A00.2AFF;SupplementalMathematicalOperators2E80.2EFF;

24、CJKRadicalsSupplement2F00.2FDF;KangxiRadicals2FF0.2FFF;IdeographicDescriptionCharacters3000.303F;CJKSymbolsandPunctuation3040.309F;Hiragana30A0.30FF;Katakana3100.312F;Bopomofo3130.318F;HangulCompatibilityJamo3190.319F;Kanbun31A0.31BF;BopomofoExtended31F0.31FF;KatakanaPhoneticExtensions3200.32FF;Encl

25、osedCJKLettersandMonths3300.33FF;CJKCompatibility3400.4DBF;CJKUnifiedIdeographsExtensionA4E00.9FFF;CJKUnifiedIdeographsA000.A48F;YiSyllablesA490.A4CF;YiRadicalsAC00.D7AF;HangulSyllablesD800.DB7F;HighSurrogatesDB80.DBFF;HighPrivateUseSurrogatesDC00.DFFF;LowSurrogatesE000.F8FF;PrivateUseAreaF900.FAFF;

26、CJKCompatibilityIdeographsFB00.FB4F;AlphabeticPresentationFormsFB50.FDFF;ArabicPresentationForms-AFE00.FE0F;VariationSelectorsFE20.FE2F;CombiningHalfMarksFE30.FE4F;CJKCompatibilityFormsFE50.FE6F;SmallFormVariantsFE70.FEFF;ArabicPresentationForms-BFF00.FFEF;HalfwidthandFullwidthFormsFFF0.FFFF;Special

27、s10300.1032F;OldItalic10330.1034F;Gothic10400.1044F;Deseret1D000.1D0FF;ByzantineMusicalSymbols1D100.1D1FF;MusicalSymbols1D400.1D7FF;MathematicalAlphanumericSymbols20000.2A6DF;CJKUnifiedIdeographsExtensionB2F800.2FA1F;CJKCompatibilityIdeographsSupplementE0000.E007F;TagsF0000.FFFFF;SupplementaryPrivat

28、eUseArea-A100000.10FFFF;SupplementaryPrivateUseArea-B四、大五码（Big5）如不去考虑特殊符号，及后来的七个扩充字，TW-BIG5 的排序方式如下。将所有的字分成两大群：常用字区与次常用字区，每一个字区分别用笔画来排序，同一个笔画的字，依部首来排。TW-BIG5 每个字由两个字节组成，其第一字节编码范围为0xA10xF9，第二字节编码范围为0x400x7E与0xA10xFE，总计收入13868个字 (包括5401个常用字、7652 个次常用字、7个扩充字、以及808个各式符号)，其中可以大致划分为以下几个字区：第一字节第二字节字区制定A1.A

29、240.7E, A1.FE各种符号区1984A340.7E, A1.BF各种符号区 (包括标点符号、ASCII 全角符号、注音符号等)1984A3E1欧元符号CP950A4.C540.7E, A1.FE常用字区1984C640.7E常用字区1984C6A1.FE罕用符号区倚天C740.7E, A1.FE罕用符号区 (包括日文、俄文等)倚天C840.7E, A1.D3罕用符号区 (包括俄文、输入法特殊符号等)倚天C9.F840.7E, A1.FE次常用字区1984F940.7E, A1.D5次常用字区1984F9D6.DC七个扩充字倚天F9DD.FE表格符号区倚天Table 1. BIG5字区与

30、编码范围扩充字BIG5 码Unicode 码BIG5_1984 的同义字碁0xF9D60x88CF棋锈0xF9D70x92B9锈里0xF9D80x7CA7里墙0xF9D90x58BB墙恒0xF9DA0x6052恒妆0xF9DB0x7881妆娴0xF9DC0x5AFA娴Table 2. 七个扩充字编码第一个字节第二个字节第三个字节第四个字节GB23120xB0 - 0xF70xA0 - 0xFEGBK0x81 - 0xFE0x40 - 0xFEGB18030 的双字节0x81 - 0xFE0x40 - 0x7E, 0x80 - 0xFEGB18030 的四字节0x81 - 0xFE0x30 - 0x390x8

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？