Unicode字符全集.docx

资源描述

Unicode字符全集.docx

《Unicode字符全集.docx》由会员分享，可在线阅读，更多相关《Unicode字符全集.docx（14页珍藏版）》请在冰点文库上搜索。

Unicode字符全集.docx

Unicode字符全集

摩尔斯电码

　摩尔斯电码（又译为摩斯电码）是一种时通时断的信号代码，这种信号代码通过不同的排列顺序来表达不同的英文字母、数字和标点符号等。

它由美国人艾尔菲德·维尔发明。

艾尔菲德·维尔构思了一个方案，通过点、划和中间的停顿，可以让每个字元和标点符号彼此独立地发送出去。

作为一种信息编码标准，摩尔斯电码拥有其他编码方案无法超越的长久的生命。

摩尔斯电码在海事通讯中被作为国际标准一直使用到1999年。

1997年，当法国海军停止使用摩尔斯电码时，发送的最后一条消息是：

“所有人注意，这是我们在永远沉寂之前最后的一声呐喊！

”

字符

电码符号

字符

电码符号

字符

电码符号

字符

电码符号

．━

━．．．

━．━．

━．．

．

．．━．

━━．

．．．．

．．

．━━━

━．━

．━．．

━━

━．

━━━

．━━．

━━．━

．━．

．．．

━

．．━

．．．━

．━━

━．．━

━．━━

━━．．

数字

字符

电码符号

字符

电码符号

字符

电码符号

字符

电码符号

━━━━━

．━━━━

．．━━━

．．．━━

．．．．━

．．．．．

━．．．．

━━．．．

━━━．．

━━━━

ASCII

美国信息交换标准码（ASCII:

AmericanStandardCodeforInformationInterchange）起始于50年代后期，并最终在1967年定案。

最终的代码有26个小写字母，26个大写字母，10个数字，32个符号，33个控制代码和一个空格。

Bin

Dec

Hex

缩写/字符

解释

00000000

NUL（null）

空字符

00000001

SOH（startofheadling）

标题开始

00000010

STX（startoftext）

正文开始

00000011

ETX（endoftext）

正文结束

00000100

EOT（endoftransmission）

传输结束

00000101

ENQ（enquiry）

请求

00000110

ACK（acknowledge）

收到通知

00000111

BEL（bell）

响铃

00001000

BS（backspace）

退格

00001001

HT（horizontaltab）

水平制表符

00001010

LF（NLlinefeed,newline）

换行键

00001011

VT（verticaltab）

垂直制表符

00001100

FF（NPformfeed,newpage）

换页键

00001101

CR（carriagereturn）

回车键

00001110

SO（shiftout）

不用切换

00001111

SI（shiftin）

启用切换

00010000

DLE（datalinkescape）

数据链路转义

00010001

DC1（devicecontrol1）

设备控制1

00010010

DC2（devicecontrol2）

设备控制2

00010011

DC3（devicecontrol3）

设备控制3

00010100

DC4（devicecontrol4）

设备控制4

00010101

NAK（negativeacknowledge）

拒绝接收

00010110

SYN（synchronousidle）

同步空闲

00010111

ETB（endoftrans.block）

传输块结束

00011000

CAN（cancel）

取消

00011001

EM（endofmedium）

介质中断

00011010

SUB（substitute）

替补

00011011

ESC（escape）

溢出

00011100

FS（fileseparator）

文件分割符

00011101

GS（groupseparator）

分组符

00011110

RS（recordseparator）

记录分离符

00011111

US（unitseparator）

单元分隔符

00100000

（space）

空格

00100001

00100010

00100011

00100100

00100101

00100110

00100111

00101000

（

00101001

）

00101010

00101011

00101100

00101101

00101110

00101111

00110000

00110001

00110010

00110011

00110100

00110101

00110110

00110111

00111000

00111001

00111010

00111011

;

00111100

00111101

00111110

00111111

01000000

01000001

01000010

01000011

01000100

01000101

01000110

01000111

01001000

01001001

01001010

01001011

01001100

01001101

01001110

01001111

01010000

01010001

01010010

01010011

01010100

01010101

01010110

01010111

01011000

01011001

01011010

01011011

[

01011100

01011101

]

01011110

01011111

01100000

01100001

01100010

01100011

01100100

100

01100101

101

01100110

102

01100111

103

01101000

104

01101001

105

01101010

106

01101011

107

01101100

108

01101101

109

01101110

110

01101111

111

01110000

112

01110001

113

01110010

114

01110011

115

01110100

116

01110101

117

01110110

118

01110111

119

01111000

120

01111001

121

01111010

122

01111011

123

{

01111100

124

01111101

125

}

01111110

126

01111111

127

DEL（delete）

删除

ASCII是一个真正的美国标准，所以他不能很好的满足其他将英语的国家的需要。

例如英国的英镑符号（￡）就没有。

解决方案为代码页。

在小型机开发初期，就已经严格建立了8位字节。

因此，如果使用一个字节来保存字符，则可以由128个附加的字符来补充。

最低的128个代码总是相同的，较高的128个代码则取决于定义代码页的语言。

如果用户为PC键盘，显示卡，和打印机指定了一个代码页，然后在PC上创建、编辑和打印文档，一切都很正常，每件事都会保持一致。

然而，如果用户试图与使用不同代码页的用户交换文件，就会产生问题。

当然，应用程序可以通过将代码页信息与文档一起保存的方式来解决问题，但是且慢，更糟的事情还在后头。

在中国、日本和韩国的象形文字符号大约有21000个，如何容纳这些语言而仍保持和ASCII的某种兼容性呢。

解决方案为双字节字符集

双字节字符集（DBCS:

double-bytecharacterset）与其他代码页一样，最初的128个代码是ASCII，较高的128个代码中的某些总是跟随者第二个字节（称作首字节和跟随字节）。

这两个字节一起定义一个字符，通常是一个复杂的象形文字。

DBCS的问题在于不是每个字符都由两个字节代表，一些字符由一个字节表示，而另一些字符则由两个字符表示。

这会引起附加的编程问题。

例如，字符串中的字符数不能由字符串的字节数决定。

必须剖析字符串来决定其长度，而且必须检查每个字节以确定它是否为双字节字符。

令人惊讶的是这套机制，虽然对付，但仍被程序员所接受了，今天我们使用的C运行库函数都是在这套机制下编写的。

Unicode解决方案

我们面临的问题是世界上的书写语言不能简单地用256个8位代码表示。

怎么办？

用16位表示呗。

Unicode就是这样一个字符集，它的每个字符都是16位宽，而且最大的好处是，您将只需要操作一个字符集，因为Unicode字符集，涵盖了所有文字符号。

再也不用考虑代码页之间的转换问题了。

当然，Unicode也有缺点，那就是他的字符串占用的内存是ASCII的两倍。

char与wchar_t

即便使用Unicodechar数据类型仍然表示1个字节的存储空间

如果想定义一个两个字节宽度的字符存储空间需要使用wchar_t;

例如

charc=‘A’;

wchar_tc=L’A’;

注意紧挨的大写字母L,它将告诉编译器该字符按宽字符保存–即每个字符占用2个字节

char*p=“Hello”;

wchar_t*p=L”Hello”;

世界正在改变

我们现在尝试着获取字符串的长度

char*pc=“Hello!

”;

iLength=strlen（pc）;

字符串长度为6。

wchar_t*pw=L”Hello!

”;

再次调用strlen

iLength=strlen（pw）;

您会发现，iLength的值为1。

为什么？

字符串L”Hello!

”在内存中的格式为。

480065006C006C006F002100

strlen会把第一个字节作为字符开始计数，但接着下一个字节是0，则表示字符串结束。

你知道这意味这什么么？

如果想支持Unicode那就得重写所有的C运行库函数，当然也没有那么夸张，只要重写所有跟字符串有关的函数就可以了，而且好消息是，这些工作已经做完了。

想要获取一个宽字符的字节数只要调用wcslen就可以了

iLength=wcslen（pw）;

两套字符集一套维护代码

Unicode最大的缺点是程序中的每个字符串都将占用两倍的存储空间。

而且某些地区可能值支持ASCII并不支持Unicode（非常少见。

。

）

所以也许您希望建立两个版本的程序---一个处理ASCII字符串，另一个处理Unicode字符串。

虽然这是一个小问题，但由于运行库函数有不同的名称，您也要用不同的方式（charwchar_t）定义字符，而且宽字符字符串前面还需要加L。

解决办法是------宏

首先是字符串前面的L,我们可以使用TEXT（）宏来为我们解决这个问题。

#defineTEXT（x）L##x

#defineTEXT（x）x

##成为粘贴符号

不同的运行库函数名称，也可以通过这个方式解决

TCHAR

因为C++支持两种字符串，即常规的ANSI编码（使用""包裹）和Unicode编码（使用L""包裹），这样对应的就有了两套字符串处理函数，比如：

strlen和wcslen，分别用于处理两种字符串

1定义

2使用原理

1定义编辑

TCHAR是通过define定义的字符串宏[1]

2使用原理编辑

因为C++支持两种字符串，即常规的ANSI编码（使用""包裹）和Unicode编码（使用L""包裹），这样对应的就有了两套字符串处理函数，比如：

strlen和wcslen，分别用于处理两种字符串

微软将这两套字符集及其操作进行了统一，通过条件编译（通过_UNICODE和UNICODE宏）控制实际使用的字符集，这样就有了_T（""）这样的字符串，对应的就有了_tcslen这样的函数

为了存储这样的通用字符，就有了TCHAR：

当没有定义_UNICODE宏时，TCHAR=char，_tcslen=strlen

当定义了_UNICODE宏时，TCHAR=wchar_t，_tcslen=wcslen[1]

当我们定义了UNICODE宏，就相当于告诉了编译器：

我准备采用UNICODE版本。

这个时候，TCHAR就会摇身一变，变成了wchar_t。

而未定义UNICODE宏时，TCHAR摇身一变，变成了unsignedchar。

这样就可以很好的切换宽窄字符集。

tchar可用于双字节字符串，使程序可以用于中日韩等国语言文字处理、显示。

使编程方法简化。

展开阅读全文