Java虚拟机Word文件下载.docx

资源描述

Java虚拟机Word文件下载.docx

《Java虚拟机Word文件下载.docx》由会员分享，可在线阅读，更多相关《Java虚拟机Word文件下载.docx（15页珍藏版）》请在冰点文库上搜索。

Java虚拟机Word文件下载.docx

使用过这些语言的开发者可能还不是非常多，但是听说过的人肯定已经不少，随着时间的推移，谁能保证日后Java虚拟机在语言无关系上的优势不会赶超上甚至超越它在平台无关性上的优势呢？

实现语言无关性的基础仍然是虚拟机和字节码存储格式，使用Java虚拟器可以把Java代码编译为存储字节码的Class文件，使用JRuby等其他语言的编译器一样可以把程序代码编译成Class文件，虚拟机并不关心Class的来源是什么语言，只要它符合Class文件应有的格式就可以在Java虚拟机中运行，如果6-1所示。

Java语言中的各种变量、关键字和运算符号的语义最终都是由多字节码命令组合而成的，因此字节码命令所能提供的语言描述能力肯定会比Java语言本身更强大。

因此，有一些Java语言本身无法有效支持的语言特性并不代表字节码本身无法有效支持，这也有其他语言实现一些有别于Java的语言特性提供了基础。

6.3Class类文件的结构

解析Class文件的数据结构是本章的最主要内容。

笔者曾经在前言中阐述过本书的写作风格：

力求在保证逻辑准确的前提下，用尽量通俗的语言和案例去讲述虚拟机与开发关系最为密切的内容。

但是，对数据结构方面的讲解不可避免会比较枯燥，而这个部分内容又是了解虚拟机的重要基础之一。

如果想比较深入地了解虚拟机，这部分是不能不接触的。

Class文件是一组以8位字节为基础单位的二进制流，各个数据项目严格按照顺序紧凑地排列在Class文件之中，中间没有添加任何分隔符，这使得整个Class文件中存储的内容几乎全部都是程序运行的必要数据，没有空隙存在。

当遇到需要占用8位字节以上空间的数据项时，则会按照高位在前的方式分割成若干个8位字节进行存储。

根据Java虚拟机规范的规定，Class文件格式采用一种类似于C语言结构体的伪结构来存储，这种伪结构中只有两种数据类型：

无符号数和表，后面的解析都要以这两种数据类型为基础，所以这里要先讲明白这两个概念。

无符号数属于基本的数据类型，以U1,U2,U4,U8来分别代表1个字节、2个字节、4个字节和8个字节的无符号数，无符号数可以用来描述数字、索引引用、数量值，或者按照UTF-8编码构成字符串值。

表是由多个无符号数或其他表作为数据项构成的复合数据类型，所有表都习惯性地以“_info”结尾。

表用于描述有层次关系的复合结构的数据，整个Class文件本质上就是一张表，它由表6-1所示的数据构成。

无论是无符号数还是表，当需要描述同一类型单数量不定的多个数据时，经常会使用一个前置的容量计数器加若干个连续的数据项的形式，这时候称这一系列连续的某一个类型的数据为某一类型的集合。

本节结束之前，笔者需要再重复一下，Class的结构不像XML等描述语言，由于它没有任何分割符号，所有在表6-1中的数据项，无论是顺序还是数量，都是被严格限定的那个字节代表什么含义，长度是多少，先后顺序如何，都不允许改变。

接下来我们将一起看看这个表中各个数据项的具体含义。

6.3.1魔数与Class文件的版本

每个Class文件的头4个字节称为魔数（MagicNumber）,它的唯一作用是用于确定这个文件是否为一个能被虚拟机接收的Class文件。

很多文件存储标准中都使用魔数来进行身份识别，譬如图片格式，如gif或jpeg等在文件头中都存有魔数。

使用魔数而不是扩展名来进行识别主要是基于安全考虑，因为文件扩展名可以很随意地被改动。

文件格式的制作者可以自由选择魔数值，只要这个魔数值还没有被广泛采用过而且不会引起混淆即可。

Class文件的魔数的获得很有“浪漫气息”，值为：

0xCAFEBABE（咖啡宝贝？

），这个魔数在Java还被称做“Oak”语言的时候（大约是1991年前后）就已经确定下来了。

它还有一段很有趣的历史，据Java开发小组最初的关键成员PatrickNaughton所说：

“我们一直在寻找一些好玩的、容易记忆的东西，选择0xCAFEBABE是因为它象征着著名咖啡品牌peet'

sCoffee中深受欢迎的Baristas咖啡“，这个魔数似乎也预示着日后”Java“这个，名字的出现。

紧接着魔数的4个字节存储的是Class文件的版本号：

第5和第6个字节是次版本号（MinorVersion），第7个和第8个字节是主版本号（MajorVersion）。

Java的版本号是从45开始的，JDK1.1之后的每个JDK大版本发布主版本号向上加1（JDK1.0~1.1使用了45.0~45.3的版本号），高版本的JDK能向下兼容以前版本的Class文件，但不能运行以后版本的Class文件，即使文件格式并未发生变化。

JDK1.1能支持版本号为45.0~45.65535的Class，无法执行版本号位4.6以上的Class，而JDK1.2则能支持45.0~46.65535的Class文件。

现在，最新的JDK版本为1.7，可生成的Class文件主版本号的最大值为51.0。

为了讲解方便，笔者准备了一段最简单的Java代码（如代码清单6-1所示）本章后面的讲解都是将以这段小程序使用JDK1.6编译输出的Class文件为基础来讲解。

代码清单6-1简单的Java代码

packageorg.fenixsoft.class;

publicclassTestClass{

privateintm;

publicintinc（）{

returnm+1;

}

图6-2线速度是使用十六进制编译器WinHex打开这个Class文件的结果，可以清楚地看到开头4个字节的十六进制表示的是0xCAFEBABE，代表次版本号的第5个和第6个字节值为0x0000,而主版本号的值为0x0032,即十进制的50，该版本号说明这个是可以被JDK1.6或以上版本的虚拟机执行的Class文件。

表6-2列举了从JDK1.1到1.7之间，主流JDK版本编译器输出的默认和可支持的Class文件编号。

6.3.2常量池

紧接着主次版本号之后的是常量池入口，常量池是Class文件结构中与其他项目关联最多的数据类型，也是占用Class文件空间最大的数据项目之一，同时它还是在Class文件中第一个出现的表类型数据项目。

由于常量池中常量的数量是不固定的，所以在常量池的入口需要放置一项u2类型的数据，代表常量计数似乎从1而不是0开始的，如图6-3所示，常量池容量（偏移地址：

0x00000008）为十六进制数0x0016,即十进制的22，这就代表常量池中有21项常量，索引值为1~21。

指定Class文件格式规范时，将第0项常量空出来是有特殊考虑的，这样做是为了满足后面某些指向常量池的索引值的数据在特定情况下需要表达”不引用任何一个常量池项目“的意思，这种情况就可以把索引位置为0来表示。

Class文件结构中只有常量池的容量计数是从1开始的，对于其他集合类型，包括接口索引集合、字段表集合、方法表集合等的容量计数都与一般习惯相同，是从0开始的。

常量池之中主要存放两大类常量：

字面量（Literal）和符号引用（SymbolicReferences）。

字面量比较接近于Java语言层面的常量概念，如文本字符串、被声明为final的常量值等。

而符号引用则属于编译原理方面的概念，包括了下面三类常量：

*类和接口的全限定名（FullyQualifiedName）

*字段的名称和描述符（Descriptor）

*方法的名称和描述符

Java代码在进行Javac编译的时候，并不像C和C++那样有”连接“这一步骤，而是在虚拟机加载Class文件的时候进行动态连接。

也就是说，Class文件中不会保存各个方法和字段的最终内存布局信息，因此这些字段和方法的符合引用不经过转换的话是无法直接被虚拟机使用的。

当虚拟机运行时，需要从常量池获得对应的符合引用，再在类创建时或运行时解析并翻译到具体的内存地址之上。

关于类的创建和动态连接的内容，在下一章会有详细的讲解。

常量池中的每一项常量都是一个表，共有11种结构各不相同的表结构数据，这11中表都有一个共同的特点，就是表开始的第一位是一个u1类型的标志位（tag,取值为1至12，缺少标志位2的数据类型），代表当前中国常量属于哪个常量类型，11种常量类型所代表的具体含义如表6-3所示。

之所以说常量池是最繁琐的数据，是因为这11种常量类型各自均有自己的结构。

回头看看图6-3中常量池的第一项常量，它的标志位（偏移地址：

0x0000000A）是0x07,查看表6-3的标志列会发现这个常量属于CONSTANT_Class_info类型，此类型的常量代表一个类或接口的符合引用。

CONSTANT_Class_info的结构比较简单，如表6-4所示。

tag是标志位，上面已经讲解过了；

name_index是一个索引值，它指向常量池中一个CONSTANT_Utf8_info类型的常量，此常量代表了这个类（或者接口）的全限定名，这里的name_index值（值偏移地址：

0x0000000B）为0x0002,即指向了常量池中的第二项常量。

继续从图6-3中查找第二项常量，它在标志位（地址：

0x0000000D）是0x1查看表6-3可知确实是一个CONSTANT_Utf8_info类型的常量。

CONSTANT_Utf8_info类型的结构如表6-5所示。

length值说明了这个UTF-8编码的字符串长度是多少字节，它后面紧跟着的长度为length字节的连续数据是一个使用UTF-8缩略编码表示的字符串。

UTF-8缩略编码与普通UTF-8编码的区别是：

从‘\u0001’到‘\u007f’之间的字符（相对于1~127的ASCII码）的缩略编码使用一个字符表示，从‘\u0080’到‘\u07ff’之间的所有字符的缩写编码用两个字符表示，从‘\u0800’开始到‘\ufff’之间的所有字符的缩略编码就按照普通UTF-8编码规则使用三个字符表示。

顺便提一下，由于Class文件中方法、字段等都需要引用CONSTANT_Utf8_info型常量来描述名称，所有CONSTANT_Utf8_info型常量的最大长度也就是Java中方法和字段名的最大长度。

而这里的最大长度就是length的最大值，即u2类型能表达的最大值65535。

所以Java程序中如果定义了超过64KB英文字符的变量或方法名，将会无法编译。

本例中这个字符串的length值（偏移地址：

0x0000000E）为0x001D,也就是长29个字节，往后29个字节正好都在1~127的ASCII码范围以内，内容为”org/fenixsoft/class/TestClass“,有兴趣的读者可以自己逐个字节换算一下，换算结果如果6-4选中的部分所示。

到此为止，我们分析了TestClass.class常量池中21个常量中的两个，其余的19个常量都可以通过类似的方法计算出来。

为了避免计算过程占用过多的版面，后续的19个常量的计算过程可以借助计算机来帮我们完成。

在JDK的bin目录中，Oracle公司已经为我们准备好一个专门用于分析Class文件字节码的工具：

javap，代码清单6-2中列出了使用javap工具-verbose参数输出TestClass.class文件的字节码内容（此清单中缩略了常量池以外的信息）。

前面我们曾经提到过Class文件中还有很多数据项都要引用常量池中的常量，所有代码清单6-2中的内容子啊后续的讲解之中还要经常使用到。

从代码清单6-2中可以看到计算机已经帮我们把整个常量池的21项常量都计算了出来，并且第1、2项常量的计算结果与我们手工计算的结果一致。

仔细看一下会发现，其中有一些常量似乎从来从来没有在代码中出现过，如”I“、”V“、”<

init>

“、"

LineNumberTable"

、"

LocalVariableTable"

等，这些看起来在代码任何一处都没有出现过的常量是哪里来的？

这部分自动生成的常量的确没有在Java代码里面直接出现过，但它们会被后面即将讲到的字段表（field_info）、方法表（method_info）、属性表（attribute_info）所引用到，它们会被用来描述一些不方便使用”固定字节“来表达的内容。

譬如描述方法的返回值是什么？

有几个参数？

每个参数的类型是什么？

因为Java中的”类“是无穷无尽的，无法通过简单的无符号字节来描述一个方法用到了什么类，因此在描述方法的这些信息时，需要引用常量表中的符号引用进行表达。

这部分内容将在后面作进一步的详细阐述。

最后，笔者将11种常量的结构定义总结为表6-6所示。

6.6.3访问标志

在常量池结束之后，紧接着的2个字节代表访问标志（access_flage）,这个标志用于识别一些类或接口层次的访问信息，包括：

这个Class是类还是接口；

是否定义为public类型；

是否定义为abstract类型；

如果是类的话，是否别声明为final,等等。

具体的标志位及标志的含义见表6-7。

access_flags中一共有32个标志位可以使用，当前只定义了其中的8个，没有使用到的标志位要求一律为0。

以代码清单6-1中的代码为例，TestClass这个类被public关键字修饰但没有被声明为final和abstract，并且它使用了JDK1.2之后的编译器进行编译，因为它的ACC_PUBLIC、ACC_SUPER标志应当为真，而ACC_FINAL、ACC_INTERFACE、ACC_ABSTRACT、ACC_SYNTHETIC、ACC_ANNOTATION、ACC_ENUM这六个标志应当为假，因此它的access_flags的值应为：

0x0001|0x0020=0x0021从图6-5中可以看到，access_flags标志（偏移地址：

0x000000EF）的确为0x0021.

6.3.4类索引、父类索引与接口索引集合

类索引（this_class）和父类索引（super_class）都是一个u2类型的数据，而接口索引集合（interfaces）是一组u2类型的数据的集合，Class文件中由这三项数据来确定这个类的继承关系。

类索引用于确定这个类的全限定名，父类索引用于确定这个类的父类的全限定名。

由于Java语言不允许多重继承，所以父类索引只有一个，除了java.lang.Object之外，所有的Java类都有父类，因此除了java.lang.Object外，所有Java类的父类索引都不为0，接口索引集合就用来描述这个类实现了哪些接口，这些被实现的接口将按implements语句（如果这个类本身是一个接口，则应当是extends语句）后的接口顺序从左到右排列在接口的索引集合中。

类索引、父类索引和接口索引集合都按顺序排列在访问标志之后，类索引和父类索引用两个u2类型的索引值表示，它们各自指向一个类型为CONSTANT_Class_info的类描述符常量，通过CONSTANT_Class_info类型的常量中的索引值可以找到定义在CONSTANT_Utf8_info类型的常量中的全限定名字符串。

图6-6演示了代码清单6-1的代码的类索引查找过程。

对于接口索引集合，入口的第一项——u2类型的数据为接口计数器（interfaces_count）,表示索引表的容量。

如果该类没有实现任何接口。

那么该计数器值为0，后面接口的索引表不在占用任何字节。

代码清单6-1中的代码的类索引、父类索引与接口表索引的内容如图6-7所示。

从偏移地址0x000000F1开始的3个u2类型的值分别为0x0001、0x0003、0x0000、也就是类索引为1，父类索引为3，接口索引集合大小为0，查询前面代码清单6-2中javap命令计算出来的常量池，找到对应的类和父类的常量，结果如代码清单6-3所示。

6.3.5字段表集合

字段表（field_info）用于描述接口或类中声明的变量。

字段（field）包括了类级变量或实例级变量，但不包括在方法内部声明的变量。

我们可以想一想在Java中描述一个字段可以包含什么信息？

可以包含的信息有：

字段的作用域（public、private、protected修饰符）、是类级变量还是实例级变量（static修饰符）、可变性（final）、并发可见性（volatile修饰符，是否强制从主内存读写）、可否序列化（transient修饰符）、字段数据类型（基础类型、对象、数组）、字段名称。

这些信息中，各个修饰符都是布尔值，要么有某个修饰符，要么没有，很适合使用标志位来表示。

而字段叫什么名字、字段被定义为什么数据类型，要么没有，很适合使用标志位来表示。

而字段叫什么名字、字段被定义为什么数据类型，这些都是无法固定的，只能引用常量池中的常量来描述。

表6-8中列出了字段表的最终格式。

字段修饰符放在access_flags项目中，它与类中的access_flags项目是非常类似的，都是一个u2的数据类型，其中可以设置的标志位和含有如表6-9所示。

很显然，在实际情况中，ACC_PUBLIC、ACC_PRIVATE、ACC_PROTECTED三个标识最多只能选择其一，ACC_FINAL、ACC_VOLATILE不能同时选择。

接口之中的字段必须有ACC_PUBLIC、ACC_STATIC、ACC_FINAL标志，这些都是有Java本身的语言规则所决定的。

跟随access_flags标志的是两项索引值：

name_index和descriptor_index。

它们都是对常量池的引用，分别代表着字段的简单名称及字段和方法的描述符。

现在需要解释一下”简单名称“、”描述符“及前面出现过多次的”全限定名“这三种特殊字符串的概念。

全限定名和简单名称很好理解，以代码清单6-1中的代码为例，”org/fenixsoft/clazz/TestClass“是这个类的全限定名，仅仅是把类全名中的”.“替换成了”/“而已，为了使连续的多个全限定名之间不产生混淆，在使用时最后一般会加入一个”；

“号表示全限定名结束。

简单名称则就是指没有类型和参数修饰的方法或字段名称，这个类中的inc（）方法和m字段的简单名称是“inc”和“m”。

相对于全限定名的简单名称来说，方法和字段的描述符就要复杂一些。

描述符的作用是用来描述字段的数据类型、方法的参数列表（包括数量、类型以及顺序）和返回值。

根据描述符规则，基本数据类型（byte、char、double、）

展开阅读全文