1、概述
老师讲过:“计算机只认识0和1,所以我们写的程序需要经编译器译成由0和1构成的二进制格才能由计算机执行”。到由于最近10年内虚拟机以及大量建立再虚拟机之上的程序语言如雨后春笋般出现并蓬勃发展,将我们编写的程序编译成二进制本地机器码已不再是唯一的选择,越来越多的程序语言选择了与操作系统和机器指令集无关的、平台中立的格式作为程序编译后的存储格式。
java再诞生之时曾经提出一个非常著名的宣传口号:“一次编译,到处运行”,这句话充分表达了软件开发人员对冲破平台界限的渴求。
“与平台无关性”的理想最终实现在操作系统的应用层上,sun公司以及其他虚拟机提供商发布了许多可以运行在各种不同的虚拟机,这些虚拟机都可以载入和执行同一种平台无关的字节码,从而实现了程序的“一次编译,到处运行”。
各种不同平台的虚拟机与所有的平台都统一使用的程序存储格式--字节码(ByteCode)是构成平台无关性的基石。
语言无关性正在越来越被开发者所重视。到目前为止,或许大部分程序员都还认为Java虚拟机执行Java程序是一件理所当然和天经地义的事情。但是在java发展之初,设计者就曾经考虑过并实现了让其它语言运行在Java虚拟机之上的可能性。并且在1997年发布的第一版Java虚拟机规范中就i曾经承诺锅(在未来,我们会对Java虚拟机进行适当的扩展,以便更好的支持其他语言运行于JVM之上),JDK1.7开始就是兑现了这个承诺
时至今日,商业机构和开源机构已经在Java语言之外发展出一大堆在Java虚拟机之上运行的语言,如Clojure、Groovy、JRuby、Jython、Scala等。
实现语言无关性的基础仍然是虚拟机和字节码存储格式。Java虚拟机不和包括Java在内的任何语言绑定,它只与“Class文件”这种特定的二进制文件格式所关联,Class文件中包含了Java虚拟机指令集和符号表已经若干其他辅助信息。
2、Class类文件的结构
注意:任何一个Class文件都对应着唯一一个类或接口的定义信息,但是反过来说,类或接口并不一定都的定义在文件里(譬如类或接口也可以通过类加载器直接生成)
Class文件是一组以8位字节为基础单位的二进制流,各个数据项目严格按照顺序紧凑地排列在Class文件之中,中间没有添加任何分隔符,这使得整个Class文件中存储的内容几乎全部是程序运行必要的数据,没有空隙存在
根据Java虚拟机规范规定,Class文件格式采用一种类似于C语言结构体的伪结构来存储数据,这种伪结构中只有两种数据类型:无符号数和表1. 无符号数:无符号数属于基本的数据类型,以u1、u2、u4、u8来分别代表1个字节、2个字节、4个字节和8个字节的无符号数,无符号可以用来描述数字、索引引用、数量值或者按照UTF-8编码构成字符串值 1. 表:表是由多个无符号数或者其他表作为数据项构成的复合数据,所有表都习惯地以"_info"结尾。表用于描述有层次关系的复合结构的数据,整个Class文件本质就是一张表。复制代码无论是无符号数还是表,当需要描述同一类型但数量不定的多个数据时,经常会使用一个前置的容器计数器加若干个连续的数据项形式,这时称这一系列连续的某一个类型的数据为某一类型的集合
2.1.1、魔数与Class文件的版本
每个Class文件的头4个字节称为魔数,他的唯一作用就是确定这个文件是否为一个能被虚拟机接受的Class文件。
紧接着魔数得的4个字节存储的是Class文件的版本号:第5和第6字节是次版本号,第7和第8个字节是主版本号public class TestClass { private int m; public int inc() { return m + 1; }}复制代码
上图显示的是使用十六进制编辑器打开的上面代码生成的class文件,可以清楚的看见开头4个字节表示的是0xCAFEBABE,代码次版本号的第5个和第6个字节值为0x0000,而主版本号的值为0x0032,也即是十进制的50,该版本是可以被JDK1.6或以上版本虚拟机执行的Class文件。
2.1.2、常量池
紧接着主次版本号之后的是常量池入口,常量池可以理解为Class文件之中的资源仓库,它是Class文件结构中与其他项目关联最多的数据类型,也是占用Class文件空间最大的数据项目之一,同时他还是再Class文件中第一个出现的表类型数据项目。
由于常量池中常量的数量是不固定的,所以再常量池的入口需要放置一项u2类型的数据,代表常量池容量计数值。与Java中语言习惯不一样的是,这个容量计数是从1而不是从0开始。Class文件结构中只有常量池的容量计数是从1开始,对于其他集合类型,包括接口索引集合,字段表集合,方法表集合等的容量计数都与一般习惯相同,是从0开始的。上图,常量池容量为十六进制0x0016,即十进制的22,这是代表常量池中有21项常量,索引值为1~21
常量池中主要存在两大类常量:字面量和符号引用字面量比较接近与java语言层面的常量概念,如文本字符串、声明为final的常量值等。而符号引用则属于编译原理方面的概念包,包括了下面三类常量:
类和接口的全限定名 |
---|
字段的名称和描述符 |
方法的名称和描述符 |
Java代码在进行Javac编译的时候,是在虚拟机加载Class文件的时候进行动态连接,也就是说,在Class文件中不会保存各个方法、字段的最终内存布局信息,因此这些字段、方法的符号引用不经过运行期转行的话无法等到真正的内存入口地址,也就无法直接被虚拟机使用。当虚拟机运行时,需要从常量池获得对应的符号引用,再在类创建时或运行时解析到具体的内存地址之中。
常量池中每一项常量都是一个表,在JDK1.7之前共有11种结构不相同的表结构数据。在JDK1.7中为了更好的支持动态语言调用,又额外增加了3种。如下图