На хабре уже есть статья про java байткод. Я решил ее немного дополнить и в меру сил развить тему. Мне кажется довольно логичным разобрать простейшее приложение на Java. А что может быть проще «Hello world»?
Для своего эксперимента я создал директорию src, куда в папку hello положил файл App.java:
Скопилируем файл командой:
javac src/hello/App.java -d classes/
На выходе в папке classes у меня появился файл App.class Для начала сравним размеры java и class файлов.
App.java 139B
App.class 418B
Это было неожиданно. Мне почему-то казалось, что скомпилированный файл должен быть меньше. Попытаюсь открыть class файл:
hexdump App.class
Довольно непривычный вид для Java кода. Попробуем с помощью описание формата class файлов понять, что здесь закодировано.
Это 4 байта для magic, который определяет формат файла.
minor version — Минорная версия как следует из названия
major version — 2 байта под мажорную версию.
Сочетание minor и major version говорит о том, что я компилировал этот код с помощью J2SE 8.
Эти два байта представляют constant_pool_count и отвечают за размер constant_pool. В моем случае count равен 29, а размер пула, соответственно 28. Дальше идут элементы вида:
cp_info {
u1 tag; // 1 байт на тег
u1 info[]; // массив с описанием
}
Рассмотрим элементы в constant_pool.
1-ый элемент:
Этот тег соответствует CONSTANT_Methodref, а значит дальше должно быть описание:
CONSTANT_Methodref_info {
u1 tag;
u2 class_index;
u2 name_and_type_index;
}
соответственно:
class_index, указывает на 6 элемент в constant_pool
name_and_type_index, указывает на 15 элемент в constant_pool
Пока не понятно, на какой метод указывает эта ссылка и мы идем дальше:
2-ой элемент:
Это CONSTANT_Fieldref, а значит дальше ищем:
CONSTANT_Fieldref_info {
u1 tag;
u2 class_index;
u2 name_and_type_index;
}
И тут все очень похоже на предыдущий элемент, хотя не понятно что это за поле, в своем классе я вроде ничего такого не объявлял.
class_index в 16 элементе
name_and_type_index в 17 элементе
3-ий элемент:
tag для CONSTANT_String
И по:
получаем, что самое интересное лежит в 18 элементе:
4-ый элемент:
Tag соответствующий ссылке на метод:
класс которого описан в 19 элементе
a название и тип в 20 элементе:
5-ый элемент:
Tag для CONSTANT_Class
название, которого в 21 элементе
6-ой элемент:
Cнова CONSTANT_Class
c названием в 22 элементе
Как мы помним 1-ый элемент constant_pool относится к этому классу.
7-ой элемент:
tag, CONSTANT_Utf8, первая строчка
Она должна соответствовать:
CONSTANT_Utf8_info {
u1 tag;
u2 length;
u1 bytes[length];
}
Тогда длина нашей строчки 6 байт:
А значение "<init>":
Это особое название, так помечаются конструкторы.
8-ой элемент:
CONSTANT_Utf8
строчка длины 3 — "()V":
Это описание нашего конструктора без параметров, который был упомянут в седьмом элементе.
9-ый элемент:
CONSTANT_Utf8
Строка «Code»:
10-ый элемент:
Строка LineNumberTable
11-ый элемент
«main»:
12-ый элемент
"([Ljava/lang/String;)V"
13-ый элемент
«SourceFile»
14-ый элемент
«App.java»:
15-ый элемент
Tag, соответствует CONSTANT_NameAndType
а значит нам понадобится
CONSTANT_NameAndType_info {
u1 tag;
u2 name_index;
u2 descriptor_index;
}
и тогда:
ссылка на 7 элемент
ccылка на 8 элемент
Учитывая что первый элемент ссылался на это, мы можем заключить что первым был объявлен конструктор класса без параметров. Название класса, мы должны найти в 22 элементе.
16-ый элемент:
Tag, для CONSTANT_Class
c названием в 23 элементе
17-ый элемент:
Tag, CONSTANT_NameAndType, со ссылкой на 24 и 25 элемент constant_pool
18-ый элемент:
Ура «Hello world!»
19-ый элемент:
Tag, для CONSTANT_class c названием в 25-ом элементе
20-ый элемент:
Tag CONSTANT_NameAndType cо ссылкой на 27 и 28 элемент
21-ый элемент:
«hello/App»
22-ой элемент:
«java/lang/Object»
23-ий элемент:
«java/lang/System»
24-ый элемент:
«out»
25-ый элемент:
«Ljava/io/PrintStream;»
26-ой элемент:
«java/io/PrintStream»
27-ой элемент:
«println»
28-ой элемент:
"(Ljava/lang/String;)V"
На этом таблица constant_pool заканчивается. Дальше идут
access_flags docs.oracle.com/javase/specs/jvms/se7/html/jvms-4.html#jvms-4.1-200-E.1
this_class
super_class
methods_count у нас 2 метода в классе, конструктор по умолчанию и метод main:
Method 1 — Constructor
Attribute 1
Один из самых интересных аттрибутов с кодом нашего метода code[code_length], разбор инструкций отдельная большая тема:
Аттрибут закончился и продолжается описание метода
Method 2 — main
Attribute 1 код метода main
code[code_length]
Описание методов закончено и идет описание атрибутов класса
Теперь когда мы закончили с по-байтовым разбором class файла, становится понятно как работает:
javap -c -s -verbose classes/hello/App.class
Он автоматически выводит тоже самое, что я выписал руками:
А вот здесь можно посмотреть пример разбора class файла:
Для своего эксперимента я создал директорию src, куда в папку hello положил файл App.java:
package hello;
public class App {
public static void main(String[] args) {
System.out.println("Hello world!");
}
}
Скопилируем файл командой:
javac src/hello/App.java -d classes/
На выходе в папке classes у меня появился файл App.class Для начала сравним размеры java и class файлов.
App.java 139B
App.class 418B
Это было неожиданно. Мне почему-то казалось, что скомпилированный файл должен быть меньше. Попытаюсь открыть class файл:
hexdump App.class
0000000 ca fe ba be 00 00 00 34 00 1d 0a 00 06 00 0f 09
0000010 00 10 00 11 08 00 12 0a 00 13 00 14 07 00 15 07
0000020 00 16 01 00 06 3c 69 6e 69 74 3e 01 00 03 28 29
0000030 56 01 00 04 43 6f 64 65 01 00 0f 4c 69 6e 65 4e
0000040 75 6d 62 65 72 54 61 62 6c 65 01 00 04 6d 61 69
0000050 6e 01 00 16 28 5b 4c 6a 61 76 61 2f 6c 61 6e 67
0000060 2f 53 74 72 69 6e 67 3b 29 56 01 00 0a 53 6f 75
0000070 72 63 65 46 69 6c 65 01 00 08 41 70 70 2e 6a 61
0000080 76 61 0c 00 07 00 08 07 00 17 0c 00 18 00 19 01
0000090 00 0c 48 65 6c 6c 6f 20 77 6f 72 6c 64 21 07 00
00000a0 1a 0c 00 1b 00 1c 01 00 09 68 65 6c 6c 6f 2f 41
00000b0 70 70 01 00 10 6a 61 76 61 2f 6c 61 6e 67 2f 4f
00000c0 62 6a 65 63 74 01 00 10 6a 61 76 61 2f 6c 61 6e
00000d0 67 2f 53 79 73 74 65 6d 01 00 03 6f 75 74 01 00
00000e0 15 4c 6a 61 76 61 2f 69 6f 2f 50 72 69 6e 74 53
00000f0 74 72 65 61 6d 3b 01 00 13 6a 61 76 61 2f 69 6f
0000100 2f 50 72 69 6e 74 53 74 72 65 61 6d 01 00 07 70
0000110 72 69 6e 74 6c 6e 01 00 15 28 4c 6a 61 76 61 2f
0000120 6c 61 6e 67 2f 53 74 72 69 6e 67 3b 29 56 00 21
0000130 00 05 00 06 00 00 00 00 00 02 00 01 00 07 00 08
0000140 00 01 00 09 00 00 00 1d 00 01 00 01 00 00 00 05
0000150 2a b7 00 01 b1 00 00 00 01 00 0a 00 00 00 06 00
0000160 01 00 00 00 03 00 09 00 0b 00 0c 00 01 00 09 00
0000170 00 00 25 00 02 00 01 00 00 00 09 b2 00 02 12 03
0000180 b6 00 04 b1 00 00 00 01 00 0a 00 00 00 0a 00 02
0000190 00 00 00 06 00 08 00 07 00 01 00 0d 00 00 00 02
00001a0 00 0e
00001a2
Довольно непривычный вид для Java кода. Попробуем с помощью описание формата class файлов понять, что здесь закодировано.
ca fe ba be
Это 4 байта для magic, который определяет формат файла.
00 00
minor version — Минорная версия как следует из названия
00 34
major version — 2 байта под мажорную версию.
Сочетание minor и major version говорит о том, что я компилировал этот код с помощью J2SE 8.
00 1d
Эти два байта представляют constant_pool_count и отвечают за размер constant_pool. В моем случае count равен 29, а размер пула, соответственно 28. Дальше идут элементы вида:
cp_info {
u1 tag; // 1 байт на тег
u1 info[]; // массив с описанием
}
Рассмотрим элементы в constant_pool.
1-ый элемент:
0a
Этот тег соответствует CONSTANT_Methodref, а значит дальше должно быть описание:
CONSTANT_Methodref_info {
u1 tag;
u2 class_index;
u2 name_and_type_index;
}
соответственно:
00 06
class_index, указывает на 6 элемент в constant_pool
00 0f
name_and_type_index, указывает на 15 элемент в constant_pool
Пока не понятно, на какой метод указывает эта ссылка и мы идем дальше:
2-ой элемент:
09
Это CONSTANT_Fieldref, а значит дальше ищем:
CONSTANT_Fieldref_info {
u1 tag;
u2 class_index;
u2 name_and_type_index;
}
И тут все очень похоже на предыдущий элемент, хотя не понятно что это за поле, в своем классе я вроде ничего такого не объявлял.
00 10
class_index в 16 элементе
00 11
name_and_type_index в 17 элементе
3-ий элемент:
08
tag для CONSTANT_String
И по:
CONSTANT_String_info {
u1 tag;
u2 string_index;
}
получаем, что самое интересное лежит в 18 элементе:
00 12
4-ый элемент:
0a
Tag соответствующий ссылке на метод:
класс которого описан в 19 элементе
00 13
a название и тип в 20 элементе:
00 14
5-ый элемент:
Tag для CONSTANT_Class
07
название, которого в 21 элементе
00 15
6-ой элемент:
Cнова CONSTANT_Class
07
c названием в 22 элементе
00 16
Как мы помним 1-ый элемент constant_pool относится к этому классу.
7-ой элемент:
tag, CONSTANT_Utf8, первая строчка
01
Она должна соответствовать:
CONSTANT_Utf8_info {
u1 tag;
u2 length;
u1 bytes[length];
}
Тогда длина нашей строчки 6 байт:
00 06
А значение "<init>":
3c 69 6e 69 74 3e
Это особое название, так помечаются конструкторы.
8-ой элемент:
CONSTANT_Utf8
01
строчка длины 3 — "()V":
00 03
28 29 56
Это описание нашего конструктора без параметров, который был упомянут в седьмом элементе.
9-ый элемент:
CONSTANT_Utf8
01
Строка «Code»:
00 04
43 6f 64 65
10-ый элемент:
Строка LineNumberTable
01
00 0f
4c 69 6e 65 4e 75 6d 62 65 72 54 61 62 6c 65
11-ый элемент
«main»:
01
00 04
6d 61 69 6e
12-ый элемент
"([Ljava/lang/String;)V"
01
00 16
28 5b 4c 6a 61 76 61 2f 6c 61 6e 67 2f 53 74 72 69 6e 67 3b 29 56
13-ый элемент
«SourceFile»
01
00 0a
53 6f 75 72 63 65 46 69 6c 65
14-ый элемент
«App.java»:
01
00 08
41 70 70 2e 6a 61 76 61
15-ый элемент
Tag, соответствует CONSTANT_NameAndType
0c
а значит нам понадобится
CONSTANT_NameAndType_info {
u1 tag;
u2 name_index;
u2 descriptor_index;
}
и тогда:
ссылка на 7 элемент
00 07
ccылка на 8 элемент
00 08
Учитывая что первый элемент ссылался на это, мы можем заключить что первым был объявлен конструктор класса без параметров. Название класса, мы должны найти в 22 элементе.
16-ый элемент:
Tag, для CONSTANT_Class
07
c названием в 23 элементе
00 17
17-ый элемент:
Tag, CONSTANT_NameAndType, со ссылкой на 24 и 25 элемент constant_pool
0c
00 18
00 19
18-ый элемент:
Ура «Hello world!»
01
00 0c
48 65 6c 6c 6f 20 77 6f 72 6c 64 21
19-ый элемент:
Tag, для CONSTANT_class c названием в 25-ом элементе
07
00 1a
20-ый элемент:
Tag CONSTANT_NameAndType cо ссылкой на 27 и 28 элемент
0c
00 1b
00 1c
21-ый элемент:
«hello/App»
01
00 09
68 65 6c 6c 6f 2f 41 70 70
22-ой элемент:
«java/lang/Object»
01
00 10
6a 61 76 61 2f 6c 61 6e 67 2f 4f 62 6a 65 63 74
23-ий элемент:
«java/lang/System»
01
00 10
6a 61 76 61 2f 6c 61 6e 67 2f 53 79 73 74 65 6d
24-ый элемент:
«out»
01
00 03
6f 75 74
25-ый элемент:
«Ljava/io/PrintStream;»
01
00 15
4c 6a 61 76 61 2f 69 6f 2f 50 72 69 6e 74 53 74 72 65 61 6d 3b
26-ой элемент:
«java/io/PrintStream»
01
00 13
6a 61 76 61 2f 69 6f 2f 50 72 69 6e 74 53 74 72 65 61 6d
27-ой элемент:
«println»
01
00 07
70 72 69 6e 74 6c 6e
28-ой элемент:
"(Ljava/lang/String;)V"
01
00 15
28 4c 6a 61 76 61 2f 6c 61 6e 67 2f 53 74 72 69 6e 67 3b 29 56
На этом таблица constant_pool заканчивается. Дальше идут
access_flags docs.oracle.com/javase/specs/jvms/se7/html/jvms-4.html#jvms-4.1-200-E.1
00 21
this_class
00 05
super_class
00 06
00 00 // interfaces_count
00 00 // fields_count
methods_count у нас 2 метода в классе, конструктор по умолчанию и метод main:
00 02
Method 1 — Constructor
00 01 - access_flags
00 07 - name_index
00 08 - descriptor_index
00 01 - attributes_count
Attribute 1
00 09 // name_index (Code)
00 00 00 1d // attribute_length
00 01 // max_stack
00 01 // max_locals
00 00 00 05 // code_length
Один из самых интересных аттрибутов с кодом нашего метода code[code_length], разбор инструкций отдельная большая тема:
2a // aload_0
b7 00 01 // invokespecial (Запустить первый метод в constant_pool)
b1 // return
Аттрибут закончился и продолжается описание метода
00 00 // exception_table_length
00 01 // attributes_count
00 0a // attribute_name_index (LineNumberTable - 10 элемент)
00 00 00 06 // attribute_length
00 01 // line_number_table_length
00 00 // start_pc
00 03 // line_number
Method 2 — main
00 09 // access_flags
00 0b // name_index
00 0c // descriptor_index
00 01 // atributes_count
Attribute 1 код метода main
00 09 // name_index (Code)
00 00 00 25 // attribute_length
00 02 // max_stack
00 01 // max_locals
00 00 00 09 // code_length
code[code_length]
b2 00 02 // getstatic 2, распутывая цепочку будет java.lang.System
12 03 // ldc 3
b6 00 04 // invokevirtual 4
b1 // return
00 00 // exception_table_length
00 01 // attributes_count
00 0a // attribute_name_index (LineNumberTable - 10 элент)
00 00 00 0a // attribute_length
00 02 // line_nuber_table_length
00 00 // start_pc
00 06 // line_number
00 08 // start_pc
00 07 // line_number
Описание методов закончено и идет описание атрибутов класса
00 01 // attributes_count
00 0d // name_index (SourceFile)
00 00 00 02 // attributes_length
00 0e // sourcefile_index(App.java)
Теперь когда мы закончили с по-байтовым разбором class файла, становится понятно как работает:
javap -c -s -verbose classes/hello/App.class
Он автоматически выводит тоже самое, что я выписал руками:
Classfile /.../classes/hello/App.class
Last modified Aug 14, 2015; size 418 bytes
MD5 checksum e9d96126a9f5bbd95f154f1a40d46b53
Compiled from "App.java"
public class hello.App
minor version: 0
major version: 52
flags: ACC_PUBLIC, ACC_SUPER
Constant pool:
#1 = Methodref #6.#15 // java/lang/Object."<init>":()V
#2 = Fieldref #16.#17 // java/lang/System.out:Ljava/io/PrintStream;
#3 = String #18 // Hello world!
#4 = Methodref #19.#20 // java/io/PrintStream.println:(Ljava/lang/String;)V
#5 = Class #21 // hello/App
#6 = Class #22 // java/lang/Object
#7 = Utf8 <init>
#8 = Utf8 ()V
#9 = Utf8 Code
#10 = Utf8 LineNumberTable
#11 = Utf8 main
#12 = Utf8 ([Ljava/lang/String;)V
#13 = Utf8 SourceFile
#14 = Utf8 App.java
#15 = NameAndType #7:#8 // "<init>":()V
#16 = Class #23 // java/lang/System
#17 = NameAndType #24:#25 // out:Ljava/io/PrintStream;
#18 = Utf8 Hello world!
#19 = Class #26 // java/io/PrintStream
#20 = NameAndType #27:#28 // println:(Ljava/lang/String;)V
#21 = Utf8 hello/App
#22 = Utf8 java/lang/Object
#23 = Utf8 java/lang/System
#24 = Utf8 out
#25 = Utf8 Ljava/io/PrintStream;
#26 = Utf8 java/io/PrintStream
#27 = Utf8 println
#28 = Utf8 (Ljava/lang/String;)V
{
public hello.App();
descriptor: ()V
flags: ACC_PUBLIC
Code:
stack=1, locals=1, args_size=1
0: aload_0
1: invokespecial #1 // Method java/lang/Object."<init>":()V
4: return
LineNumberTable:
line 3: 0
public static void main(java.lang.String[]);
descriptor: ([Ljava/lang/String;)V
flags: ACC_PUBLIC, ACC_STATIC
Code:
stack=2, locals=1, args_size=1
0: getstatic #2 // Field java/lang/System.out:Ljava/io/PrintStream;
3: ldc #3 // String Hello world!
5: invokevirtual #4 // Method java/io/PrintStream.println:(Ljava/lang/String;)V
8: return
LineNumberTable:
line 6: 0
line 7: 8
}
SourceFile: "App.java"
А вот здесь можно посмотреть пример разбора class файла:
ClassFile(InputStream in, Attribute.Factory attributeFactory) throws IOException, ConstantPoolException {
ClassReader cr = new ClassReader(this, in, attributeFactory);
magic = cr.readInt();
minor_version = cr.readUnsignedShort();
major_version = cr.readUnsignedShort();
constant_pool = new ConstantPool(cr);
access_flags = new AccessFlags(cr);
this_class = cr.readUnsignedShort();
super_class = cr.readUnsignedShort();
int interfaces_count = cr.readUnsignedShort();
interfaces = new int[interfaces_count];
for (int i = 0; i < interfaces_count; i++)
interfaces[i] = cr.readUnsignedShort();
int fields_count = cr.readUnsignedShort();
fields = new Field[fields_count];
for (int i = 0; i < fields_count; i++)
fields[i] = new Field(cr);
int methods_count = cr.readUnsignedShort();
methods = new Method[methods_count];
for (int i = 0; i < methods_count; i++)
methods[i] = new Method(cr);
attributes = new Attributes(cr);
}
Комментарии (8)
Beholder
17.08.2015 20:26+16Скучно для того, кому это может быть нужно, и бесполезно для того, кому не нужно.
zzashpaupat
17.08.2015 21:49-2В жизни практически любого Java-разработчика наступает тот момент, когда это нужно. Момент, когда, чтобы разобраться почему приложение ведет себя так, а не иначе, когда нужно посмотреть, где проседает производительность, когда нужно написать какой-нибудь класс для модификации байткода для получения какого-либо эффекта, и т.д.
Apx
17.08.2015 21:59+6Ну в большинстве случаев хватает java decompiler'a чтобы посмотреть был ли изменён байткод и как именно. Не сталкивался если честно уже давно, что нужно что-то написать, чтобы менять байткод уже после компиляции. Для остального в принципе есть аспекты (если уж сильно трубы горят).
simbiod
Простите, а какова суть этого повествования?
corvette
Я хотел пояснить из чего состоит class файл на примере. Есть спецификация, но не у каждого находятся силы разобраться как все устроено, и я хотел показать, как это просто.