Анбоксинг в современной Java / forpes.ru

Главная
Анбоксинг в современной Java

Анбоксинг в современной Java +57

20.01.2021 18:26

lany 38 10300 Источник

Сейчас новые версии Java выходят раз в полгода. В них время от времени появляются новые возможности: var в Java 10, switch-выражения в Java 14, рекорды и паттерны в Java 16. Про это всё, конечно, написано множество статей, блог-постов, сделано множество докладов на конференциях. Оказалось, однако, что мы все пропустили один очень крутой апгрейд языка, который произошёл в Java 14 - апгрейд обычного цикла for по набору целых чисел. Дело в том, что этот апгрейд случился не в языке, а в виртуальной машине, но заметно повлиял на то как мы можем программировать на Java.

Вспомним старый добрый цикл for:

for (int i = 0; i < 10; i++) {
  System.out.println(i);
}

У такого синтаксиса уйма недостатков. Во-первых, переменная цикла упоминается три раза. Очень легко перепутать и упомянуть не ту переменную в одном или двух местах. Во-вторых, такая переменная не является effectively final. Её не передашь в явном виде в лямбды или анонимные классы. Но ещё важнее: нельзя застраховаться от случайного изменения переменной внутри цикла. Читать код тоже трудно. Если тело цикла большое, не так-то легко сказать, изменяется ли она ещё и внутри цикла, а значит непонятно, просто мы обходим числа по порядку или делаем что-то более сложное. Есть ещё потенциальные ошибки, если необходимо сменить направление цикла или включить границу. Да и выглядит это старомодно.

Во многих языках уже отошли от тяжёлого наследия Си и предлагают более современный синтаксис, когда вы просто указываете диапазон чисел. Например, возьмём Котлин:

for (x in 0 until 10) {
  println(x)
}

Тут всё в шоколаде: переменная упоминается один раз, она неизменяемая внутри тела цикла, есть варианты для включения или исключения верхней границы, а также для задания шага. Красиво.

Можно ли приблизиться к этому варианту в Java? Да, с помощью цикла for-each, который появился в Java 5. Достаточно написать такой библиотечный метод в утилитном классе:

/**
 * Возвращает диапазон целых чисел
 * @param fromInclusive начальное значение (включительно)
 * @param toExclusive конечное значение (не включается)
 * @return Iterable, содержащий числа от fromInclusive до toExclusive.
 */
public static Iterable<Integer> range(int fromInclusive, 
                                      int toExclusive) {
  return () -> new Iterator<Integer>() {
    int cursor = fromInclusive;
    public boolean hasNext() { return cursor < toExclusive; }
    public Integer next() { return cursor++; }
  };
}

Никакого rocket science, исключительно тривиальный код, даже комментировать нечего. После этого вы легко можете писать красивые циклы и в Java:

for (int i : range(0, 10)) { // импортируем наш метод статически
  System.out.println(i);
}

Красиво. Можно явно объявить переменную final, чтобы запретить случайные изменения. Несложно сделать такие же методы с шагом или с включённой верхней границей и пользоваться ими. Почему же никто так до сих пор не делает? Потому что в данном случае из-за боксинга фатально страдает производительность. Давайте для примера посчитаем сумму кубов чисел в простеньком JMH-бенчмарке:

@Param({"1000"})
private int size;

@Benchmark
public int plainFor() {
  int result = 0;
  for (int i = 0; i < size; i++) {
    result += i * i * i;
  }
  return result;
}

@Benchmark
public int rangeFor() {
  int result = 0;
  for (int i : range(0, size)) {
    result += i * i * i;
  }
  return result;
}

Тело цикла весьма быстрое и не выделяет никакой памяти, но при этом делает какую-то полезную работу, что не позволит JIT-компилятору выкинуть цикл совсем. Также я на всякий случай параметризовал верхнюю границу, чтобы JIT не заложился на конкретное значение количества итераций. Запустим на Java 8 и увидим безрадостную картину:

Benchmark            (size)  Mode  Cnt     Score     Error  Units 
BoxedRange.plainFor    1000  avgt   30   622.679 ±   7.286  ns/op 
BoxedRange.rangeFor    1000  avgt   30  3591.052 ± 792.159  ns/op

Использование метода range снизило производительность практически в шесть раз: тест выполняется 3,5 мкс вместо 0,6 мкс. Если посчитать аллокации с помощью -prof gc, мы обнаружим, что версия rangeFor выделяет 13952 байта, тогда как версия plainFor ожидаемо не выделяет памяти вообще. Легко понять, откуда взялось это число, если вспомнить, что целые числа до 127 кэшируются. Новые объекты Integer выделяются на итерациях 128-999, то есть создаётся 872 объекта по 16 байт. Заметьте, кстати, что ни объект Iterable, ни объект Iterator не создаются: здесь наш код прекрасно обрабатывается оптимизацией скаляризации (scalar replacement). Однако боксинг всё портит.

Понятно, что такие накладные расходы на обычный цикл for часто неприемлемы, поэтому программировать в таком стиле на Java никто всерьёз рекомендовать не будет. Однако давайте попробуем более новые версии Java:

Вот тут нас ждёт приятный сюрприз: начиная с Java 14 производительность варианта с range сравнялась с простой версией! JIT-компилятор стал достаточно умным, чтобы сгенерировать настолько же хороший ассемблер, как и в простой версии.

На самом деле работа над оптимизацией по уничтожению ненужного боксинга велась много лет. Её плоды можно было пощупать ещё с версии Java 8 с помощью опций JVM -XX:+UnlockExperimentalVMOptions -XX:+AggressiveUnboxing. Мы можем попробовать запустить наш тест с этой опцией, и окажется, что с ней уже в восьмёрке производительность была существенно лучше:

В Java 8-11 мы имели производительность на уровне 0,9 мкс, в 12 стало в районе 0,8, а начиная с 13 сравнялось с обычным циклом. И вот к Java 14 эта оптимизация стала достаточно стабильной, чтобы её включить по умолчанию. Вы можете пытаться сделать это и в более ранних версиях, но я бы не рекомендовал этого на серьёзном продакшне. Смотрите, например, какие страшные баги приходилось исправлять в связи с этой опцией.

В чём была сложность реализации автоматического удаления боксинга? Одна из основных проблем - как раз тот самый кэш объектов Integer до 127. При боксинге целых чисел выполняется нетривиальный метод valueOf (цитата по Java 16):

public static Integer valueOf(int i) {
  if (i >= IntegerCache.low && i <= IntegerCache.high)
    return IntegerCache.cache[i + (-IntegerCache.low)];
  return new Integer(i);
}

Как видно, этот метод берёт значения в диапазоне от IntegerCache.low до IntegerCache.high из кэша, который заполняется на ранней стадии инициализации виртуальной машины. Поэтому, если у нас происходит боксинг с последующим анбоксингом, нельзя просто положиться на механизм скаляризации: иногда мы должны возвращать закэшированные объекты. В режиме AggressiveUnboxing JIT-компилятор принудительно начинает игнорировать этот кэш, если может доказать, что ссылка на объект никуда не уплывает. В этом можно убедиться, написав какой-нибудь такой код:

Field field = Class.forName("java.lang.Integer$IntegerCache").getDeclaredField("cache");
field.setAccessible(true);
Integer[] arr = (Integer[]) field.get(null);
arr[130] = new Integer(1_000_000);
for (int i = 0; i < 10000; i++) {
  int res = rangeFor();
  if (res != -1094471800) {
    System.out.println("oops! " + res + "; i = " + i);
    break;
  }
}

Мы грязным рефлекшном подменяем одно из чисел в кэше на другое, а затем в цикле сравниваем результат с тем, который должен получиться в результате подмены. В честной Java if не должен выполняться. Но с опцией AggressiveUnboxing мы получаем результат в духе

oops! 392146832; i = 333

То есть когда JIT-компилятор C2 добирается до метода rangeFor, он выкидывает обращение к испорченному кэшу, и начинает выдавать правильный ответ, который должен получаться, если бы мы не залезли в кэш грязными руками.

Однако хоть кэш и игнорируется, до Java 12 включительно я вижу в ассемблерных листингах инструкции вида cmp r10d,7fh, то есть счётчик сравнивается с числом 127 (=0x7f). Похоже, условие полностью выкинуть удалось только в Java 13. Я могу спекулировать, что эти лишние проверки не только отъедают такты процессора, но и занимают дополнительные регистры, из-за чего страдает уровень развёртки цикла. Во всяком случае, до Java 12 цикл с rangeFor разворачивается по 8 итераций, а начиная с Java 13 лишние проверки исчезают и развёртка уже охватывает 16 итераций, сравниваясь с plainFor.

Так или иначе, мы видим результат: агрессивное уничтожение боксинга стало поведением по умолчанию с Java 14, что позволяет гораздо чаще наплевать на боксинг и пользоваться удобными конструкциями. В связи с этим цикл вида for (int i : range(0, 10)) должен стать каноническим в новых версиях Java и должен заменить динозавра for (int i = 0; i < 10; i++), в том числе в учебниках по языку.

Окончательное решение проблемы с боксингом должно прийти к нам после специализации дженериков в проекте Valhalla. Тогда можно будет возвращать Iterable<int>, и боксинг в данном случае не потребуется вообще. Вероятно, мы не увидим в стандартной библиотеке методов вроде range пока этого не случится. Однако боксинг уже не так страшен и с Iterable<Integer> можно комфортно жить.

Только зарегистрированные пользователи могут участвовать в опросе. Войдите, пожалуйста.

Вы будете использовать циклы вида for(int i: range(...)) в своих проектах?

5,2%Уже программирую в таком стиле!20
6,0%Уже перешёл на Java 14+ и обязательно попробую!23
26,0%Когда перейду на Java 14+, обязательно попробую!99
19,2%Это подозрительно! Кто его знает, сработает оптимизатор или нет! Лучше не надо!73
23,4%Скорее наступит тепловая смерть вселенной, чем мой проект переведут на Java 14+.89
20,2%Не пишу на Java и отлично себя чувствую. Жалко мне вас с вашими проблемами!77

Комментарии (38)

23derevo
20.01.2021 22:54
#22570646
+1
А что нам по поводу range предлагает стандартная библиотека?
1. Endeavour
  20.01.2021 23:26
  #22570748
  +2
  IntStream.range(a, b).forEach(i -> ...);
  Интересно, как у этого варианта с бенчмарком. Боксинга здесь нет.
  1. lany Автор
    21.01.2021 12:52
    #22573098
    У forEach другие проблемы.
1. foal
  20.01.2021 23:27
  #22570752
  Ничего, про это написано в последнем абзаце.

apangin
20.01.2021 23:16
#22570722
+5
То, что EliminateAutoBox оптимизация здесь сработала, скорее, повезло. Она чаще не работает, чем работает :) Даже на свежайшей JDK 17-ea простой пример отсюда (setPrimitive) по-прежнему аллоцирует лишний объект.

Зато если вместо автобоксинга написать new Integer(i), то сразу всё хорошо оптимизируется. На этом фоне очень обидно, что конструкторы обёрток задеприкейтили, не предоставив сопоставимую по скорости альтернативу :(
1. tsypanov
  21.01.2021 01:16
  #22571086
  +1
  От new Integer(i) на обычном кроваво-энтерпрайзном проекте "Сонар" кондратий хватит
1. lany Автор
  21.01.2021 07:55
  #22571548
  То, что EliminateAutoBox оптимизация здесь сработала, скорее, повезло
  Может повезло, а может и специально такие сценарии обрабатывали.
  
  не предоставив сопоставимую по скорости альтернативу :(
  Думаю, можно создать свою тривиальную обёртку, если где-то необходимо работать с боксами, а Integer.valueOf не дожимает производительность.

Maccimo
21.01.2021 00:19
#22570922
+3
В опросе не хватает варианта для староверов, «Не люблю синтаксический сахар».
1. transcengopher
  21.01.2021 01:41
  #22571124
  А я вот наоборот, люблю синтаксический сахар, но при этом конкретно в такой формулировке range пользы в своём проекте не вижу. Потому для меня там тоже нет подходящего ответа — я использую Java 14+, но не пишу в таком стиле, и пока не вижу смысла начинать писать в таком стиле.
  1. lany Автор
    21.01.2021 07:55
    #22571550
    Какие недостатки вы видите?
    
    transcengopher
    21.01.2021 17:25
    #22575038
    Да не то чтобы тут были какие-то прямо общие недостатки.
    
    Мне практически нигде и никогда за последние, скажем так, три года не было нужды писать
    
    for (int i = J; i < K; i+=N) { ... }
    
    при любых J, K и N. В отличие от, к примеру for (var el : c) {...}.
    
    Из этого следует, что такая утилита мне просто не нужна ввиду отсутствия нужды в Range как Iterable<N>. Зато есть нужда в Range как представлении [N;K) и прочих подобных формах, включая случаи когда N и K — это даты, время или вообще произвольный Comparable.
    
    lany Автор
    22.01.2021 13:58
    #22579410
    Мне практически нигде и никогда за последние, скажем так, три года не было нужды писать
    Хм. Удивительно. А мне довольно часто приходится писать и читать такие циклы. Видимо, задачи сильно разные.
    
    transcengopher
    22.01.2021 14:03
    #22579432
    задачи сильно разные.
    Да, самый вероятный вариант. В моём случае все ограничения по количеству находятся за пределами домена программы, а программа должна либо обработать вообще всё, что ей придёт, либо обработать всё, что пришло до срабатывания предиката (takeWhile), либо отбросить все элементы, кроме первого.

tsypanov
21.01.2021 01:28
#22571100
-1
Интересно, появится ли в яве когда-нибудь возможность самостоятельно определять синтаксические конструкции для своего проекта, иными словами возможность написать что-то вроде
```
define (int x...int y) => MyUtilityClass.range(x, y);
```
чтобы компилятор самостоятельно мог привести
```
for (i : 0...10) {
 //...
}
```
к
```
for (i : range(0, 10)) {
 //...
}
```
?
1. PocketM
  21.01.2021 05:52
  #22571418
  +4
  Мое мнение: это худшее, что может произойти с java.
  
  Джависты очень ревниво относятся к синтаксису языка и очень неохотно затаскивают даже элементарный сахар. А тут не просто сахар, а целый язык шаблонов предлагаете. Очень сомнительно, что сделают нечто подобное.
  1. lany Автор
    21.01.2021 07:56
    #22571554
    Такого не будет, не переживайте.
  1. poxvuibr
    21.01.2021 13:51
    #22573564
    +2
    Джависты очень ревниво относятся к синтаксису языка и очень неохотно затаскивают даже элементарный сахар.
    С одной стороны вроде да, а с другой стороны Ломбок большинство разработчиков затащило только в путь.
    
    lany Автор
    21.01.2021 13:58
    #22573618
    Разработчики языка не равны пользователям языка. Ну и насчёт большинства ещё неизвестно.
    
    poxvuibr
    21.01.2021 14:05
    #22573668
    Расстояние между разработчиками Lombok и пользователями языка Java гораздо меньше, чем между разработчиками Kotlin или Scala и пользователями этих языков.
    
    А что касается большинства, я конечно никогда не видел результатов опросов, но могу отослать к выступлениям таких авторитетов, как Барух Садогурский или Евгений Борисов. По ним создаётся ощущение, что Lombok повсюду уже давно и надолго.
    
    PocketM
    21.01.2021 19:26
    #22575812
    Ломбок используют, чтобы спрятать простыни геттеров/сеттеров и конструкторы т.е. всякий бойлерплейт. В синтаксис языка он не лезет, разве что val добавили.
    
    По смыслу Ломбок мало отличается от butterknife или di типа dagger. Просто еще одна «библиотека», которая делает какую-то полезную магию.
    
    В проектах, где есть особые требования к качеству кода, обычно ломбок, DI и т.п не используют.
    
    tsypanov
    25.01.2021 01:39
    #22589082
    В проектах, где есть особые требования к качеству кода, обычно ломбок, DI и т.п не используют.
    А как DI снижает качество кода?
    
    PocketM
    25.01.2021 21:35
    #22593180
    Мнение про DI часто слышал в разных командах и особо сильно в это не вникал. Как я понял проблема не в самом DI, а в библиотеках типа dagger за их архитектуру и проблемы.
1. voodoo144
  21.01.2021 06:41
  #22571450
  +2
  Никто вам не запрещает написать собственный препроцессор для разворачивания таких конструкций и прочих макросов. Через Gradle или maven вопрос решается элементарно.
  1. lany Автор
    21.01.2021 07:56
    #22571552
    Но это уже будет не Java, а что-то другое. Тогда лучше перейти на другой язык, где есть уже инструментальная поддержка.
    
    poxvuibr
    21.01.2021 14:01
    #22573640
    Но это уже будет не Java, а что-то другое.
    Авторов и пользователей Lombok это не остановило, а скорее вдохновило ))
    
    Тогда лучше перейти на другой язык, где есть уже инструментальная поддержка.
    Я очень часто встречаюсь с рекомендациями не использовать Lombok, а перейти на Kotlin. Потому что Lombok для джавы чужеродный, а в Kotlin фичи уже есть.
    
    И пока что мне ещё никто не ответил, как в Kotlin решаются проблемы с Entity или как сделать билдер, или как преобразовать неизменяемый объект в билдер, а потом из билдера получить новый объект. Или ещё 100500 юскейсов которые отрабатывает Lombok.
    
    Но допустим Kotlin, или какой-то другой язык завтра выровняется по фичам с Lombok. Послезавтра какой-нибудь разработчик добавит в Lombok генератор equals и hashCode для Entity и Lombok опять убежит вперёд. А когда это всё появится в другом языке совершенно неизвестно. Да и вообще — появится ли? Если экстраполировать будущее исходя из текущего положения дел — то очевидно, что нет.
    
    lany Автор
    21.01.2021 14:47
    #22573980
    Это всё долгий и отдельный разговор, но
    
    И пока что мне ещё никто не ответил, как в Kotlin решаются проблемы с Entity или как сделать билдер, или как преобразовать неизменяемый объект в билдер, а потом из билдера получить новый объект. Или ещё 100500 юскейсов которые отрабатывает Lombok.
    В Котлине билдеры не нужны вообще. Для этого есть copy.
    
    poxvuibr
    21.01.2021 16:01
    #22574476
    В Котлине билдеры не нужны вообще. Для этого есть copy.
    Вот о чём-то таком я и говорил. copy есть, но для Entity ничего нет и в Lombok или чём-то подобном оно может появиться, а в Kotlin — врядли. Разговор, конечно, долгий и отдельный и самое главное очевидного и простого ответа найти, скорее всего, не получится.
    
    antonarhipov
    21.01.2021 22:03
    #22576482
    И пока что мне ещё никто не ответил, как в Kotlin решаются проблемы с Entity
    
    Интересно. А можно проблему с Entity описать?
    
    poxvuibr
    22.01.2021 11:01
    #22578284
    
    Entity должны быть изменяемыми
    
    Должен существовать конструктор по умолчанию
    
    equals должен быть заявзан только на @Id или только на естественный ключ
    
    Если equals завязан на id, который делается генератором, то он должен возвращать false, если @Id == null, а hashCode должен возвращать 31.
    
    Lombok помогает с пунктами 1 и 2, а также 3.
    
    antonarhipov
    22.01.2021 17:43
    #22580550
    Наверное я упускаю какой то контекст. А апелляция к чему? К тому, что дата классы не могут быть использованы в качестве Entity? Вот прям только что использовал дата классы для того чтобы работать со Spring Data — ничто не помешало.
    
    BugM
    22.01.2021 04:49
    #22577524
    Ломбок — альфа версия потенциально полезного сахара.
    Котлин — бета.
    Джава уже релиз.

sergey-b
21.01.2021 08:41
#22571654
Я бы предпочел использовать специализированные стримы.
```
for (int i: IntStream.range(0, 10)) {
    System.out.println(i);
}
```
И еще я бы хотел опцию компилятора -XX:+TurnOffAutoBoxingUnboxingCompletely.

BasicWolf
21.01.2021 09:56
#22571926
Добавьте пожалуйста вариант в голосование "Пишу на Kotlin/Scala/Clojure/Other-JVM и мне всё-равно что там в ванильной Java"
1. lany Автор
  21.01.2021 10:22
  #22572060
  Это последний пункт.

Throwable
21.01.2021 17:25
#22575036
(*) Подожду Вальгаллу, чтобы уж наверняка!

konsoletyper
21.01.2021 19:34
#22575852
Я как человек с компиляторным бэкграундом и хорошо знающий, как работает JIT с его куриными мозгами, не стал бы в критическом коде писать новомодный синтаксис, а всё бы развернул руками. Ещё есть Android (а так же различные способы запустить Java-приложения на iOS) и там уж точно всё работает совсем не так. Так что если нужно писать кроссплатформенный код (например, библиотеку, которую можно использовать на бэкэнде и на Android), да ещё и критический по производительности, я бы точно воспользовался старым добрым синтаксисом. Такие мелочи не особо влияют на читаемость кода, а IDE позволяет быстро его писать. Вот что действительно плохо влияет на читаемость кода — это более глобальные вещи, вроде правильных абстракций, соблюдения принципов вроде SOLID и т.д., а не какие-то отдельно взятые циклы.
1. RockindDemon
  21.01.2021 21:49
  #22576412
  Категорически поддерживаю. В целом статья интересна в качестве изучения динамики развития технологии.
  Но сколько сотен раз умные люди повторяют, что никогда нельзя закладываться на особенности реализации — этого никто не слышит.
  И да, в последнее время все слишком увлеклись потреблением и производством сахара, а качество решений в целом снижается.

gsaw
21.01.2021 21:57
#22576446
Я лично не люблю доморощенный синтаксический сахар. Может быть намерения благие, но в результате придет на проект молодое поколение spring, либо будут спотыкаться каждый раз и думать, «что за хрень», либо даже не обратят внимания и будут писать по своему или того хуже выдумают еще вариант, как удобнее. Причем может быть 100 лет тому назад это была прогрессивная идея, а сейчас страшно даже подумать, что придется поменять в коде, что бы эту краказябру (не вашу конкретно, а в общем) поменять на эквивалент из стандартной библиотеки.

Недавно видел класс, обертка вокруг jdbc из допотопных времен. Чуть ли не предтеча hibernate. Там жуть. 20 лет назад это наверное сокращало написание кода, а сейчас spring все те же проблемы решает аннотацией и парой строк. И не переделать ничего уже, так как ни бюджета ни желания, а софту еще лет 20 жизни предрекли. Переписывать никто не будет.

Анбоксинг в современной Java +57

Вы будете использовать циклы вида for(int i: range(...)) в своих проектах?

Комментарии (38)

lany Автор

lany Автор

lany Автор

lany Автор

lany Автор

lany Автор

lany Автор

lany Автор

lany Автор