Java 11: новое в String / forpes.ru

Главная
Java 11: новое в String

Java 11: новое в String +25

26.09.2018 20:32

xpendence 34 8100 Источник

Всем привет! С момента выхода Java 11 прошли сутки, и вот уже наконец стали появляться первые обзоры релиза. Я же посвящу свою небольшую статью незаметному для официальных релизов и потому обделённому вниманием обновлению класса String, тем более, что оно не упоминается в официальной документации 11-й Java (я, во всяком случае, там информации об этом не нашёл).

Действительно, если мы заглянем в класс String, то среди множества знакомых нам методов мы найдём несколько, помеченных как "@since 11". И да, официально в Java они появились только вчера.

Конечно, в полезности каждой из функций вполне могут быть большие сомнения, поскольку самые полезные и необходимые функции уже были написаны в предыдущих версиях Java, но кому-то и эти пригодиться могут. Статья вышла небольшой, но в этом не только моя вина, но и вина Oracle — они включили в релиз всего 4 (+2) метода, что, конечно, немного.

Приступим.

strip();

Этот метод убирает все пробелы, находящиеся до первого не-пробела и после последнего. Например:

String withSpaces = "     a     ";
String withoutSpaces = withSpaces.strip();

String OUTPUT_TEMPLATE = "<%s>"
System.out.println(String.format(OUTPUT_TEMPLATE, withSpaces));
System.out.println(String.format(OUTPUT_TEMPLATE, withoutSpaces));

Результат, выведенный на экран, будет:

original: <     a     >
strip: <a>

У метода strip() есть два двоюродных брата — stripLeading() и stripTrailing(). Первый — убирает пробелы только спереди, перед первым не-пробелом. Второй — только сзади.

String leading = withSpaces.stripLeading();
String trailing = withSpaces.stripTrailing();

Получаем результат:

stripLeading: <a     >
stripTrailing: <     a>

UPD.

Тут в комментариях подсказывают, что не помешало бы посмотреть, какова разница с тем же методом trim(), который, по сути, делает то же самое.

Смотрим. Отличия, действительно, есть.

public static String trim(byte[] value) {
        int len = value.length;
        int st = 0;
        while ((st < len) && ((value[st] & 0xff) <= ' ')) {
            st++;
        }
        while ((st < len) && ((value[len - 1] & 0xff) <= ' ')) {
            len--;
        }
        return ((st > 0) || (len < value.length)) ?
            newString(value, st, len - st) : null;
    }

Как мы видим, в старой реализации при помощи двух итераций сначала вычисляется индекс первого не-пробела, а потом индекс последнего не-пробела, и потом по этим данным нарезается и возвращается новая строка. Отсекаются просто пробелы, заметим это.

Теперь смотрим на метод strip().

    public static String strip(byte[] value) {
        int left = indexOfNonWhitespace(value);
        if (left == value.length) {
            return "";
        }
        int right = lastIndexOfNonWhitespace(value);
        return ((left > 0) || (right < value.length)) ? newString(value, left, right - left) : null;
    }

    public static int indexOfNonWhitespace(byte[] value) {
        int length = value.length;
        int left = 0;
        while (left < length) {
            char ch = (char)(value[left] & 0xff);
            if (ch != ' ' && ch != '\t' && !Character.isWhitespace(ch)) {
                break;
            }
            left++;
        }
        return left;
    }

    public static int lastIndexOfNonWhitespace(byte[] value) {
        int length = value.length;
        int right = length;
        while (0 < right) {
            char ch = (char)(value[right - 1] & 0xff);
            if (ch != ' ' && ch != '\t' && !Character.isWhitespace(ch)) {
                break;
            }
            right--;
        }
        return right;
    }

Новый метод определяет вообще все случаи, когда символа не видно, будь то пробел, табуляция и проч. (желающие могут залезть в дебри реализации isWhiteSpace).

Таким образом, новый метод предпочтительнее, если Вы хотите отсечь не только пробелы, но и вообще все невидимые символы.

isBlank();

Метод возвращает результат запроса, является ли эта строка «пустой», не содержащих никаких символов, кроме пробелов, табуляций и прочих невидимых символов.

То есть, если мы исполним такой код:

String blank = "     ";
Boolean isBlank = blank.isBlank();

Результат будет:

true

Внутри самого метода существует две реализации — для латинских символов и для строки в кодировке UTF-16.

    public boolean isBlank() {
        return indexOfNonWhitespace() == length();
    }

    private int indexOfNonWhitespace() {
        if (isLatin1()) {
            return StringLatin1.indexOfNonWhitespace(value);
        } else {
            return StringUTF16.indexOfNonWhitespace(value);
        }
    }

repeat();

Этот метод копирует содержимое строки заданное количество раз и возвращает результат в одной строке.

Например, выполнив код:

String sample = "(^_^) ";
String multiple = sample.repeat(10);

Мы получим:

(^_^) (^_^) (^_^) (^_^) (^_^) (^_^) (^_^) (^_^) (^_^) (^_^)

Если же количество итераций равно нулю, то строка не будет содержать символов вообще.

String blank = sample.repeat(0);

Результат:

length: 0

lines();

Странно было бы ожидать от Oracle, что они выпустят обновление String, не включив в класс какую-нибудь реализацию Stream API. И они-таки включили функционал в класс String.

Метод lines преобразует все строчки строки в соответствующий Stream. Выглядит это так:

String lines = "Blind Text Generator is a useful tool\n" +
                "which provides Lorem Ipsum and a number of alternatives.\n" +
                "The number of characters, words, and paragraphs\n" +
                "are easily controlled and you can set \n" +
                "the font to appreciate how it’ll look in your design.";

        lines
                .lines()
                .map(l -> "next line: " + l)
                .forEach(System.out::println);

Получим результат:

next line: Blind Text Generator is a useful tool
next line: which provides Lorem Ipsum and a number of alternatives.
next line: The number of characters, words, and paragraphs
next line: are easily controlled and you can set 
next line: the font to appreciate how it’ll look in your design.

Мы получили полноценный стрим, с которым потом можем делать всё, что мы обычно делаем со стримами обычными. Применение этому может быть самое разное, и, хочется надеяться, что такая фича будет тепло принята разработчиками.

Если посмотреть внутрь самого метода, то мы увидим, что для преобразования строки в Stream используются два сплитератора на выбор, в зависимости от того, в какой кодировке строка.

public Stream<String> lines() {
        return isLatin1() ? StringLatin1.lines(value)
                          : StringUTF16.lines(value);
    }

На этом список нововведений релиза в части String заканчивается. Если я что-то упустил, буду рад об этом узнать и добавить в обзор. Все представленные примеры кода Вы можете пощупать самостоятельно в ресурсе на гитхабе.

Комментарии (34)

time2rfc
26.09.2018 23:34
#19162761
+1
Дождались!
Всегда лень было качать для этого апачевскую библиотеку или копировать их код

mwizard
27.09.2018 01:43
#19163037
Ого, неужели, глядишь, лет через восемь и перегрузку операторов добавят?
1. S-trace
  27.09.2018 21:10
  #19167297
  -1
  Очень надеюсь, что не добавят, иначе ведь получится ещё один C++ (такой же непонятный и неоднозначный ужос, когда глядя на строчку кода «c=a+b;» ты не знаешь, уничтожит ли она вселенную, или же всего лишь сложит два числа)
  1. mwizard
    27.09.2018 21:43
    #19167417
    +1
    Тогда почему же в C++ не превратился C#, в котором перегрузка операторов есть с незапамятных времен, а еще есть unsafe, PInvoke и другие страшные вещи? ;)

lany
27.09.2018 06:22
#19163291
Статья вышла бы больше, если бы вы, например, рассказали разницу между strip() и уже существующим trim().

А вообще ничего страшного, в Java 12 String просто взорвётся новыми методами. Это так, пробный камень.
1. CyberSoft
  27.09.2018 08:05
  #19163435
  Это чем же он там взорвётся?
  1. lany
    27.09.2018 09:18
    #19163649
    Пока что шесть новых методов ищется:
    
    align, indent — JDK-8200434
    
    unescape — JDK-8202442
    
    detab, entab — JDK-8210717
    
    transform — JDK-8203442
    
    CyberSoft
    27.09.2018 09:24
    #19163673
    А почему на них нет JEPов? Или они являются частью одного / нескольких существующих?
    
    lany
    27.09.2018 09:42
    #19163747
    Не на каждый API-метод JEP делают.
1. TimReset
  27.09.2018 09:15
  #19163633
  Согласен про strip — тоже не увидел разницу между trim. Вот нагуглил: stackoverflow.com/questions/51266582/difference-between-string-trim-and-strip-methods-in-java-11
  Вкрадце — trim плохо работает с Unicode, воспринимает как пробельные символы только символы с кодом ?20, но на самом делел в Unicode их много. Поэтому добавили Unicode версию trim — strip.
  Хотя на мой взгляд очень спорное решение — почему просто trim не исправили?!
  1. lany
    27.09.2018 09:19
    #19163653
    +1
    почему просто trim не исправили?!
    Вы что, хипстер? Миллиард существующих программ сломается. Java — не тот язык, где можно вот так просто взять и исправить.
    
    nafgne
    27.09.2018 10:41
    #19164051
    Почему просто не перегрузили? :/
    
    CyberSoft
    27.09.2018 16:11
    #19165925
    А как перегрузить? trim() и strip() только именем отличаются.
    
    nafgne
    27.09.2018 22:44
    #19167655
    trim(), trim(boolean fullCharacterSet), trim(char[] customCharacters), етц.
1. xpendence Автор
  27.09.2018 09:32
  #19163705
  Спасибо, добавил. Отличия действительно есть.
  1. sabio
    27.09.2018 16:01
    #19165865
    если Вы хотите отсечь не только пробелы, но и вообще все невидимые символы
    Не все. Character.isWhitespace() не считает Non-breaking space (0xA0) "невидимым".
1. BrightGenie
  27.09.2018 09:36
  #19163719
  вот тоже стало интересно зачем стрип, если есть трим.
  
  UPD уже не актуально

Beshere
27.09.2018 08:59
#19163575
Вообще да, в Java маловато встроенных возможностей по манипуляции со строками. Одобряю.

fRoStBiT
27.09.2018 10:09
#19163895
Про разные реализации для Latin-1 и юникодовских строк нет смысла писать, не упомянув Compact Strings.
А они, кстати, новинка для тех, кто переходит с Java 8.

ivblinov
27.09.2018 10:54
#19164107
Метод возвращает результат запроса, содержит ли данная строка какие-то символы, кроме пробелов.

То есть, если мы исполним такой код:

String blank = " ";
Boolean isBlank = blank.isBlank();

Результат будет:

true

возможно я чего-то не понимаю, но покажите мне где в этом примере содержится символ кроме пробела
1. xpendence Автор
  27.09.2018 10:54
  #19164111
  Спасибо, поправил.
  1. dopusteam
    27.09.2018 10:59
    #19164135
    Del

McAaron
27.09.2018 12:29
#19164651
«Внутри самого метода существует две реализации — для латинских символов и для строки в кодировке UTF-16.»
Эта UTF-16 где-нибудь реально используется, или такой же труп, как 1251?
1. xpendence Автор
  27.09.2018 13:09
  #19164871
  Судя по тому, что я слышал, это как раз кодировка будущего, но я могу ошибаться.
  1. McAaron
    27.09.2018 14:55
    #19165513
    Это кодировка темного идиотского прошлого.
    Никакой совместимости с ASCII. Для программиста она — абсолютный вынос мозга. Как Вы будете программы на UTF-16 писать? Все программы пишутся в 8-и байтной ASCII. Не поэтому ли в виндах до сих пор остается такое говно мамонта, как cp1251, которая совместима с ASCII по первой половине?
    Попробуйте распарсить utf-8 и utf-16 в k&r си, чтобы это все работало как на be, так и на le, а потом сравните, что у вас вышло. Хотя из под фреймворков, написанных с использованием фреймворков, написанных с использованием фреймворков, ..., и прочих земляных червяков это незаметно:-)
    Да, utf-16 не поддерживает кодовых точек выше 10FFFF, причем с выпадением геморроя, если выше базовой плоскости (0000-FFFF), в отличие от utf-8, которая на регулярной основе поддерживает до FFFFFFFF.
1. rkfg
  27.09.2018 14:24
  #19165365
  Внутри Java строки представлены именно в UTF-16.
  1. McAaron
    27.09.2018 15:06
    #19165565
    Когда Java сама себя начнет собирать из исходников, написанных на utf-16, не прибегая к услугам ASCII-софта, тогда и поговорим.
    
    rkfg
    27.09.2018 15:40
    #19165747
    Так она вроде собирается с помощью G++, не? Не очень понимаю, как это относится к теме. Я сам поддерживаю UTF-8, да и не только я, вот сайт хороший есть о ней. Но что поделаешь, в джаве UTF-16, придётся жить с этим.
    
    McAaron
    27.09.2018 17:46
    #19166429
    Алфавит UTF16 не совместим с алфавитом, в котором готовятся исходники для gcc, как впрочем, и для всех в мире компиляторов. Что касается gcc, то результатом компиляции будет сообщение о мусоре в исходнике:
    $ gcc -c -W -Wall a.c
    a.c:1:1: error: stray '\377' in program
    
    rkfg
    27.09.2018 17:51
    #19166467
    Я прекрасно знаю, как устроен UTF-16. Но я не понимаю, как связана сборка Java с помощью G++ и хранение строк в UTF-16 внутри Java. Это несколько разные области, и одна никак не обязывает другую поддерживать какие-то возможности. Никто ведь не требует, чтобы в GCC был garbage collector, верно?

ris58h
27.09.2018 18:34
#19166699
Насчет String.lines. Не лучше ли было бы сделать метод String.splitAsStream?
1. sasha1024
  27.09.2018 21:47
  #19167431
  Согласен.

drafff
27.09.2018 18:34
#19166701
А новая функция strip() символы '\u00A0', '\u2007', '\u202F' определяет как пробелы?
Спрашиваю потому, что сталкивался с такой проблемой: старые реализации Character.isWhitespace данные символы пробелами не считали, хотя по факту это пробелы.
1. sasha1024
  27.09.2018 21:48
  #19167441
  Говорят, не определяет.
  И опирается она на ту же Character.isWhitespace.

Java 11: новое в String +25

strip();

UPD.

isBlank();

repeat();

lines();

Комментарии (34)

xpendence Автор

xpendence Автор

xpendence Автор