Ускоряем валидацию UTF-8 в 10 раз (>10 ГБ/с): реализация алгоритма Lemire-Keiser на Go с ARM NEON / forpes.ru

Главная
Ускоряем валидацию UTF-8 в 10 раз (>10 ГБ/с): реализация алгоритма Lemire-Keiser на Go с ARM NEON

Ускоряем валидацию UTF-8 в 10 раз (>10 ГБ/с): реализация алгоритма Lemire-Keiser на Go с ARM NEON +10

30.06.2025 05:07

andrey0917 7 916 Источник

UTF-8 валидация — одна из базовых операций при работе с текстом, которая выполняется миллионы раз в секунду в современных приложениях. Стандартная реализация в Go, хоть и корректная, далека от оптимальной по производительности. В этой статье расскажу, как мне удалось ускорить валидацию UTF-8 в 10 раз, используя SIMD‑инструкции ARM NEON и алгоритм из статьи «Validating UTF-8 In Less Than One Instruction Per Byte» Джона Кейзера и Дэниела Лемира.

Проблема стандартной валидации

Стандартная реализация utf8.Valid() в Go имеет несколько фундаментальных ограничений:

Множественные условные переходы
Последовательная обработка
Кэш-промахи lookup таблиц
Избыточные проверки границ

Измерения производительности stdlib показывают:

На тестовых данных 4 КБ - 256 МБ: ~1.2-1.3 ГБ/с
Производительность стабильна независимо от размера данных
Основное ограничение: последовательная обработка и branch misprediction
На больших объемах (256 МБ): небольшая деградация до ~1.25 ГБ/с

Эти результаты показывают, что стандартная реализация далека от теоретического предела пропускной способности памяти, оставляя значительное пространство для оптимизации

Алгоритм Lemire-Keiser

Концептуальная основа

Алгоритм Lemire-Keiser представляет радикально новый подход к валидации UTF-8, основанный на векторизованной классификации и принципе "проверки без ветвлений". Ключевая идея заключается в том, что практически все ошибки UTF-8 можно детектировать, анализируя только первые два байта каждой последовательности.

Статьи подробно расматривабшие алгоритм:

Математическая основа

Алгоритм базируется на теории конечных автоматов и битовых масках. Каждая комбинация двух соседних байтов может быть классифицирована в одну из 12 категорий:

ASCII (00000000...01111111)
Continuation Low (10|000000...001111)
Continuation (10|010000...001111)
Continuation High (10|100000...111111)
2-Byte Start (110|00010...11111)
3-Byte Start Low (1110|0000)
3-Byte Start (1110|0001...1100, 1110|1110...1111)
3-Byte Surrogate (1110|1101)
4-Byte Start Low (11110|000)
4-Byte Start (11110|001...011)
4-Byte Start High (11110|100)
Invalid (все остальные)

Lookup таблицы реализуют функцию классификации f: {0..255} → {0..255}, где результат кодирует битовую маску принадлежности к различным категориям ошибок.

Моя реализация на Go с ARM NEON

//go:build !purego

#include "textflag.h"

// func validateNEON(p []byte) bool
// Функция валидации UTF-8 строки с использованием ARM64 NEON SIMD инструкций
TEXT ·Valid(SB),NOSPLIT,$0-25
    // Загружаем параметры функции из стека
    MOVD    s_base+0(FP), R10      // Указатель на начало строки в R10
    MOVD    s_len+8(FP), R11       // Длина строки в R11
    CBZ     R11, valid             // Если длина = 0, строка валидна
    CMP     $16, R11               
    BLT     small                  // Если длина < 16 байт, обрабатываем отдельно

    // Инициализация маски для проверки ASCII символов (бит 7 = 1 означает не-ASCII)
    VMOVQ   $0x8080808080808080, $0x8080808080808080, V0

ascii_loop:
    // Быстрая проверка на ASCII символы (оптимизация для чисто ASCII строк)
    CMP     $16, R11
    BLT     small                  // Если осталось < 16 байт, переходим к обработке остатка

    VLD1    (R10), [V1.B16]        // Загружаем 16 байт в SIMD регистр V1
    VCMTST  V1.B16, V0.B16, V2.B16 // Тестируем биты 0x80 (проверка на не-ASCII)
    VMOV    V2.D[0], R2            // Перемещаем результат в скалярные регистры
    VMOV    V2.D[1], R3
    ORR     R2, R3, R2             // Объединяем результаты
    CBNZ    R2, stop_ascii         // Если найден не-ASCII символ, прекращаем ASCII цикл

    ADD     $16, R10               // Переходим к следующему блоку
    SUB     $16, R11               // Уменьшаем счетчик оставшихся байт
    B       ascii_loop             // Продолжаем ASCII цикл

stop_ascii:
    // Инициализация констант для алгоритма Мулы (Lemire) валидации UTF-8
    // Эти константы используются в lookup таблицах для быстрой валидации UTF-8
    VMOVQ   $0x0202020202020202, $0x4915012180808080, V11  // Lookup таблица 1
    VMOVQ   $0xcbcbcb8b8383a3e7, $0xcbcbdbcbcbcbcbcb, V13  // Lookup таблица 2  
    VMOVQ   $0x0101010101010101, $0x01010101babaaee6, V15  // Lookup таблица 3
    VMOVQ   $0x0F0F0F0F0F0F0F0F, $0x0F0F0F0F0F0F0F0F, V18  // Маска для младших 4 бит
    VMOVQ   $0x0707070707070707, $0x0707070707070707, V12  // Маска 0x07
    VMOVQ   $0xFFFFFFFFFFFFFFFF, $0xFFFFFFFFFFFFFFFF, V14  // Маска всех единиц
    VMOVQ   $0x7F7F7F7F7F7F7F7F, $0x7F7F7F7F7F7F7F7F, V16  // Маска 0x7F
    VMOVQ   $0xDFDFDFDFDFDFDFDF, $0xDFDFDFDFDFDFDFDF, V17  // Маска 0xDF
    VMOVQ   $0x0808080808080808, $0x0808080808080808, V19  // Маска 0x08
    VMOVQ   $0x8080808080808080, $0x8080808080808080, V20  // Маска 0x80
    VMOVQ   $0x0000000000000000, $0x0000000000000000, V30  // Нулевой вектор
    VMOVQ   $0x0000000000000000, $0x0000000000000000, V3   // Предыдущий блок данных

aligned_loop:
    // Основной цикл валидации UTF-8 с использованием алгоритма Мулы
    VLD1.P  16(R10), [V4.B16]      // Загружаем 16 байт и увеличиваем указатель
    
    // Сдвигаем данные для анализа переходов между байтами
    VEXT    $15, V4.B16, V3.B16, V5.B16  // Берем последний байт предыдущего блока + текущий
    VUSHR   $4, V5.B16, V6.B16     // Сдвигаем на 4 бита вправо (старшие 4 бита)
    VTBL    V6.B16, [V11.B16], V6.B16    // Lookup в первой таблице
    VAND    V5.B16, V18.B16, V7.B16      // Выделяем младшие 4 бита
    VTBL    V7.B16, [V13.B16], V7.B16    // Lookup во второй таблице
    VUSHR   $4, V4.B16, V8.B16     // Старшие 4 бита текущего блока
    VTBL    V8.B16, [V15.B16], V8.B16    // Lookup в третьей таблице
    
    // Комбинируем результаты lookup'ов
    VAND    V6.B16, V7.B16, V9.B16
    VAND    V9.B16, V8.B16, V10.B16
    
    // Дополнительные проверки для специальных случаев UTF-8
    VEXT    $14, V4.B16, V3.B16, V5.B16  // Проверка на позиции -2
    VUSHR   $5, V5.B16, V6.B16     // Сдвиг на 5 бит для проверки старших битов
    VCMEQ   V12.B16, V6.B16, V6.B16      // Сравнение с 0x07
    
    VEXT    $13, V4.B16, V3.B16, V5.B16  // Проверка на позиции -3
    VUSHR   $4, V5.B16, V9.B16     // Сдвиг на 4 бита
    VCMEQ   V18.B16, V9.B16, V9.B16      // Сравнение с 0x0F
    VORR    V6.B16, V9.B16, V9.B16       // Объединение результатов
    
    // Финальная проверка валидности
    VAND    V9.B16, V20.B16, V9.B16      // Применяем маску 0x80
    VSUB    V9.B16, V10.B16, V9.B16      // Вычитаем из основного результата
    VMOV    V9.D[0], R1            // Перемещаем результат в скалярные регистры
    VMOV    V9.D[1], R2
    ORR     R1, R2, R1             // Объединяем половины результата
    CBNZ    R1, no_valid           // Если результат не ноль, строка невалидна
    
    VMOV    V4.B16, V3.B16         // Сохраняем текущий блок как предыдущий
    SUB     $16, R11, R11          // Уменьшаем счетчик оставшихся байт
    CMP     $16, R11               

    BGE     aligned_loop           // Если осталось >= 16 байт, продолжаем цикл

    B small_no_const               // Переходим к обработке остатка

small:
    // Обработка небольших строк (< 16 байт)
    CBZ     R11, valid             // Если байт не осталось, строка валидна

tail_loop:
    // Простая проверка по одному байту для маленьких строк
    MOVBU   (R10), R2              // Загружаем один байт
    AND     $0x80, R2              // Проверяем старший бит
    CBNZ    R2, check_utf8         // Если установлен, нужна полная проверка UTF-8
    ADD     $1, R10                // Переходим к следующему байту
    SUB     $1, R11                // Уменьшаем счетчик
    CBNZ    R11, tail_loop         // Продолжаем пока есть байты
    B       valid                  // Все байты ASCII - строка валидна

check_utf8:
    // Инициализация констант для полной проверки UTF-8
    // (те же константы, что и выше)
    VMOVQ   $0x0202020202020202, $0x4915012180808080, V11
    VMOVQ   $0xcbcbcb8b8383a3e7, $0xcbcbdbcbcbcbcbcb, V13
    VMOVQ   $0x0101010101010101, $0x01010101babaaee6, V15
    VMOVQ   $0x0F0F0F0F0F0F0F0F, $0x0F0F0F0F0F0F0F0F, V18
    VMOVQ   $0x0707070707070707, $0x0707070707070707, V12
    VMOVQ   $0xFFFFFFFFFFFFFFFF, $0xFFFFFFFFFFFFFFFF, V14
    VMOVQ   $0x7F7F7F7F7F7F7F7F, $0x7F7F7F7F7F7F7F7F, V16
    VMOVQ   $0xDFDFDFDFDFDFDFDF, $0xDFDFDFDFDFDFDFDF, V17
    VMOVQ   $0x0808080808080808, $0x0808080808080808, V19
    VMOVQ   $0x8080808080808080, $0x8080808080808080, V20
    VMOVQ   $0x0000000000000000, $0x0000000000000000, V30
    VMOVQ   $0x0000000000000000, $0x0000000000000000, V3

small_no_const:
    // Подготовка данных для обработки остатка < 16 байт
    SUB $16, R10, R10              // Откатываемся на 16 байт назад
    ADD R11, R10, R10              // Добавляем количество оставшихся байт
    VLD1.P  16(R10), [V4.B16]      // Загружаем 16 байт (включая "мусор")

    // Использование таблицы переходов для маскирования лишних байт
    ADR  shift_table, R2           // Адрес таблицы переходов
    MOVW R11, R3                   // Количество валидных байт
    LSL $2,  R3                    // Умножаем на 4 (размер инструкции)
    ADD R3, R2                     // Вычисляем адрес перехода
    B (R2)                         // Переходим к соответствующему обработчику

shift_table:
    // Таблица переходов для обработки 0-15 байт
    B do_shift_0                   // 0 байт - заполняем ASCII символами
    B do_shift_1                   // 1 байт валидный
    B do_shift_2                   // 2 байта валидных
    B do_shift_3                   // 3 байта валидных
    B do_shift_4                   // 4 байта валидных
    B do_shift_5                   // 5 байт валидных
    B do_shift_6                   // 6 байт валидных
    B do_shift_7                   // 7 байт валидных
    B do_shift_8                   // 8 байт валидных
    B do_shift_9                   // 9 байт валидных
    B do_shift_10                  // 10 байт валидных
    B do_shift_11                  // 11 байт валидных
    B do_shift_12                  // 12 байт валидных
    B do_shift_13                  // 13 байт валидных
    B do_shift_14                  // 14 байт валидных
    B do_shift_15                  // 15 байт валидных

do_shift_0:
    // 0 валидных байт - заполняем вектор ASCII символами 'a' (0x61)
    VMOVQ   $0x6161616161616161, $0x6161616161616161, V4
    B end_swith
do_shift_1:
    // 1 валидный байт - сдвигаем на 15 позиций (маскируем 15 байт)
    VEXT    $15, V30.B16, V4.B16, V4.B16
    B end_swith
do_shift_2:
    // 2 валидных байта - сдвигаем на 14 позиций
    VEXT    $14, V30.B16, V4.B16, V4.B16
    B end_swith
do_shift_3:
    // 3 валидных байта - сдвигаем на 13 позиций
    VEXT    $13, V30.B16, V4.B16, V4.B16
    B end_swith
do_shift_4:
    // 4 валидных байта - сдвигаем на 12 позиций
    VEXT    $12, V30.B16, V4.B16, V4.B16
    B end_swith
do_shift_5:
    // 5 валидных байт - сдвигаем на 11 позиций
    VEXT    $11, V30.B16, V4.B16, V4.B16
    B end_swith
do_shift_6:
    // 6 валидных байт - сдвигаем на 10 позиций
    VEXT    $10, V30.B16, V4.B16, V4.B16
    B end_swith
do_shift_7:
    // 7 валидных байт - сдвигаем на 9 позиций
    VEXT    $9, V30.B16, V4.B16, V4.B16
    B end_swith
do_shift_8:
    // 8 валидных байт - сдвигаем на 8 позиций
    VEXT    $8, V30.B16, V4.B16, V4.B16
    B end_swith
do_shift_9:
    // 9 валидных байт - сдвигаем на 7 позиций
    VEXT    $7, V30.B16, V4.B16, V4.B16
    B end_swith
do_shift_10:
    // 10 валидных байт - сдвигаем на 6 позиций
    VEXT    $6, V30.B16, V4.B16, V4.B16
    B end_swith
do_shift_11:
    // 11 валидных байт - сдвигаем на 5 позиций
    VEXT    $5, V30.B16, V4.B16, V4.B16
    B end_swith
do_shift_12:
    // 12 валидных байт - сдвигаем на 4 позиции
    VEXT    $4, V30.B16, V4.B16, V4.B16
    B end_swith
do_shift_13:
    // 13 валидных байт - сдвигаем на 3 позиции
    VEXT    $3, V30.B16, V4.B16, V4.B16
    B end_swith
do_shift_14:
    // 14 валидных байт - сдвигаем на 2 позиции
    VEXT    $2, V30.B16, V4.B16, V4.B16
    B end_swith
do_shift_15:
    // 15 валидных байт - сдвигаем на 1 позицию
    VEXT    $1, V30.B16, V4.B16, V4.B16
    B end_swith

end_swith:
    // Выполняем ту же валидацию UTF-8, что и в основном цикле
    VEXT    $15, V4.B16, V3.B16, V5.B16   // Анализ переходов между байтами
    VUSHR   $4, V5.B16, V6.B16            // Старшие 4 бита
    VTBL    V6.B16, [V11.B16], V6.B16     // Lookup таблица 1
    VAND    V5.B16, V18.B16, V7.B16       // Младшие 4 бита
    VTBL    V7.B16, [V13.B16], V7.B16     // Lookup таблица 2
    VUSHR   $4, V4.B16, V8.B16            // Старшие 4 бита текущих байт
    VTBL    V8.B16, [V15.B16], V8.B16     // Lookup таблица 3
    VAND    V6.B16, V7.B16, V9.B16        // Комбинирование результатов
    VAND    V9.B16, V8.B16, V10.B16

    // Дополнительные проверки
    VEXT    $14, V4.B16, V3.B16, V5.B16   // Проверка позиции -2
    VUSHR   $5, V5.B16, V6.B16
    VCMEQ   V12.B16, V6.B16, V6.B16

    VEXT    $13, V4.B16, V3.B16, V5.B16   // Проверка позиции -3
    VUSHR   $4, V5.B16, V9.B16
    VCMEQ   V18.B16, V9.B16, V9.B16
    VORR    V6.B16, V9.B16, V9.B16

    // Финальная валидация
    VAND    V9.B16, V20.B16, V9.B16
    VSUB    V9.B16, V10.B16, V9.B16
    VMOV    V9.D[0], R1                   // Получаем результат
    VMOV    V9.D[1], R2
    ORR     R1, R2, R1
    CBNZ    R1, no_valid                  // Если не ноль, строка невалидна

valid:
    // Строка валидна - возвращаем true (1)
    MOVD    $1, R0
    MOVD    R0, ret+24(FP)
    RET

no_valid:
    // Строка невалидна - возвращаем false (0)
    MOVD    $0, R0
    MOVD    R0, ret+24(FP)
    RET

Результаты бенчмарков

Тестовая платформа

Процессор: Apple M1 Pro (ARM64)
Операционная система: macOS (darwin)
Go версия: 1.24.4

Сравниваемые реализации:

Stdlib — стандартная utf8.Valid() из Go
charcoal — оптимизированная библиотека без SIMD
SIMD — моя реализация с ARM NEON

Малые строки (10 байт)

Японский текст (UTF-8):

Stdlib	27.78 ns/op	1079.80 MB/s
charcoal	14.88 ns/op	2036.79 MB/s
SIMD	5.922 ns/op	5065.75 MB/s (4.7x быстрее stdlib)

Средние файлы (1 КБ)

Stdlib	893.5 ns/op	1146.01 MB/s
charcoal	421.7 ns/op	2428.44 MB/s
SIMD	106.2 ns/op	9641.60 MB/s (8.4x быстрее stdlib)

Большие файлы (1 МБ)

Stdlib	916612 ns/op	1143.97 MB/s
charcoal	416901 ns/op	2515.17 MB/s
SIMD	102415 ns/op	10238.46 MB/s (9.0x быстрее stdlib)

Детальное сравнение по размерам данных

Размер данных	Stdlib (MB/s)	charcoal (MB/s)	SIMD (MB/s)	Ускорение SIMD/Stdlib
4 КБ	1280.09	1645.04	10030.39	7.8x
32 КБ	1283.78	1658.71	10239.46	8.0x
64 КБ	1282.96	1660.01	10260.09	8.0x
256 КБ	1253.47	1646.61	10268.56	8.2x
4 МБ	1218.62	1609.69	10262.59	8.4x
32 МБ	1248.65	1648.06	10233.27	8.2x
128 МБ	1244.03	1624.76	10220.27	8.2x
256 МБ	1250.01	1644.33	9319.34	7.5x

абсолютная производительность: >10 ГБ/с приближается к пределам пропускной способности памяти DDR4

Практическое применение

Библиотека особенно эффективна для:

JSON-парсеров: валидация больших JSON-документов
Баз данных: валидация при вставке текстовых данных

Rust simdutf8::basic::from_utf8

Стоит отметить, что библиотека simdutf8 для Rust, показывает аналогичные результаты производительности на ARM64 платформах:

На больших данных (>1 МБ)**: ~10 ГБ/с

Перспективы развития:

- Портирование на x86-64 с использованием AVX2/AVX-512

Исходный код доступен на GitHub: https://github.com/AndreyyTs/utf8simd