В общем, выбрал я себе тему курсовой работы на 3-й курс. Озвучивать её не буду, но в целом это распределённая система с фокусом на безопасность, E2EE, offline-first и другие важные концепты. В ходе проектирования я задумался:

А что, если часть инструментов я напишу сам и конкретно под свою задачу?

В моей голове это звучало так: публичные библиотеки обычно пытаются охватить как можно больше функционала, чтобы угодить всем, а мне не хотелось тащить лишние зависимости, которые я даже не буду использовать. Заодно и попрактикуюсь.

Вступление

Собственно говоря, я написал сервер на Java и взялся за клиентскую часть. В планах было сделать основное ядро клиента на C++, а рендерить всё через Dart/Flutter. И тут я совершенно случайно узнал про Rust. Слышал-то я о нём и раньше, но не особо понимал, зачем он нужен. Если вкратце — разобрался…

В первую очередь мне нужен был парсер md, и я решил посмотреть, какие крейты в Rust подходят под мою задачу. Конечно же, в первую очередь я смотрел в сторону pulldown-cmark. Узнал, что он быстрый, работает на итераторах и так далее. Но проблема в том, что для моего проекта был необходим мгновенный доступ к конкретным типам данных. По этой причине pulldown-cmark я сразу отсёк, так что написание своего парсера стало скорее необходимостью, чем просто хотелкой. И я приступил к реализации.

Модель данных

Я сразу понял, что буду хранить всё в векторах (Vec). Разделил их по типам в рамках структуры Content. Потом пришёл к концепции zero-copy и стал сохранять в векторах интервалы на типы разметки по глобальному офсету.

В рамках проекта мне необходимо редактирование данных, а значит, в идеале — и инкрементальный репарсинг. Поэтому я хотел отказаться от глобальных офсетов в пользу локальных (в рамках каждой строки). Но эту идею пришлось отложить, так как тогда я потерял бы возможность доступа к конкретным байтам данных за O(1). Важный момент: парсинг задумывался по срезу байтов, собственно, ради этого мгновенного доступа. После этого я перешёл к написанию логики.

Парсер Markdown

Так удачно вышло, что именно в семестр написания парсера у меня шёл курс «Теория компиляторов», в рамках которого мы эти самые компиляторы и писали. Однако я отказался от AST в пользу плоской модели данных, а это не совсем то, чему учит академическая теория (как минимум в рамках вуза).

Процесс написания логики парсинга оказался тривиальным, поскольку я сознательно отказался от спецификации CommonMark. Не то чтобы для моей задачи она была избыточной — я просто посчитал, что некоторые её элементы редко встречаются в реальности (например, использование _ наравне с *, или ~~~ наравне с ```). Из-за этого я теряю обратную совместимость, но я за ней и не гнался.

В итоге получился рабочий парсер, полностью закрывающий задачи проекта. Замеры пропускной способности показали неплохие, но довольно скромные результаты. Точные цифры на тот момент не назову, но актуальные бенчмарки приведу ниже. Именно тогда я понял, что хочу сделать парсер по-настоящему быстрым.

Оптимизации

Я начал изучать этот вопрос и пришёл к нескольким вещам:

  • Эвристики на преаллокацию по типам для каждого вектора. Казалось бы, можно было перейти на итераторы, лениво всё вычислять, а в конце вызывать .collect(). Но тогда я ещё слишком слабо знал Rust, и эта мысль пришла ко мне намного позже.

  • Смена аллокатора. Поскольку эвристики дают лишь приблизительный результат, было принято решение заменить global_allocator на Mimalloc.

  • Крейт memchr. Он дал отличный прирост при поиске спецсимволов за счёт векторного сканирования байтов. Однако масштабировать грамматику языка без ощутимой потери производительности стало трудно: этот крейт ограничен поиском до 3 байт за один проход. Тем не менее глупо отрицать, что моя линейная структура данных идеально подошла под memchr.

В итоге я получил первые сотни MiB/s в бенчмарках, но особого восторга не испытал.

Масштабирование грамматики через… оптимизацию?

С учётом того, что я отказался от спецификации CommonMark, поиска по трём байтам сразу должно было хватить с головой. Но мне не хватало. Вызывать отдельные инстансы memchr — дорого по производительности. Запускать их параллельно можно, НО теряется контекст синтаксиса, а это требует сложных архитектурных надстроек.

И тут я открыл для себя аббревиатуру SWAR. Это как SIMD, но без явного использования SIMD-инструкций — чистые битовые маски и математика. С SWAR падение пропускной способности при усложнении грамматики стало куда более плавным. Именно тогда на бенчмарках criterion я пробил свой первый заветный GiB/s на уже более богатой грамматике.

Был ли я рад? Снова нет. Код для курсовой готов, оставалось лишь описать его академическим языком. Но сам процесс оптимизации и решения проблем по ходу дела приносил куда больше удовольствия, и я решил двигаться дальше.

Уход от универсальных решений к декларативности

Высокие показатели производительности — это здорово, но я задался вопросом: ради чего всё это? Просто игрушка? Тогда я поставил перед собой новую задачу:

Найти структурные примитивы, присущие подавляющему большинству текстовых форматов данных.

За основу был взят тот же самый Markdown. Скажу честно: по сравнению с тем, что планировалось изначально, проект в его исходном виде не казался мне чем-то достойным курсовой работы, так что смена вектора выглядела логичной.

Основные структурные примитивы текстовых форматов данных

Выделить эти примитивы оказалось несложно - всё в рамках базовой логики:

  • inline (внутристрочный примитив) - фрагменты текста, которые находятся внутри строк. Имеют спецсимволы конкретного типа, иначе — fallback.

  • line (строчный примитив) - фрагменты, которые начинаются строго в начале строки и заканчиваются в её конце (целая строка).

  • block (блочный примитив) — фрагменты текста, которые начинаются на одной строке, а заканчиваются на другой. Имеют спецсимволы конкретного типа, иначе — fallback.

Если спроецировать это на Markdown, то обычный текст - это inline fallback, а параграф - block fallback. Каждый примитив также имеет подтип simple, подробное описание этой архитектуры доступно в репозитории проекта, дабы не растягивать и без того не самую маленькую статью.

Основные правила парсинга

Структура понятна, но внутри каждого примитива действуют свои правила парсинга. Пара самых стандартных для inline-элементов:

  • symmetric — один и тот же символ в одинаковом количестве служит как открывающим (слева), так и закрывающим (справа).

asymmetric — открывающий и закрывающий символы различаются.

key_value — классические ключ и значение с настраиваемым разделителем.

Есть и менее стандартное правило — chained, поддерживающее две пары спецсимволов для двух разных отрезков байтов (так реализована поддержка ссылок в Markdown). Оно также поддерживает префиксы для обработки изображений.

DSL

Собственно говоря, не буду затягивать, вот как выглядит описание подмножества Markdown:

define_parser!(Markdown {
sep = b' ', eol = b'\n', tab = b'\t', escape = b'\\';

inline {
merge_simple = true;
hard_break(b'\\', b' ', 2) => hard_breaks [500];
on_trigger(b'*', b'`', b'[', b'<') {
symmetric b'`' {
parse_inside = false;
balanced = false;
1 => codes [80],
}
symmetric b'*' {
parse_inside = true;
balanced = false;
1 => italics [40], 2 => bolds [40], 3 => bold_italics [80],
}
asymmetric b'<', b'>' {
balanced = false;
parse_inside = false;
1 => autolinks [100],
}
chained: Link {
| b'[', b']' | {
parse_inside = false;
balanced = false;
} => text,
| b'(', b')' | {
parse_inside = false;
balanced = false;
} => url,
prefix | b'!' | => is_image,
} => links [100]
}
fallback => texts [10];
}
lines {
line(b'#', max = 6) |n|:
Heading { level: NonZeroU8::new(n).unwrap_or(NonZeroU8::MIN) }
=> headings [200];
line_simple(b'-' | b'*' | b'_', min = 3) |b|:
ThematicBreak { kind: b }
=> thematic_breaks [200];
}
blocks {
block_simple {
fence(b'`', min = 3) => fenced_codes [400];
cont(b'>') => blockquotes [200];
}
block {
(b'-' | b'*' | b'+') |b|:
BulletItem { kind: b }
=> bullet_items [80];
num(b'0'..=b'9', end = b'.' | b')') |n, k|:
OrderedItem { kind: k, num: n }
=> ordered_items [80];
}
fallback => paragraphs [80];
}
});

Читаемость, возможно, не совсем идеальная. Числа в квадратных скобках [N] - это делители для эвристик. Конечный пользователь обычно лучше понимает специфику своих файлов и то, какие объёмы ему нужно парсить.

Что под капотом

Под капотом — месиво из макросов. Сам DSL вынесен в отдельный крейт в виде proc-macro define_parser!. Этот макрос разворачивается в два других:

  • define_content! - определяет структуру данных <Имя>Content.

  • parse_text! - генерирует правила парсинга под этот конкретный Content.

Помимо быстрого доступа, библиотека предоставляет методы для парсинга конкретных типов вне основного контекста. Например, можно вызвать метод find_bolds(&[u8]) - и он вернёт итератор со всеми интервалами, внутри которых этот тип находится.

Важный нюанс: интервалы указывают на чистые данные (без спецсимволов). То есть для *text* вернётся интервал (1, 5). Для извлечения как «грязных», так и «чистых» байтов из исходного среза генерируются отдельные методы для каждого типа.

Бенчмарки

Для тестов у меня есть 3 конфигурации, две из которых - это фичи, завязанные на portable_simd (доступны только в nightly-версии Rust). Тулчейн зафиксирован в репозитории через flake.nix. Если у вас процессор на архитектуре Zen 3 и выше, можно протестировать --features avx2, а для Zen 4+ доступна --features avx512(которая, лично мной, не тестировалась).

При больших объёмах текста есть проблемы с масштабированием — вероятно, это лечится более точными эвристиками и подбором global_allocator (я убрал его из публичной версии крейта). Ниже приведены результаты полного парсинга больших файлов:

┌─ corpus: plain
│ size: 280.17 MiB (293780000 bytes)
│ elements: 2 (0.0 per KiB)
│ span mem: 0.00 MiB (~0.0% of input, 8 B/span lower bound)

┌─ corpus: hot
│ size: 75.40 MiB (79060000 bytes)
│ elements: 6500000 (84.2 per KiB)
│ span mem: 49.59 MiB (~65.8% of input, 8 B/span lower bound)

┌─ corpus: heavy
│ size: 116.66 MiB (122322000 bytes)
│ elements: 12600000 (105.5 per KiB)
│ span mem: 96.13 MiB (~82.4% of input, 8 B/span lower bound)

Сами тестовые корпуса синтетические. В реальности разметка обычно менее плотная, поэтому на реальных данных масштабирование будет более объективным.

parse/plain/full time: [105.96 ms 106.08 ms 106.21 ms]
thrpt: [2.5762 GiB/s 2.5793 GiB/s 2.5822 GiB/s]

parse/hot/full time: [97.604 ms 97.740 ms 97.885 ms]
thrpt: [770.27 MiB/s 771.40 MiB/s 772.48 MiB/s]

parse/heavy/full time: [176.51 ms 176.74 ms 176.98 ms]
thrpt: [659.14 MiB/s 660.03 MiB/s 660.89 MiB/s]

Выше приведены результаты без использования portable_simd.

Fuzz-тестирование

Поскольку статья получается объёмнее, чем планировалось, кратко: 1 поток, включённый санитайзер (хотя unsafe в коде нет, для надёжности). Около 104 млн итераций, ((35k exec/s**, cov = 841.

Заключение

Курсовую работу я уже успешно защитил и даже релизнул первую версию, но эйфории от результата пока нет. Я вижу огромный роадмап, так что проект далёк от завершения. Название выбрано со смыслом — meon (привет философии, в которую меня влюбили на втором курсе).

Из минусов: проект сложно расширять и поддерживать из-за тысяч строк макросов. Ну и время компиляции, само собой, вырастает.

Исходный код проекта, ссылки на crates.io и подробную документацию можно найти в репозитории: GitHub

Открыт для критики и предложений.

Комментарии (7)


  1. Cheater
    19.06.2026 08:57

    2.5762 GiB/s

    Живая иллюстрация анекдота про блондинку, печатающую 600 символов в минуту.:) Markdown не плоский, например цитаты могут быть вложены друг в друга, как вы это представите плоским массивом слайсов? Если при парсинге не собирать AST, естественно инпут можно жрать гигабайтами в секунду, но то, что спарсено, это будет не markdown, а какое-то его упрощённое подмножество/диалект. Сделать производительный парсинг легко; трудно (невероятно трудно) организовать структуру данных для AST, которая показывает приемлемую производительность при редактировании.

    был необходим мгновенный доступ к конкретным типам данных. По этой причине pulldown-cmark я сразу отсёк

    При чём здесь тогда производительность парсинга, если речь про производительность доступа? Вы можете спарсить md неэффективным алгоритмом за O(N!) но выдать структуру данных с доступом за O(1). Ну и в любом pull down парсере при наступлении события входа в элемент можно просто взять и заполнять свою структуру индексов какую хочешь. В т.ч. индексировать куски текста с данным типом форматирования, как в вашем случае.

    ps: откуда у вас возьмётся инкрементальный репарсинг если на вход поступает весь текст? Инкрементальный репарсинг возможен только если парсер общается с редактором, который говорит ему, в какой позиции произошло изменение и какое оно.


    1. Vgnapuga Автор
      19.06.2026 08:57

      Markdown не плоский, например цитаты могут быть вложены друг в друга


      А кто с этим спорит?

      В моём случае вложенность определяется как интервал входящий в другой интервал. Все вектора отсортированы по стартовому оффсету, правда в данный момент вложенность ограничена лишь одним активным блоком, потому что это v0.1.0. Поверх всех этих векторов спокойно можно построить дерево или что надо.

      Тут суть не в парсинге Markdown, а в подходе к парсингу. Минимизация аллокаций в куче + уменьшение ветвлений через вырожденный генерируемый автомат состояний + декларативность. Markdown парсинг, в данном проекте, - демонстрация факта работы конкретной архитектуры.

      При чём здесь тогда производительность парсинга, если речь про производительность доступа?


      - Замеры идут по пропускной способности на конкретных входных данных, с конкретной плотностью, с конкретными размерами. По вашему мои слова про нелинейность масштабирования при выходе за кэш процессора - про доступ к данным? Так что тут буквально оптимизирована запись в память на уровне архитектуры, если мы говорим про парсинг.

      Про pulldown - там подход принципиально другой. pulldown-cmark ведёт итератор как event-stream. Это чисто физически не может вам обеспечить быстрый доступ к типу, потому что придётся бегать по всему итератору. И в итоге мы имеем - двухпроходный парсинг, который очевидно медленнее моего однопроходного, потом **N** количество `.next()` (с кучей ветвлений, если надо расфасовать каждый тип в свою структуру данных).

      Я же специально уклонялся от сравнений с pulldown, потому что хоть он и другой архитектурно, но его суть в соответствии спецификации. Это просто несправедливо сравнивать. Я указал ограничения, я указал преимущества внутри данной модели, я дал бенчмарки.


      1. Cheater
        19.06.2026 08:57

        По вашему мои слова про нелинейность масштабирования при выходе за кэш процессора - про доступ к данным?

        Ничего не понял. Вы продолжаете смешивать парсинг и доступ к данных внутри распарсенной структуры. Это 2 разных действия. Когда мне говорят “доступ к данным” я считаю что имелось в виду 2е действие.

        pulldown-cmark ведёт итератор как event-stream. Это чисто физически не может вам обеспечить быстрый доступ к типу, потому что придётся бегать по всему итератору.

        Ничего не понял. 1 раз проходимся по тексту любым парсером, хоть nom хоть pulldown-cmark, пусть он заполняет этот ваш struct MarkdownContent. Далее все гарантии по скорости доступа даёт MarkdownContent а не парсер.


        1. Vgnapuga Автор
          19.06.2026 08:57

          Так вот именно я про то, что это вы смешиваете два уровня. Доступ к данным чисто физически не может замеряться пропускной способностью. Это вопрос сложности, а не пс.

          И именно тут вытекает, что именно структура данных определяет сложность доступа к этим самым данным, верно. Но тут теперь важно смотреть не на конечный результат всей программы, а на то сколько шагов она делает и какие они уже по сложности. В моей реализации нет промежуточных шагов между парсингом и возможностью мгновенного доступа к типам. Если выводить данные в структуру после pulldown - эти шаги, очевидно, есть. Я даю доступ к типам из коробки без накладных расходов именно сверху самой реализации.

          Почему это имеет значение? Потому что библиотеки работают не в вакууме. После парсинга данные сто процентов зачем-то нужны.


    1. Vgnapuga Автор
      19.06.2026 08:57

      Про вот эту часть

      ps: откуда у вас возьмётся инкрементальный репарсинг если на вход поступает весь текст? Инкрементальный репарсинг возможен только если парсер общается с редактором, который говорит ему, в какой позиции произошло изменение и какое оно.

      • как на инкрементальность парсинга влияет то, поступил весь текст или дельта?

      Вообще слабо понимаю к чему этот вопрос, если всё, что я писал про инкрементальность -

      В рамках проекта мне необходимо редактирование данных, а значит, в идеале — и инкрементальный репарсинг. Поэтому я хотел отказаться от глобальных офсетов в пользу локальных (в рамках каждой строки). Но эту идею пришлось отложить, так как тогда я потерял бы возможность доступа к конкретным байтам данных за O(1).

      Локальные оффсеты на одну строку позволили бы мне избавиться от вечного сдвигания всех индексов после изменённой части. Но, как я и указал, я бы лишился возможность быстрого доступа, потому что для этого самого доступа я был бы обязан вычислять длину всех строк до той, где находится то, что я достаю.

      Да и в целом если опираться на то, что писал я в этой статье - Flutter проще воспринимал бы глобальные оффсеты, насколько мне известно.


      1. Cheater
        19.06.2026 08:57

        как на инкрементальность парсинга влияет то, поступил весь текст или дельта?

        напишите пожалуйста псевдокодом, как вы понимаете работу инкрементального парсера, если входом является весь текст


        1. Vgnapuga Автор
          19.06.2026 08:57

          Тут вам можно накидать бесчисленное множество вариантов. Если брать вот самый банальный из моей конкретной реализации - найти интервал внутри которого были изменения (а координаты изменения у нас есть, ибо тогда мы бы даже не знали об изменениях внутри буфера). Найти интервалы, в которые входит данный интервал. Перепарсить конкретно этот кусок. Вычислить смещения глобальных офсетов относительно старых данных. Прибавить дельту ко всем данным после.

          Это ну вот самый очевидный и не самый оптимальный вариант. Я искренне не понимаю почему мы ведём диалог про инкрементальность. Там буквально было сказано что эта идея отложена на потом.