Как я ускорил dependency injection в Python в 130 раз: от рефлексии до компиляции графа / forpes.ru

Главная
Как я ускорил dependency injection в Python в 130 раз: от рефлексии до компиляции графа

Как я ускорил dependency injection в Python в 130 раз: от рефлексии до компиляции графа +6

16.06.2026 12:01

VShulcz 7 8500 Источник

Про DI в Python вечно всплывает один и тот же спор: контейнер — это лишний оверхед, протащи зависимость в конструктор руками и не выдумывай. Звучит логично, я и сам так долго считал. Но логично — не число, поэтому в какой-то момент я сел и замерил: во что на самом деле обходится контейнер, когда резолвишь граф по кругу, и можно ли вообще догнать ручную сборку, не сломав при этом семантику.

Спойлер: подойти вплотную можно. Но интереснее тут не финальная цифра, а дорога к ней — почти каждый шаг пригодится и за пределами DI. Как ловить микрооверхед, который не виден в одном вызове. Как не бояться выкидывать код, который и так никогда не выполняется. И как не дать exec-кодогенерации молча сломать прод.

Как резолв DI ускорился с 52.9 до 0.40 мкс/оп

Стенд

Граф маленький, но жизненный для бэкенда: сверху синглтоны — конфиг и клиент, ниже транзиентные репозиторий, отправщик писем и аудит, и use-case RegisterUser, который тянет все три. Бенчмарк гоняет повторный резолв этого графа по кругу; рядом, как нижняя граница, — те же объекты, собранные руками. Машина одна и та же на всех замерах. Числа синтетические и завязаны на форму графа.

Отсчёт оказался отрезвляющим: руками — 0.27 мкс на операцию, наивный контейнер — 52.9. Почти в двести раз медленнее. Чтобы было ясно, что цифра взята не с потолка: punq, обычный рефлексивный контейнер, на том же графе даёт около 57 мкс. Так и выходит, если разбирать конструкторы на каждый вызов.

Откуда берутся 53 микросекунды

Наивный резолвер на каждый вызов лезет в конструктор: берёт inspect.signature, дёргает get_type_hints, по аннотациям рекурсивно достаёт зависимости и создаёт объект. Беда в том, что get_type_hints и разбор сигнатуры — дорогие: там вычисление аннотаций, обход MRO, аллокации. Один раз — ладно. Миллион раз нподряд — десятки+ микросекунд.

Напрашивается очевидное: разобрать граф один раз. При регистрации (или на первом резолве) читаем конструктор и складываем план: какие зависимости, в каком порядке, с каким временем жизни. Дальше резолв идёт по плану, без signature и get_type_hints вообще.

Один этот шаг убирает почти весь оверхед: 52.9 → 0.818 мкс, примерно в 65 раз. А дальше начинается то, что обычно уже не трогают.

Поворот первый: проверка, которая не могла сработать

Когда план закэширован, каждый быстрый конструктор оборачивался в защиту от циклов:

def create(scope):
    if cls in resolving:                 # защита от цикла
        raise CyclicDependencyException(cls)
    resolving.add(cls)
    try:
        return cls(dep0(scope), dep1(scope))
    finally:
        resolving.remove(cls)

Проверка множества, вставка, try/finally — на каждый узел и на каждый резолв. Кажется, без этого никак. Но есть нюанс: быстрый конструктор вообще создаётся только тогда, когда подграф уже доказанно без циклов. На этапе сборки плана, наткнувшись на цикл, компилятор возвращает None, и такой граф уходит на медленный интерпретируемый путь — там проверка и живёт. То есть на быстром пути условие cls in resolving не может выполняться никогда.

Это защита, которая физически не срабатывает. Я убрал её с быстрого пути; ловля циклов осталась там, где реально работает, — в интерпретаторе и в отдельной проверке графа. Циклический граф просто не получает быстрый конструктор и отлавливается как раньше. Минус несколько процентов на ровном месте.

Аллокация на каждый вызов

Профайлер подсветил ещё одну мелочь, которая дорого выходит из-за частоты. Сам resolve(Тип) для самого частого случая — резолв по типу, без имени и без скоупа — собирал ключ-кортеж (interface, None) и читал пару атрибутов регистрации. На один вызов — наносекунды, но вызовов миллионы. Прямой словарь тип → конструктор для этого случая (сбрасывается, когда меняются регистрации или включается тест-оверрайд) убирает и аллокацию кортежа, и лишние чтения.

Поворот второй: компилируем граф — и чуть не ломаем прод

Главный запас прятался в форме самого быстрого пути. Транзиентный граф собирался в дерево вложенных замыканий: резолв use-case дёргал замыкание use-case, оно — замыкание репозитория, оно — геттер синглтон-клиента. По вызову функции на каждый узел. Хуже того, общий синглтон, нужный двум соседям сразу, доставался дважды.

Лечится так: склеить всю цепочку транзиентных зависимостей в одну плоскую функцию — заинлайнить конструкторы и посчитать каждый общий синглтон один раз вместо двух. По сути — то, что в компиляторах зовут устранением общих подвыражений (CSE).

Дерево вложенных вызовов превращается в одну плоскую функцию

То есть это кодогенерация: по плану графа я собираю текст функции и поднимаю его через exec в замыкании с нужными символами. Листья — синглтоны, скоупы, инстансы — остаются прежними конструкторами (логику кэширования и отложенного создания у них не трогаю, беру как есть); плоской становится только транзиентная часть, ровно то, что крутится на каждом резолве. В сгенерированный текст не попадает ни одного имени класса или пользовательского значения — только служебные сгенерированные имена, так что подсунуть туда через исходник нечего.

Это и дало главный выигрыш: 0.818 → 0.401 мкс. От наивной версии — около 130 раз; теперь контейнер отстаёт от ручной сборки меньше чем в полтора раза.

И вот тут я чуть не затормозил. exec-кодогенерация в библиотеке — это риск особого сорта. Баг в ней не упадёт стектрейсом. Он молча соберёт не тот объект в проде: подсунет не ту реализацию, потеряет общий синглтон, перепутает порядок аргументов.

Поэтому катить на глаз я не стал и сделал фаззинг на эквивалентность. Смысл простой: генерим тысячи случайных графов без циклов, с разными временами жизни, опциональными и дефолтными параметрами; каждый граф резолвим двумя путями — скомпилированным и отдельным, нарочно тупым эталонным резолвером; и сравниваем не значения, а структуру результата. Те же классы и та же картина общих ссылок: где синглтон обязан быть одним объектом, где транзиент — разными.

4000 случайных графов — структура совпала на каждом

Чего компилятор не умеет — фабрики, property-инъекцию, инъекцию самого контейнера, циклы — он честно отдаёт None и откатывается на старый путь. Ровно эта проверка, а не вроде правильно, и есть причина, почему exec-код вообще доехал до релиза.

Честно про границы

Чтобы не создавать ложного ощущения. Числа синтетические и завязаны на форму графа: с кучей скоупов, асинхронными ресурсами или фабриками картина будет другой. Плоская компиляция ускоряет именно цепочки транзиентов с общими синглтонами; если почти везде фабрики или property-инъекция, выигрыша не будет — такие узлы и так идут по интерпретируемому пути. И ниже ~0.4 мкс в чистом Python без C-расширения уже не уехать, а это другой разговор про зависимости.

Итог

Версия	Резолв, мкс/оп	Что изменилось
руками	0.271	нижняя граница
наивный контейнер	52.9	рефлексия на каждом резолве
+ кэш плана	0.818	разбор конструкторов один раз
+ плоская функция, CSE, словарь-диспетчер	0.401	компиляция графа

Делал я это в рамках небольшого типизированного DI-контейнера, который веду (код и бенчмарк открыты — github.com/vshulcz/injex), если захочется покопаться в деталях. Но ценнее тут, сами приёмы.

Комментарии (7)

Tishka17
16.06.2026 14:31
#30117926
По моему опыту, компиляция всего графа в одну функцию не очень хорошо ложится на кэширование/обработку ошибок и прочее. Функции становятся гигантскими, код грязным и прочее оно тормозит уже на этом этапе.

Я компилирую каждую обертку над конструктором, не весь граф. Это всё ещё работает очень быстро и не лишает вас других фич, которых можно напридумывать миллион.

Вижу что вы сравниваете скорость с wireup и dependency-injector, а с dishka не пробовали?
1. VShulcz Автор
  16.06.2026 14:31
  #30118114
  Injex компилирует не весь граф в одну функцию, а только транзиентную цепочку. Листья - синглтоны, scoped, инстансы, остаются отдельными переиспользуемыми creators: синглтон в плоской функции - один вызов геттера, посчитанный раз, а не заинлайненная рекурсия. А всё, что компилятор не тянет (фабрики, property-инъекция, инъекция контейнера, циклы), честно откатывается на путь с обёрткой на узел / интерпретатор. Так что это скорее гибрид, чем одна мегафункция.
  
  Соглашусь, на глубоких или широких транзиентных графах сгенерированная функция растёт, и компиляция обёртки на конструктор (как у вас) заметно лучше композится с кэшем, обработкой ошибок, инструментацией, будущими фичами и тд. Трейсбэк в плоской функции тоже менее гранулярный. Я оптимизировал узкий частый случай и оставил фоллбэк, но за гибкость это плата.
  
  Спасибо, что навели на dishka, допишу в бенчмарк и вернусь с цифрой.
  
  А можете подробнее про вашу обёртку на конструктор? Это кодген через exec или сборка замыкания?
  1. Tishka17
    16.06.2026 14:31
    #30118162
    А, ну я всегда рассматривал transient как "костыль", которым никто не пользуется, ведь scoped объекты ничем не хуже, зато точно можно переиспользовать в скоупе. Надо будет повнимательнее посмотреть на ваш код, вызвана скорость отсутствием фич или конкретными механиками, уж действительно быстро вышло
    
    Я в dishka генерирую код на python и через exec преобразую. Это позволяет вырезать всякие ветки и разворачивать циклы. Например, так нет огранения на количество параметров функции (я вижу у вас отдельно расписаны варианта до 4)
    
    VShulcz Автор
    16.06.2026 14:31
    #30118204
    По механике мы в одну сторону смотрим - разница в том, что вы кодгените обёртку на конструктор, а я всю транзиентную цепочку разом.
    
    Про transient как "костыль":
    - у вас скоуп-центрично: scoped переиспользуется в скоупе, и этого достаточно.
    - у меня lifetime-центрично (singleton/transient/scoped), и transient - новый на каждый вызов.
    
    Не возьмусь утверждать, что лучше. Ваш "scoped ничем не хуже" - вполне рабочий аргумент.
    
    Прогнал dishka на том же графе: manual 0.264, injex 0.407, dishka 0.755, wireup same-scope 0.935, dependency-injector 1.721. Конечно, важна оговорка: граф синхронный, и сила dishka в async-ресурсах и явных scope, которых тут нет.
1. Genius_Russian_Coders
  16.06.2026 14:31
  #30119530
  Отлично. Интересно, как exec-кодогенерация работает с slots и frozen dataclass? Прямая установка атрибутов там ломается. И планы на async резолв для FastAPI?
  1. VShulcz Автор
    16.06.2026 14:31
    #30120014
    Со slots и frozen dataclass кодген работает нормально: генерится cls(dep0, dep1, …), объект создаётся через обычный init/dataclass-init, и Injex ничего не присваивает в инстанс напрямую.
    
    Но все такие ломается одно - property-инъекция: она делает setattr после конструирования, поэтому на frozen происходит FrozenInstanceError, на slots - AttributeError: no dict. Тут дело не в кодгене, так упадёт любой setattr подход. Для slots/frozen нужно брать конструкторную инъекцию, а property-инъекцию там просто не применять))
    
    Резолв сейчас синхронный. Для FastAPI можно: собрать контейнер один раз в lifespan и резолвить синхронно, а async живёт внутри методов уже собранных сервисов, а не на этапе конструирования, так что для обычной проводки async-резолв не нужен. Чего Injex сознательно не делает, так это управление жизненным циклом async-ресурсов, тут dishka/dependency-injector сильнее. Полноценный async-резолв с ресурсами запланирован на будущее.
  1. Tishka17
    16.06.2026 14:31
    #30120808
    exec-кодогенерация не меняет подход к созданию объектов, она позволяет делать инайлнинг, вырезание веток и разворачивание циклов.
    
    Условно, до кодгена был такой код
    
    res = cls(*(container.get(d) for d in deps)) if cached: cache[cls] = res
    
    то, имея cached=False, а deps=[int, str, A], мы можем вырезать иф, убрать распаковку и сгенерировать
    
    res = cls(container.get(int), container.get(str), container.get(A))
    
    Резвол асинк зависимостей в dishka есть, то я бы рекомендовал с этим быть осторожнее. С большой вероятностью (вероятно не всегда), если вы делает async-вызов при создании ресурса, вы смешиваете бизнес логику и просто получение зависимости. При этом я понимаю, что избежать async вызова при финализации ресурса будет сложнее

Как я ускорил dependency injection в Python в 130 раз: от рефлексии до компиляции графа +6

Стенд

Откуда берутся 53 микросекунды

Поворот первый: проверка, которая не могла сработать

Аллокация на каждый вызов

Поворот второй: компилируем граф — и чуть не ломаем прод

Честно про границы

Итог

Комментарии (7)

Tishka17

VShulcz Автор

Tishka17

VShulcz Автор

Genius_Russian_Coders

VShulcz Автор

Tishka17