Одна из базовых функций систем машинного зрения состоит в классификации объектов. Для решения этой задачи традиционно применяются методы обучения с учителем (SL). Эти методы обеспечивают высокую точность, но при этом размер нейросетевой модели увеличивается с увеличением количества классов. Такая особенность ограничивает применимость SL в тех случаях, когда число классов слишком велико или заранее неизвестно.
Эксперт отдела перспективных исследований компании «Криптонит» Никита Габдуллин предложил новую методологию, позволяющую добиться одного и того же размера нейросетевой модели независимо от числа классов. Это достигается за счёт использования предопределённых векторных систем в качестве целевой конфигурации скрытого пространства (Latent Space Configuration, LSC) во время обучения.
С проблемой раздувания классов сталкиваются во многих областях — от ритейла до научных исследований. Мы рассмотрим её на задаче распознавания лиц, где каждый человек (его ID) считается отдельным классом.
Существующий подход (SL) требует, чтобы размер последнего классификационного слоя был пропорционален количеству этих ID.
Когда число идентифицируемых лиц исчисляется миллионами, параметры этого слоя становятся просто астрономическими, а модель — непрактичной из-за непомерных требований к ресурсам (в частности — к видеопамяти). Это становится существенным барьером на пути к масштабированию.
В качестве решения этой проблемы эксперт «Криптонита» предложил радикально новый метод — LSC, который устраняет прямую зависимость между размером модели и числом классов. Вместо того, чтобы заставлять сеть запоминать каждый класс во всё увеличивающемся классификационном слое, LSC учит её проецировать входные данные — например, изображения лиц — в заранее заданную, фиксированную систему векторов в абстрактном скрытом пространстве.
Каждому ID ставится в соответствие уникальный вектор-цель, а задача нейросети состоит в том, чтобы научиться преобразовывать данные об уникальных лицах так, чтобы его векторное представление (эмбеддинг) оказывалось максимально близко к своему целевому вектору и далеко от всех остальных.
Для генерации этих целевых векторов исследователи использовали не случайные точки, а математически строгие конструкции, в частности, корневую систему An и её производные (Anp, Anr), которые обладают желаемыми свойствами для разделения объектов, будучи изначально равномерно распределёнными в пространстве заданной размерности.
Этот подход приводит к кардинальному сдвигу парадигмы: от устаревшей модели «классификационный нейрон на класс» к инновационной концепции «заданная позиция в пространстве на класс».
На практике это означает, что архитектура сети, например Vision Transformer (ViT), остаётся абсолютно неизменной, независимо от того, обучается ли она на сотне или на миллионе классов.
Важным экспериментальным достижением исследования, подтверждающим эту возможность, стало успешное обучение модели ViT-S на искусственно созданном наборе данных, где каждому из 1,28 миллиона изображений ImageNet-1K был присвоен уникальный ID, то есть количество классов достигло 1,28 миллиона.
В традиционной парадигме это потребовало бы добавления классификационного слоя с 1,28 млн нейронов. Однако с LSC модель ViT-S, имеющая фиксированный размер около 22 млн параметров, не только справилась с задачей, но и достигла впечатляющей точности обучения в 87,1%, что доказывает жизнеспособность метода на практике.
Именно здесь раскрывается главное технологическое преимущество LSC, подробно описанное в разделе 6.1 статьи, — кардинальное снижение нагрузки на графический процессор и её сниженный «аппетит» к видеопамяти.
Поскольку количество обучаемых параметров сети фиксировано, модель ViT остаётся компактной. Более того, в процессе обучения на видеопамять загружаются не все миллионы целевых векторов одновременно, что было бы катастрофично, а лишь небольшой их батч (Cb), соответствующий меткам в текущей мини-выборке данных.
Это означает, что потребление памяти определяется только размером батча изображений и архитектурой сети, но не общим количеством классов. Автор приводит наглядные расчёты: уже при 100 000 классов размер одного лишь традиционного классификационного слоя превышает размер всей основной модели (backbone), чего никогда не происходит с LSC, а модель ViT-B при традиционном подходе не позволяла загрузить в А100 40ГБ даже батч в 1 (одну!) запись уже при 10 миллионах классов.
Ещё одно преимущество метода LSC — отсутствие эффекта снижения точности определения известных классов после добавления новых. В традиционном варианте если мы хотим добавить новые классы (например, новых людей в систему распознавания лиц), приходится добавлять новые «выходы» со случайными начальными настройками. Из-за этих новых параметров работа всей сети временно ухудшается. Она начинает ошибаться даже на старых, знакомых категориях, пока не пройдёт долгий процесс переобучения на всём обновлённом наборе данных.
Метод LSC работает иначе. С ним параметры модели остаются неизменными, сколько бы новых категорий мы ни добавили. Это значит, что после добавления новых классов точность распознавания уже известных категорий не снижается.
Важным практическим результатом является также и то, что метод адаптируется под сложность задачи. В разделе 5.3 научной статьи показано, как с помощью интерполяции между корневыми векторами можно создавать ещё более плотные конфигурации для размещения экстремального числа классов, пусть и за счёт некоторого снижения скорости обучения.
Кроме того, эксперименты выявили, что для глубоких сетей и больших наборов данных равномерное распределение векторов не всегда является оптимальным; случайно перемешанные векторы (Anr) в ряде тестов показали лучшие результаты, достигнув на ImageNet-1K (1000 классов) точности в 84,6% с аугментацией и 87,9% без неё, что сравнимо с точностью классического подхода с кросс-энтропией (89%), но без его фундаментального ограничения на масштабируемость.
Предложенный метод LSC представляет собой не просто инженерную оптимизацию, а концептуальный прорыв в области создания масштабируемых систем искусственного интеллекта.
Решая ключевую проблему требований к памяти, новый метод открывает путь к обучению мощных моделей распознавания, способных идентифицировать десятки миллионов человек, без необходимости создания и развёртывания ресурсоёмких моделей.
Сам метод не привязан к распознаванию лиц и может использоваться в любых задачах классификации при экстремально больших количествах классов, типичных для систем машинного зрения. Он отражает смену парадигмы в подходах к обучению нейронных сетей и открывает дорогу для разработки более эффективных систем ИИ, способных работать с гигантскими наборами категорий.
Комментарии (4)

Kamil_GR
27.11.2025 10:21Отличная статья!
По сути LSC это фундаментальный сдвиг от "запоминания классов" к "проецированию в структуру". Задавая жесткую топологию целевого пространства, автор фактически отвязывает интеллект модели от размера её словаря. То есть для масштабирования нужно не наращивать веса, а создавать "чистые позиции" для смыслов.
https://docs.google.com/document/d/1S6t5tEiPmaRX6zMFhCMeRSIyyaOUT7yYVNpVtU5G66M/edit?usp=drivesdk
Цитата из статьи: Случайно перемешанные векторы в ряде тестов показали лучшие результаты, чем строго равномерные"
Это результат того что семантическое пространство неравномерно (кот-тигр или кот самолёт) и семантическая близость важна. То есть вектора должны быть оптимизированы по этому признаку.

AI-SHA Автор
27.11.2025 10:21Вы правы, здесь действительно есть связь. Отметим, что пока метод применялся только к классификаторам, но потенциальное применение к LLM может иметь свои перспективы. Семантическая близость и близость классов в обычных классификаторах действительно сводятся к близости эмбеддингов. То есть, с точки зрения оптимизации архитектуры нейросети и построения методики обучения эти задачи идентичны.
Vindicar
Ну т.е. сеть обучается выдавать эмбеддинги вместо номеров классов?
AI-SHA Автор
Да, сеть учится предсказывать эмбеддинги, которые соответствуют заранее заданным векторам-прототипам классов, и после номера классов определяются по близости к этим прототипам.