Мы — другие. Компьютерное зрение без миллионов параметров: практический разрыв SOTA / forpes.ru

Главная
Мы — другие. Компьютерное зрение без миллионов параметров: практический разрыв SOTA

Мы — другие. Компьютерное зрение без миллионов параметров: практический разрыв SOTA -1

19.06.2026 05:57

oopatow 9 5300 Источник

Краткий манифест-тизер; запомните этот твит.

Повторяем как мантру, чтобы она дошла до как можно большего количества людей. У YOLO, семейства DINO и прочих сетей - сотни миллионов и миллиардов параметров для решения задач детекции, классификации, сегментации. На фундаменте этих сетей по всему миру рождаются сервисы, которые позволяют решать какие-то задачи детекции, классификации, сегментации. В России они тоже есть: конечно, это не собственная разработка, не собственная архитектура, не собственная математика, а "всего лишь" надстройка со своими датасетами и пр.

У нас есть своя собственная универсальная модель компьютерного зрения – со своей собственной архитектурой – со своей собственной “математикой” ("математика" в кавычках, потому что в нашем случае классической математикой дело не исчерпывается). И нам для решения задач детекции, классификации, сегментации нужны не сотни и даже не десятки миллионов параметров, и уж тем более не миллиарды, а меньше 100 тыс. А точность при этом в худшем случае сопоставима с SOTA, а в обычном – превосходит SOTA.

Но как же так? С одной стороны миллионы и миллиарды параметров, а с другой – меньше 100 тыс. Это же гигантская разница. Что происходит? Что все это значит?

Это значит, что мы про что-то другое, чем все остальные ML-модели (и не только). Понятно, что эта разница на порядки в количестве параметров потом проецируется на “железо”, скорость, затраты и прочие штучки, важные для бизнеса. Да, мы можем, например, обрабатывать N число видеопотоков на очень маленьком количестве оборудования с очень плохих камер. И показывать при этом результаты лучше, чем SOTA.

Наши результаты скорее всего просто недостижимы для любых других сервисов, моделей и так далее. Мы уже говорили, что пиксели “вредят” ИИ: построить разрушенные (при переводе в пиксели) связи в исходном изображении ML может и не суметь, и уж точно не сумеет правильно – отсюда и миллиарды параметров.

Мы вводим понятие “лучше SOTA”.

У нас другая технология, другие методы, которые позволяют добиваться непредставимо лучших результатов – а вы уже сейчас можете придумывать задачи, которые казались вам нереализуемыми или очень трудно реализуемыми с текущими – SOTA ли, не-SOTA ли – технологиями.

Говорить, что нам нужно меньшее количество ресурсов – не совсем точно, потому что это не объясняет примерно ничего. Еще раз: как описать этот gap между сотней миллионов параметров и ста тысячью, между фермой NVIDIA Tesla T4 и CPU x2 Inel Xeon E5-2697 v2 @ 2.70GHz, ОЗУ 256 Гб памяти, DDR3, 1600 MT/s, при том что мы не задействуем видеокарту для их работы никаким образом, а ОЗУ используется меньше 2х гигабайт во время тренировки? Можно ли объяснить ли превосходство современных станков на заводах над ручной силой рабов Древнего Египта простым перечислением цифр мощности, скорости и проч.?

TAPe – это качественные изменения.

Если у нас для реальных задач с производства, где попробовали буквально всё, mAP-95 выше, чем у самых крутых ML, то о чем говорить? Рассматривать другие показатели? Точность? Точность у нас тоже лучше. Время обучения? Тоже лучше. А число изображений, необходимое для обучения модели на классе? Тоже другое. А “железка”, которая все это обрабатывает? Тоже другая.

И что же у нас тогда пересекается с современным так называемым классическим ML? Да ничего.

Мы даже сейчас не говорим, чтобы не забегать вперед, что если бы были чипы, работающие по TAPe, камеры, работающие по TAPe, то и наша модель была бы еще лучше. Точнее нет, вот так: тогда нашей модели не было бы, потому что она была бы не нужна, так как не нужен был бы ML, а нужен был бы чистый TAPe.

Посему мы и говорим о том, что у нас просто всё - другое, а то что у нас каждый параметр, на который принято обращать внимание, лучше, чем у любых конкурентов – это уже детали.

Как правильно все это сформулировать мы пока не знаем.

Эра TAPe, по крайней мере в научном плане, уже началась:)

То, что об этом знает небольшое количество людей, говорит лишь о наших маркетинговых возможностях. Мы уже реализовали TAPe научно, уже создали на основе TAPe продукты.

Может быть завтра появится где-то в мире новая модель, которая покажет точность в детекции лучше, чем у YOLO на несколько процентов, и об этом напишут обзоры, релизы, разборы, статьи, потратят маркетинговые бюджеты, чтобы об этом узнало как можно больше людей.

Но это же не то же самое, что десятки миллионов параметров vs меньше ста тысяч параметров. Это другое. Вообще – другое.

У нас: RF-DETR 2XL (127 млн параметров) достигли максимального показателя точности детекции на COCO-датасете mAP50-95 в 60.1 и это стало мировым бенчмарком. YOLO так и не смогли достичь этих высот. А мы сходу получили 62%.

И мы получили в классификации 86,6%, а Meta* с ее DINOv3 и 7 млрд параметрами - 88,4%.

Да, это звучит невероятно и вы можете не верить, но, во-первых, в обоих случаях (в детекции и классификации) у нас меньше 100 тыс. параметров.

А во-вторых – чуть не забыли сказать – это одна модель. Одна модель распознавания по TAPe.

Мы называем ее TAPe+ML v2 – и в ближайшее время напишем о ней статью и выложим в открытый доступ, как только докрутим обязательные технические нюансы. Ну и способы платежей за это чудо – не бесплатно же.

А пока здесь можно посмотреть файл презентации

*Запрещена в РФ

Комментарии (9)

TomskDiver
19.06.2026 07:51
#30129474
Просто почему все знают о YOLO, DINO и т.д.? Да просто потому что они бесплатные. Вот и всё... Но тут да, вам надо поднажать в маркетинг чтобы о вас заговорили как о ChatGPT когда-то. Ну хотя бы надо чтобы написали о вашей технологии не вы, а ваши клиенты которые от неё просто офигели!
1. oopatow Автор
  19.06.2026 07:51
  #30129502
  посмотрите пожалуйста требования к «железу», необходимому, чтобы развернуть хотя бы на YOLO свою модель для своих задач, посчитайте стоимость «железа», обучения, настройки, поддержки, потом поговорим про «бесплатно».
  1. TomskDiver
    19.06.2026 07:51
    #30129710
    Я говорил не про железо. А про доступ к модели. Я на домашнем ПК использую facebook/dinov2-large, мне норм (правда не дообучал, но думаю смогу, хоть может и не быстро). Может у вас и летает всё на компе за 20к, но модель сама стоит 100500? Нигде же ничего про порядок цен нет на вашу модель, ничего не понятно.
  1. ProLimit
    19.06.2026 07:51
    #30132146
    О каком запредельном железе речь? YOLO это модели, оптимизированные для edge / mobile, то есть они работают на самом простом железе и там далеко не сотни миллионов параметров. На моем Samsung S23 время инференса средней модели на HD картинке ~10..15ms и это вполне себе реалтайм. И поэтому они так всем нравятся - хорошо масштабируются под разное железо, удобный сервис для обучения на своем датасете, условно бесплатные (если не для бизнеса). Ну и архитектура там не самая простая, компания вложила много сил в ее разработку. У вас 100 тыс. параметров, это конечно круто, 100x меньше, но это не главный показатель. Что с оптимизацией под простые NPU у которых набор операций сильно урезан? В общем, хочется демонстраций. Где на входе jpeg, на выходе detection/segmentation/keypoints с хорошей точностью и крутится на любом GPU.

Flokis_guy
19.06.2026 07:51
#30130400
Насколько я понимаю, ваше архитектурное решение это собственный сильный препроцессинг. Отсюда и получаются красивые < 100k параметров и SOTA. Если у вас большая часть интеллекта зашита в TAPe-преобразовании, то сравнение с YOLO/DINO не особо честное.
1. oopatow Автор
  19.06.2026 07:51
  #30130964
  вы правы в том, что у нас "всё другое". но, надеемся, у вас нет тех же претензий к производителям электрокаров, которые сравнивают свои изделия с классическими моделями автомобилей, когда электродвигатель ведет к изменениям практически всего внутри авто? или можем попробовать в обычный автомобиль – какая у вас любимая марка? – просто "засунуть" электродвигатель и посмотреть, что будет. или давайте считать, что электрокары и авто с ДВС – это разного класса объекты из разных отраслей и разного назначения.
  
  принципы ML мы сохранили. просто мы меняем ML, и продолжим менять.
  1. Flokis_guy
    19.06.2026 07:51
    #30133098
    Аналогия с электрокарами как раз хорошо показывает проблему сравнения.
    
    Электрокар можно честно сравнивать с автомобилем с ДВС по результатам: разгон, запас хода, стоимость владения, ремонтопригодность, энергопотребление, ресурс, цена и так далее. Но было бы странно говорить, что электрокар лучше ДВС-авто просто потому что у него меньше цилиндров. У него вообще другая силовая установка.
    
    Так же и здесь, если TAPe это сильное преобразование входных данных в котором уже зашита значительная часть распознающей логики, то сравнение "у нас меньше 100 тыс. параметров, а у YOLO/DINO миллионы или миллиарды" не очень честное. Параметры нейросети в таком случае не описывают сложность всей системы.
    
    Поэтому наиболее корректное сравнение это сравнение системы с системой: качество, задержка обработки, CPU/GPU, RAM, время обучения, стоимость разметки, устойчивость к смене предметной области, воспроизводимость, размер и сложность всего конвейера обработки, а не только количество обучаемых параметров в ML-части.
    
    По поводу того, что вы сохранили принципы ML это тоже требует уточнения. Система с ручным или алгоритмическим преобразованием признаков и небольшой обучаемой моделью поверх вполне может считаться ML-системой. Но тогда нужен анализ вклада компонентов: TAPe без ML, TAPe + линейная модель, TAPe + MLP, обычный ML без TAPe, сравнение с одинаковыми наборами данных и одинаковым протоколом.
    
    Иначе остается открытым вопрос, а что именно дает качество, обучаемая модель или само TAPe-преобразование? Где доказательство, что нейросеть поверх TAPe действительно необходима, а не просто оформляет уже почти готовое решение?

Piterssh
19.06.2026 07:51
#30131650
Ну наконец-то! Почему все уперлись в эти "йоло"? Они неживые.

pi-null-mezon
19.06.2026 07:51
#30133408
Смешно)

Мы — другие. Компьютерное зрение без миллионов параметров: практический разрыв SOTA -1

Мы вводим понятие “лучше SOTA”.

TAPe – это качественные изменения.

Как правильно все это сформулировать мы пока не знаем.

Комментарии (9)

TomskDiver

oopatow Автор

TomskDiver

ProLimit

Flokis_guy

oopatow Автор

Flokis_guy

Piterssh

pi-null-mezon