До свидания, любимые эмэльщики! Мы сделали стенд по компьютерному зрению, которым может воспользоваться каждый / forpes.ru

Главная
До свидания, любимые эмэльщики! Мы сделали стенд по компьютерному зрению, которым может воспользоваться каждый

До свидания, любимые эмэльщики! Мы сделали стенд по компьютерному зрению, которым может воспользоваться каждый

15.05.2026 18:01

oopatow 6 13000 Источник

На стенде ваши модели обучаются буквально на десятках картинок вместо тысяч, и дают не меньше 86% точности, при этом обходят YOLO — без GPU-кластеров и эмэль‑псевдомагии.

Джекил и Хайд против священной коровы ML

Чуть больше 140 лет назад в Лондоне опубликовали готический роман Стивенсона “Странная история доктора Джекила и мистера Хайда”. Чтобы отметить этот юбилей, мы попросили их (Джекила и Хайда) помочь нам рассказать о новейших мировых достижениях в области компьютерного зрения, о которых почти никто пока не знает, но которые достигаются вот здесь, у всех под боком, на Руси (с небольшими нюансами некоторых удаленщиков).

Кто где диктовал – угадайте сами.

Стенд, где десяток изображений и одна кнопка заменяют GPU-кластера и эмэль‑шаманство

Мы разработали уникальный во всех смыслах слова стенд. И с развитием стенда ML-щики будут ....й не нужны, потому что никаких действий от ML-щиков внутри больше требоваться не будет. Положите в стенд изображения (десяток‑другой, вместо тысяч), понажимайте кнопки — получите результат.

Чтобы пользоваться нашим стендом, не нужно быть айтишником, а можно – быть кем угодно. Вы можете тренировать модель для себя. Айтишник может пригодиться на этапе наладки отправки данных с вашего приложения, камеры или чего угодно ещё в нашу систему, чтобы мгновенно получать ответ/результат. Либо для разметки данных, потому что у нас этого интерфейса пока еще нет.

Дальше – подробней.

Результаты стандартных бенчмарков

За последние пару недель мы поработали над детекцией и классификацией. Вот что получилось: Oracle Classification — 93.1%, Detection — 89.3%, mAP50 — 78.9%, mAP50‑95 — 60.0%. Предыдущие результаты: 87.3%, 84.2%, 78.1% и 58.9% соответственно.

Метрика	Было	Стало
Oracle Classification	87.3%	93.1%
Detection	84.2%	89.3%
mAP50	78.1%	78.9%
mAP50‑95	58.9%	60.0%

Классификация улучшилась почти на 6%, детекция — на 5.1% по нашим меркам. Конкретные COCO‑метрики выросли меньше: бенчмарки COCO сильно зависят от покрытия боксов и точности их размеров, а мы сейчас не максимизируем tight box prediction, а фокусируемся на детекции как таковой. Но нам не пришлось для того, чтобы сразу на несколько процентов улучшить и так SOTA-уровня результаты закупать GPU-кластеры, мы просто продолжили делать свою работу.

Кстати, наши модели очень-очень быстро тренируются. Чтобы вы понимали, RF-DETR, например, является первой реал-тайм моделью, которая получила > 60% на mAP50-95. (Хотя RF-DETR-2XL назвать реалтайм все-таки сложно, ибо она очень зависит от архитектуры GPU). Мы же получаем очень схожий результат, обладая скоростью намного выше, при этом не сосредотачиваясь на этой метрике и обрабатывая x4 скорость реал-тайма.

Очкарик, дай я добавлю. На днях немножк охреневшие сотрудники одного потенциального заказчика из горнодобывающей индустрии (почему охреневшие — в ближайшем памфлете напишем) загрузили в стенд 500 изображений, и получили сходу результат 86% детекции и классификации. Сходу, внимание. А не путём долгих дорогих эм‑эль извращений. Поднять этот результат до 95%+ для нас — относительно простая задача, благо мы уже разогнались по “рельсам распознавания”, которые же сами и построили.

ML-индустрия плохо шарит в вычислениях

Мы давно знаем и даже иногда утверждаем, что вычисления не могут быть такими сложными, каковы они сегодня в ML-индустрии, что не нужно тратить на них, ...дь, ах.лиард времени. Но вся ML (или ИИ, это одно и то же в нашем понимании) индустрия находится в положении прилежного школьника‑хорошиста, который знает математическую базу, но далеко не всегда умеет её использовать по назначению. Городит огород из сложносочинённых решений**, хотя есть простой прямой путь*.

И еще мы заметили, что вся индустрия обладает тенденцией решить задачу на минимальном уровне (каждый рост рекордных значений – чаще всего в пределах пары процентов), выставляя ценой увеличение количества необходимых ресурсов буквально в десятки раз. У той же самой DiNO, например, нет по сути необходимости обладать сотней миллионов параметров для решения задач – без большей части этих параметров модель продолжала бы решать задачи на почти том же самом уровне, максимум снизив точность своих ответов на 2-3 %.

*(Поясним, что имеем в виду под “простым путем”. ИИ-шники, не читаете, а то расстроитесь и побежите доказывать, что ИИ – вот где предел технологий по вычленению смыслов из информации/данных самым эффективным способом.

Так вот, ТАРе, конечно, не простой путь – практика общения, создания гипотез, теорем, формул, технологий, продуктов и решений со всеми "типами" слушателей это показывает. Наоборот, это очень НЕпростой путь именно потому, что решения на базе ТАРе просты, возможно даже максимально просты, максимально настолько, как может сжиматься и разжиматься информация в мозге человека).

**(А было время, когда иишный гуру Хинтон ругался во время своих выступлений на "традиционных" учёных за сложность их гипотез, теорем, формул, доказательств и прочее, и во всеуслышание заявлял о том, что его-де подходы, которые теперь громко обозвали ИИ, всё позволяют делать очень просто).

Язык Мышления против священных архитектур

Тот самый прямой путь, неведомый эмэльщикам, мы реализовали в стенде, ибо TAPe – универсален, а не создавался для детекции или классификации или для какой-нибудь друго конкретной задачи или подзадачи распознавания. Стенд позволяет нивелировать шаг за шагом всё то, что те, кто не в теме, считают магией, а сами ML‑щики с удовольствием поддерживают репутацию, что они делают что‑то охрененное, куда простым людям путь заказан. Что‑то делают, разворачивают какие‑то дорогущие хреновины, загоняют какие‑то данные, делают какую‑то “магию”. Но магии и не нужно. Нужна “всего-навсего” скрупулезная, жесточайшая, выведенная миллиардами лет эволюции эффективность человеческого мышления. Мы вместе Джерри Фодором называем это Языком Мышления, который мы смогли воплотить в TAPe, а TAPe – в TAPe-технологиях. Это и есть прямой путь.

Наши результаты уже сейчас сопоставимы с файн‑тюнинговыми дорогущими моделями, вокруг которых глубочайше колдовали эмэльщики. Хотя мы еще далеко не все фишки завели в прод – работаем над тем, как ввести их, не раскрывая ноу-хау.

Передаю слово очкарику.

Немного технической базы про наши эксперименты

Спасибо, дорогой. Наши эксперименты с улучшением классификации привели нас к улучшению детекции за счёт того, что обе эти «головы» (не совсем так, но так нам проще их называть) соединены друг с другом. Детекция видит лучшие направления, если классификация работает лучше, а также может правильней организовать конечный ответ. Конкретно: модель была улучшена четырьмя маленькими архитектурными изменениями.

Тремор. Во время сбора патчей из боксов самих объектов (GT) мы стали сдвигать весь бокс случайным образом по обеим координатам X и Y на небольшой процент (не более 5% суммарно, чтобы не ухудшать результаты детекции). Это стандартный приём регуляризации: тремор помогает модели не запоминать тренировочные данные, а искать правила во время обучения.
Кластеризация тренировочных данных по размерам объектов. Из‑за патчей каждый бокс порождал разное количество патчей, и модель начинала «угадывать» объект по этому косвенному сигналу. COCO при этом сам по себе обладает размерными байасами. Решение — балансировать тренировочные данные по размеру, чтобы убрать shortcut «маленький с резкими границами → бутылка».
Балансировка по соотношению сторон бокса. Модель научилась угадывать объекты по тому, вертикальный или горизонтальный бокс: автомобили сбоку шире, спереди/сзади ближе к квадрату. Балансировка уже и по размеру, и по aspect ratio снова выбивает этот костыль.
Прототипирование. Балансировка привела к тому, что доминирующие размеры стали реже показываться, модель начала «забывать» объекты. Прототипирование даёт несколько описаний на класс и удерживает подтипы в памяти, параллельно уменьшая эффект проблем из двух предыдущих пунктов.

Нам пора, мы уходим. (Уходят).

Итого: кого мы зовём в стенд и с чем

Дорогие руководители всего и вся ИТ-направлений, доступ к стенду с возможностью файн-тюнинга посредством работы не только стенда, но и нашего спеца по TAPe+ML даст вам не только глобальное сокращение затрат на вычислительную составляющую вашего ML-решения, но и не нужных штатных единиц.

Забудьте о тонне GPU, кластерах, серверах и проч. Просто тренируйте на нашем стенде «свои» модели. Но не всем дадим доступ, только вменяемым* – предупреждаем сразу.

Тренируйте, а мы будем смотреть на ваши данные и результаты, совершенствовать методы, способы, добавлять их в стенд, советовать вам улучшайзинг, какие конкретно для вас нужно выбрать показатели, чтобы достигнуть максимального результата внутри нашей системы. Именно так это сейчас уже и работает.

Если вы хотите начать работать со стендом на своих данных — пишите в мне в телегу или в личку например @oopatow Дообучение модели плюсом к COCO-классам тоже является частью стенда, как и другие варианты работы с данными клиента. Если хотите зайти сразу с пилотом, доменной задачей или корпоративным сценарием — тоже пишите: обсудим, как быстро это превращается в рабочий пайплайн, а не в очередной бесконечный ML‑проект.

*Критерии вашей вменяемости

Вменяемые – это те, кто:

понимает, что быстро только кошки родятся и мухи женятся, и не требуют всего, сразу, вчера, бесплатно, да еще и рассказать всё ноу-хау, убедить, что мы не мошенники, а еще облизать и т.д.; такие сразу идут лесом;
хоть что-то находит для себя в датах, достижениях и в состоянии построить логический ряд, например:
- теорема Байеса 1763 г - начало применения в МЛ - 10-20-е 21-го века;
- преобразование Фурье 1807 год - 1965 год метод Кули/Тьюки – применение в CV и ML – по сю пору;
- Хинтон - 1-я диссертация на около-эмэльную тему - 1978 г., далее переезд в США, хождения по Кремниевой долине, 1986 год - backpropagation (хотя и не он автор), Канада, Торонто, Университет, в 2012 г – AlexNet, ImageNet, гугл, Нобелевка в 2024.
- Можете сами продолжить с другими несомненно уважаемыми людьми и достижениями. Нам, например, нравится Хопфилд и его квантовые отжиги, ассоциативные памяти и тоже Нобелевкой по физике в 2024 году - опять за ML
Тогда как Теория Активного Восприятия:
основы заложены в 20-м веке;
первые применения на очень, надо признаться, примитивном, если исходить из предельных возможностей TAPe, уровне – 2010-е;
2020 г – глубокий НиР;
технологический прорыв для небывалой задачи поиска видео по видео – конец 2024;
технологический прорыв по TAPe+ML – конец 2025;
COCO и детекция на базе TAPe+ML – конец марта 2026;
1-я итерация стенда на базе TAPe+ML 8 мая 2026;
дальнейшие прогнозы нашей семимильной скорости стройте сами.

Всем пис.

Комментарии (6)

Flux82
15.05.2026 19:30
#29977376
Вменяемые – это те, кто <...> не требуют <...> убедить, что мы не мошенники, а еще облизать и т.д.; такие сразу идут лесом;

Мы разработали уникальный во всех смыслах слова стенд. И с развитием стенда ML-щики будут ....й не нужны, потому что никаких действий от ML-щиков внутри требоваться не будет

Передаю слово очкарику. <... > Немного технической базы про наши эксперименты <...> Cпасибо, дорогой.

Ребята, вы попутали подворотню с Хабром. Хочется вас самих послать туда же. куда вы всех шлёте. А впрочем, идите.
1. SiGum
  15.05.2026 19:30
  #29981174
  Согласен полностью. Дурное воспитание автору врядли поможет в продвижении своих идей. Остановил чтение на втором абзаце. Автору бы не машинным обучением заняться бы, а естесственным.

MEGA_Nexus
15.05.2026 19:30
#29978184
Либо для разметки данных, потому что у нас этого интерфейса пока еще нет.

Т.е. кто-то сам размечает данные, а потом отправляет их вам, чтобы вы могли обучить свой инструмент\свои модели на них.

За последние пару недель мы поработали над детекцией и классификацией. Вот что получилось: Oracle Classification — 93.1%, Detection — 89.3%, mAP50 — 78.9%, mAP50‑95 — 60.0%.

Если вы такие классные, то нужно выходить на IPO, поднимать много-много денег и потом продаться какому-нибудь гуглу или OpenAI, ведь им нужны толковые стартапы и специалисты.
1. oopatow Автор
  15.05.2026 19:30
  #29979184
  Тут, наверное, ключевой момент, кто кому и для чего данные отправляет.
  
  Тот, кто разметил данные, отправляет их нам на ресурс, и он же получает в конце свое решение, которое позволяет ему эти заложенные задачи решать на некоем максимуме по точности, то есть так называемой SOTA. И со всеми остальными плюсами, которые свойственны как теории TAPe, так и TAPe+ML. А именно быстродействие, минимальные вычислительные ресурсы, минимальные размеры параметров. , Использовать это для себя, а не для нас. Нам эти модели не нужны. Они нужны тем, кто решает ту или иную практическую задачу. На основании тех данных, которые есть у них. На основании тех данных, которые они считают важными для получения этого решения.
1. oopatow Автор
  15.05.2026 19:30
  #29979508
  Если не по делу, то IPO сегодня в России и смежных стран - это удел либо топ-менеджмента, который хочет урвать кусок, либо просто неграмотных управленцев. Индустрия, да и экономика вообще, в глубочайшем кризисе, и сегодня думать надо компаниям не об IPO, а о том, как и где резать косты.
  
  Что касается непосредственно нас, то вы описали в целом стандартный путь компаний-стартапов; он может быть одним, может быть другим; кроме того, как вы знаете/догадываетесь, сегодня для компаний из России путь в global сильно осложнен, даже не будем тут вдаваться в многочисленные детали и нюансы, которые нам известны. Быть толковым специалистом где-либо - неинтересно. Нам интересен самостоятельный путь.

aldanstar
15.05.2026 19:30
#29978228
Не все ML это ИНС, но есть ощущение, что автор этого не понимает. Почему? Да потому что решение некорректных задач всегда численное, а не аналитическое. А раз численное - это уже ML, пусть не ИНС, но ML с полноценной математикой без всякой магии ИНС и методами эвристического подбора.