На стенде ваши модели обучаются буквально на десятках картинок вместо тысяч, и дают не меньше 86% точности, при этом обходят YOLO — без GPU-кластеров и эмэль‑псевдомагии.

Джекил и Хайд против священной коровы ML

Чуть больше 140 лет назад в Лондоне опубликовали готический роман Стивенсона “Странная история доктора Джекила и мистера Хайда”. Чтобы отметить этот юбилей, мы попросили их (Джекила и Хайда) помочь нам рассказать о новейших мировых достижениях в области компьютерного зрения, о которых почти никто пока не знает, но которые достигаются вот здесь, у всех под боком, на Руси (с небольшими нюансами некоторых удаленщиков). 

Кто где диктовал – угадайте сами.

Стенд, где десяток изображений и одна кнопка заменяют GPU-кластера и эмэль‑шаманство

Мы разработали уникальный во всех смыслах слова стенд. И с развитием стенда ML-щики будут ....й не нужны, потому что никаких действий от ML-щиков внутри больше требоваться не будет. Положите в стенд изображения (десяток‑другой, вместо тысяч),  понажимайте кнопки — получите результат.  

Чтобы пользоваться нашим стендом, не нужно быть айтишником, а можно – быть кем угодно. Вы можете  тренировать модель для себя. Айтишник может пригодиться на этапе наладки отправки данных с вашего приложения, камеры или чего угодно ещё в нашу систему, чтобы мгновенно получать ответ/результат. Либо для разметки данных, потому что у нас этого интерфейса пока еще нет.

Дальше – подробней.

Результаты стандартных бенчмарков

За последние пару недель мы поработали над детекцией и классификацией. Вот что получилось: Oracle Classification — 93.1%, Detection — 89.3%, mAP50 — 78.9%, mAP50‑95 — 60.0%. Предыдущие результаты: 87.3%, 84.2%, 78.1% и 58.9% соответственно.

Метрика

Было

Стало

Oracle Classification

87.3% 

93.1% 

Detection

84.2% 

89.3% 

mAP50

78.1% 

78.9% 

mAP50‑95

58.9% 

60.0% 

Классификация улучшилась почти на 6%, детекция — на 5.1% по нашим меркам. Конкретные COCO‑метрики выросли меньше: бенчмарки COCO сильно зависят от покрытия боксов и точности их размеров, а мы сейчас не максимизируем tight box prediction, а фокусируемся на детекции как таковой. Но нам не пришлось для того, чтобы сразу на несколько процентов улучшить и так SOTA-уровня результаты закупать GPU-кластеры, мы просто продолжили делать свою работу.

Кстати, наши модели очень-очень быстро тренируются. Чтобы вы понимали, RF-DETR, например, является первой реал-тайм моделью, которая получила > 60% на mAP50-95. (Хотя RF-DETR-2XL назвать реалтайм все-таки сложно, ибо она очень зависит от архитектуры GPU). Мы же получаем очень схожий результат, обладая скоростью намного выше, при этом не сосредотачиваясь на этой метрике и обрабатывая x4 скорость реал-тайма.

Очкарик, дай я добавлю. На днях немножк охреневшие сотрудники одного потенциального заказчика из горнодобывающей индустрии (почему охреневшие — в ближайшем памфлете напишем) загрузили в стенд 500 изображений, и получили сходу результат 86% детекции и классификации. Сходу, внимание. А не путём долгих дорогих эм‑эль извращений. Поднять этот результат до 95%+ для нас — относительно простая задача, благо мы уже разогнались по “рельсам распознавания”, которые же сами и построили. 

ML-индустрия плохо шарит в вычислениях

Мы давно знаем и даже иногда утверждаем, что вычисления не могут быть такими сложными, каковы они сегодня в ML-индустрии, что не нужно тратить на них, ...дь, ах.лиард времени. Но вся ML (или ИИ, это одно и то же в нашем понимании) индустрия находится в положении прилежного школьника‑хорошиста, который знает математическую базу, но далеко не всегда умеет её использовать по назначению. Городит огород из сложносочинённых решений**, хотя есть простой прямой путь*. 

И еще мы заметили, что вся индустрия обладает тенденцией решить задачу на минимальном уровне (каждый рост рекордных значений – чаще всего в пределах пары процентов), выставляя ценой увеличение количества необходимых ресурсов буквально в десятки раз. У той же самой DiNO, например, нет по сути необходимости обладать сотней миллионов параметров для решения задач – без большей части этих параметров модель продолжала бы решать задачи на почти том же самом уровне, максимум снизив точность своих ответов на 2-3 %.

*(Поясним, что имеем в виду под “простым путем”. ИИ-шники, не читаете, а то расстроитесь и побежите доказывать, что ИИ – вот где предел технологий по вычленению смыслов из информации/данных самым эффективным способом. 

Так вот, ТАРе, конечно, не простой путь – практика общения, создания гипотез, теорем, формул, технологий, продуктов и решений со всеми "типами" слушателей это показывает. Наоборот, это очень НЕпростой путь именно потому, что решения на базе ТАРе просты, возможно даже максимально просты, максимально настолько, как может сжиматься и разжиматься информация в мозге человека).

**(А было время, когда иишный гуру Хинтон ругался во время своих выступлений на "традиционных" учёных за сложность их гипотез, теорем, формул, доказательств и прочее, и во всеуслышание заявлял о том, что его-де подходы, которые теперь громко обозвали ИИ, всё позволяют делать очень просто).

Язык Мышления против священных архитектур

Тот самый прямой путь, неведомый эмэльщикам, мы реализовали в стенде, ибо TAPe – универсален, а не создавался для детекции или классификации или для какой-нибудь друго конкретной задачи или подзадачи распознавания.  Стенд позволяет нивелировать шаг за шагом всё то, что те, кто не в теме, считают магией, а сами ML‑щики с удовольствием поддерживают репутацию, что они делают что‑то охрененное, куда простым людям путь заказан. Что‑то делают, разворачивают какие‑то дорогущие хреновины, загоняют какие‑то данные, делают какую‑то “магию”.  Но магии и не нужно. Нужна “всего-навсего” скрупулезная, жесточайшая, выведенная миллиардами лет эволюции эффективность человеческого мышления. Мы вместе Джерри Фодором называем это Языком Мышления, который мы смогли воплотить в TAPe, а TAPe – в TAPe-технологиях. Это и есть прямой путь.

Наши результаты уже сейчас сопоставимы с файн‑тюнинговыми дорогущими моделями, вокруг которых глубочайше колдовали эмэльщики. Хотя мы еще далеко не все фишки завели в прод – работаем над тем, как ввести их, не раскрывая ноу-хау. 

Передаю слово очкарику.

Немного технической базы про наши эксперименты

Спасибо, дорогой. Наши эксперименты с улучшением классификации привели нас к улучшению детекции за счёт того, что обе эти «головы» (не совсем так, но так нам проще их называть) соединены друг с другом. Детекция видит лучшие направления, если классификация работает лучше, а также может правильней организовать конечный ответ. Конкретно: модель была улучшена четырьмя маленькими архитектурными изменениями.

  • Тремор. Во время сбора патчей из боксов самих объектов (GT) мы стали сдвигать весь бокс случайным образом по обеим координатам X и Y на небольшой процент (не более 5% суммарно, чтобы не ухудшать результаты детекции). Это стандартный приём регуляризации: тремор помогает модели не запоминать тренировочные данные, а искать правила во время обучения.

  • Кластеризация тренировочных данных по размерам объектов. Из‑за патчей каждый бокс порождал разное количество патчей, и модель начинала «угадывать» объект по этому косвенному сигналу. COCO при этом сам по себе обладает размерными байасами. Решение — балансировать тренировочные данные по размеру, чтобы убрать shortcut «маленький с резкими границами → бутылка».

  • Балансировка по соотношению сторон бокса. Модель научилась угадывать объекты по тому, вертикальный или горизонтальный бокс: автомобили сбоку шире, спереди/сзади ближе к квадрату. Балансировка уже и по размеру, и по aspect ratio снова выбивает этот костыль.

  • Прототипирование. Балансировка привела к тому, что доминирующие размеры стали реже показываться, модель начала «забывать» объекты. Прототипирование даёт несколько описаний на класс и удерживает подтипы в памяти, параллельно уменьшая эффект проблем из двух предыдущих пунктов.

Нам пора, мы уходим. (Уходят).

Итого: кого мы зовём в стенд и с чем

Дорогие руководители всего и вся ИТ-направлений, доступ к стенду с возможностью файн-тюнинга посредством работы не только стенда, но и нашего спеца по TAPe+ML даст вам не только глобальное сокращение затрат на вычислительную составляющую вашего ML-решения, но и не нужных штатных единиц. 

Забудьте о тонне GPU, кластерах, серверах и проч. Просто тренируйте на нашем стенде «свои» модели. Но не всем дадим доступ, только вменяемым* – предупреждаем сразу.  

Тренируйте, а мы будем смотреть на ваши данные и результаты, совершенствовать методы, способы, добавлять их в стенд, советовать вам улучшайзинг, какие конкретно для вас нужно выбрать показатели, чтобы достигнуть максимального результата внутри нашей системы. Именно так это сейчас уже и работает. 

Если вы хотите начать работать со стендом на своих данных — пишите в мне в телегу или в личку например @oopatow Дообучение модели плюсом к COCO-классам тоже является частью стенда, как и другие варианты работы с данными клиента. Если хотите зайти сразу с пилотом, доменной задачей или корпоративным сценарием — тоже пишите: обсудим, как быстро это превращается в рабочий пайплайн, а не в очередной бесконечный ML‑проект.

*Критерии вашей вменяемости

Вменяемые – это те, кто:

  • понимает, что быстро только кошки родятся и мухи женятся, и не требуют всего, сразу, вчера, бесплатно, да еще и рассказать всё ноу-хау, убедить, что мы не мошенники, а еще облизать и т.д.; такие сразу идут лесом;

  • хоть что-то находит для себя в датах, достижениях и в состоянии построить логический ряд, например: 

    • теорема Байеса 1763 г - начало применения в МЛ - 10-20-е 21-го века;

    • преобразование Фурье 1807 год - 1965 год метод Кули/Тьюки – применение в CV и ML – по сю пору; 

    • Хинтон - 1-я диссертация на около-эмэльную тему - 1978 г., далее переезд в США, хождения по Кремниевой долине, 1986 год - backpropagation (хотя и не он автор), Канада, Торонто, Университет, в 2012 г – AlexNet, ImageNet, гугл, Нобелевка в 2024. 

    • Можете сами продолжить с другими несомненно уважаемыми людьми и достижениями. Нам, например, нравится Хопфилд и его квантовые отжиги, ассоциативные памяти и тоже Нобелевкой по физике в 2024 году - опять за ML

    Тогда как Теория Активного Восприятия:

  • основы заложены в 20-м веке;

  • первые применения на очень, надо признаться, примитивном, если исходить из предельных возможностей TAPe, уровне – 2010-е; 

  • 2020 г – глубокий НиР; 

  • технологический прорыв для небывалой задачи поиска видео по видео – конец 2024; 

  • технологический прорыв по TAPe+ML – конец 2025; 

  • COCO и детекция на базе TAPe+ML – конец марта 2026; 

  • 1-я итерация стенда на базе TAPe+ML 8 мая 2026; 

  • дальнейшие прогнозы нашей семимильной скорости стройте сами.

Всем пис.

Комментарии (6)


  1. Flux82
    15.05.2026 19:30

    Вменяемые – это те, кто <...> не требуют <...> убедить, что мы не мошенники, а еще облизать и т.д.; такие сразу идут лесом;

    Мы разработали уникальный во всех смыслах слова стенд. И с развитием стенда ML-щики будут ....й не нужны, потому что никаких действий от ML-щиков внутри требоваться не будет

    Передаю слово очкарику. <... > Немного технической базы про наши эксперименты <...> Cпасибо, дорогой. 

    Ребята, вы попутали подворотню с Хабром. Хочется вас самих послать туда же. куда вы всех шлёте. А впрочем, идите.


    1. SiGum
      15.05.2026 19:30

      Согласен полностью. Дурное воспитание автору врядли поможет в продвижении своих идей. Остановил чтение на втором абзаце. Автору бы не машинным обучением заняться бы, а естесственным.


  1. MEGA_Nexus
    15.05.2026 19:30

    Либо для разметки данных, потому что у нас этого интерфейса пока еще нет.

    Т.е. кто-то сам размечает данные, а потом отправляет их вам, чтобы вы могли обучить свой инструмент\свои модели на них.

    За последние пару недель мы поработали над детекцией и классификацией. Вот что получилось: Oracle Classification — 93.1%, Detection — 89.3%, mAP50 — 78.9%, mAP50‑95 — 60.0%.

    Если вы такие классные, то нужно выходить на IPO, поднимать много-много денег и потом продаться какому-нибудь гуглу или OpenAI, ведь им нужны толковые стартапы и специалисты.


    1. oopatow Автор
      15.05.2026 19:30

      Тут, наверное, ключевой момент, кто кому и для чего данные отправляет.

      Тот, кто разметил данные, отправляет их нам на ресурс, и он же получает в конце свое решение, которое позволяет ему эти заложенные задачи решать на некоем максимуме по точности, то есть так называемой SOTA. И со всеми остальными плюсами, которые свойственны как теории TAPe, так и TAPe+ML. А именно быстродействие, минимальные вычислительные ресурсы, минимальные размеры параметров. , Использовать это для себя, а не для нас. Нам эти модели не нужны. Они нужны тем, кто решает ту или иную практическую задачу. На основании тех данных, которые есть у них. На основании тех данных, которые они считают важными для получения этого решения.


    1. oopatow Автор
      15.05.2026 19:30

      Если не по делу, то IPO сегодня в России и смежных стран - это удел либо топ-менеджмента, который хочет урвать кусок, либо просто неграмотных управленцев. Индустрия, да и экономика вообще, в глубочайшем кризисе, и сегодня думать надо компаниям не об IPO, а о том, как и где резать косты.

      Что касается непосредственно нас, то вы описали в целом стандартный путь компаний-стартапов; он может быть одним, может быть другим; кроме того, как вы знаете/догадываетесь, сегодня для компаний из России путь в global сильно осложнен, даже не будем тут вдаваться в многочисленные детали и нюансы, которые нам известны. Быть толковым специалистом где-либо - неинтересно. Нам интересен самостоятельный путь.


  1. aldanstar
    15.05.2026 19:30

    Не все ML это ИНС, но есть ощущение, что автор этого не понимает. Почему? Да потому что решение некорректных задач всегда численное, а не аналитическое. А раз численное - это уже ML, пусть не ИНС, но ML с полноценной математикой без всякой магии ИНС и методами эвристического подбора.