Наша команда из почти ста человек, занимающихся обучением нейросетей, постоянно сокращается, потому что нейросети начали обучать себя сами. А недавно и материал для новых нейросетей тоже стали искать сами. Если кто-то еще пишет в футуристических статьях, что дипленинг – профессия будущего, то это будущее уже в прошлом, вот так быстро развивается ИИ.

Мы больше 20 лет занимаемся разработкой нейросетей, а наши учителя уже и все 50. Да, некоторых это удивит, но первые алгоритмы мы строили еще на базе деревянных спичек, а не компьютеров. Но никакой наш или чей-либо еще в России опыт не сравнится с сегодняшними возможностями GOOGLE, Microsoft, NVidia и прочих IT-гигантов, которые развивают нейросети с космической скоростью. Нам остается только включить телевизор и радоваться чужим успехам.

Тем не менее, до других миров можно добраться без космических скоростей, если знаешь, где прогрызть дырку в пространстве. Во всех случаях, т.к. российские бюджеты ограничены, остается только грызть. И совершенно неслучайно мы нашли метод быстрого сбора «биоматериала» для нейросетей. Сразу скажем, сегодняшний мир технологий устроен так: если мы что-то придумали, то пока это печатаем, в ста других местах уже повторили, а может быть и первее нас придумали, поэтому говорить об эксклюзивности никогда не стоит.

Был цейтнот по заказам, а срочно требовалось банкам найти защиту от утечки баз персональных данных посредством видеозаписи на телефон. Как всегда, нужно было порядка полмиллиона картинок со смартфонами и сегментировать их вручную. Казалось бы – что сложного, уж, чего-чего, а такого добра в Интернете навалом. К сожалению, фототеки поисковиков не сильно подходят для этих целей, потому что там все объекты сфотографированы в высоком качестве. А нужны предметы из жизни. Наша компания принципиально создает фоно-зависимые нейросети, чтобы повысить уровень качества.

Где взять «жизнь», самим фоткать? Полмиллиона постановочных сцен – года два работы. Но мы все вышли из цифрового видеонаблюдения. Поэтому фокус исследования сразу же был переведен на видеоконтент. В Интернете огромное количество фильмов разного качества, разных ракурсов и фонов. Достаточно запарсить какую-нибудь фильмотеку, прибавить рутюбовские и ютьюбовские любительские видеоролики, чтобы получить ту самую непостановочную съемку нужных нам объектов.

Крутая идея? Не надо ничего снимать самим – только отсматривай кино! Но по расчетам лежать на диване придется еще дольше – лет пять. Всё это не вписывалось в наш срочный заказ для банков, на реализацию которого было дано всего два месяца.

Дальше включается необъяснимая логика программиста, который придумывает алгоритм поиска ВСЕГО. (Разработчики нас поймут:) А давайте засегментируем всё, что есть в видеоконтенте. И тут тысячи вариантов, как это делать: от контрастных замкнутых зон до всех формул математической энциклопедии. Перебор первой сотни наиболее популярных алгоритмов сегментирования не приблизил нас к цели, но, возможно, и дал бы результат через пару лет. Тогда перегретая математикой логика программиста требует отдыха и предлагает какой-то, ну, совсем элементарный вариант: Давайте не будем ничего распознавать, просто сравним всё со всем и найдем похожие вещи. А потом решим, что это за вещи. Только сузим правило: искать лишь вещи в руках людей, чего-чего, а людей мы научились давно распознавать круто.

Практически сразу после запуска простейших средств сравнения изображений компьютер начал выдавать нам группы похожих объектов от бутылки до подарка на 8 Марта. В них было 800 подборок с мобильными телефонами. В каждой по тысячи — десяткам тысяч устройств одного и того же ракурса. Нам оставалось только 800 раз сказать, что эта штука – есть смартфон. Нейросеть была обучена за два дня!


Извините, что так долго рассказывали то, что можно поведать парой фраз. Для программиста важен не столько результат, сколько процесс. Если вы разработчик, то надеемся – получили удовольствие.

Самое главное, что таким простым способом теперь можно натаскивать нейросети на любые объекты, обгоняя возможности Гугл и Майкрософт (наверное). Мы берем огромные горы жизненного видео из Интернета и просто ищем похожие области относительно уже известных объектов. (Ну, все-таки тут мы немного опустили, что все-таки лучше написать нейросеть, которая изучает схожие фичи – так сказать, построить родильный процесс.) Дальше человек выбирает группу одинаковых объектов, которая ему нужна, например настольных ламп, и прибавляет к ней другие группы с этим же объектом из других ракурсов. Не надо ничего выкорчевывать – сегментировать. Два дня – готово. Скоро мы полностью оцифруем этот мир! Если до этого не оцифруют нас.