Привет, Хабр! Я Виктор Соловьев, бизнес-аналитик продукта «Цифровой вагон» в Первой грузовой компании. Не так давно мы в блоге обсуждали, почему страх, что «ИИ отнимет у вас работу» — в первую очередь поп-культурный феномен. А сегодня я хочу перевести эту тему в практическую плоскость и рассказать о том, чем ИИ-системы, наоборот, помогут и какие рутинные задачи можно уже сейчас делегировать алгоритмам.
Я отобрал несколько ИИ-инструментов (как популярных, так и не очень широко известных) и сгруппировал их по типам задач. Важно: Подобные подборки не могут охватить все существующие инструменты. Если вы не нашли здесь какие-либо сервисы, которые считаете полезными, делитесь ими в комментариях к материалу.
Работа с презентациями
Один из сервисов, которые автоматизируют процесс подготовки презентаций — Tome на базе OpenAI. Он помогает подобрать формулировки и иллюстрации, в том числе благодаря возможности искать и сразу же использовать референсы. Tome подготовит слайды на основе готового текстового материала: выстроит структуру и подберет вариант оформления. Внутри есть шаблоны, которые пригодятся стартаперам, фрилансерам и не только — например, чтобы презентовать продукт (в том числе на русском языке).
Другой инструмент — Gamma — позволяет генерировать не только презентации, но еще и документы. Получившиеся материалы можно редактировать: преобразовать текст в таблицу или поменять визуальный стиль одним кликом, — а также оставлять комментарии и «реакции» внутри презентации или документа. Решение часто называют гибридом Notion и Canva в силу широких возможностей визуализации и совместной работы.
Ключевой недостаток таких инструментов состоит в том, что контент зачастую сразу же выдает свое происхождение: по изображениям легко понять, что они сгенерированы. Тем не менее, подобные решения ускоряют работу над черновиками или первыми версиями презентаций. А если у вас в команде есть дизайнеры, которые могут отрисовать изображения в корпоративном стиле, то сгенерированные нейросетью картинки подойдут в качестве приблизительного референса.
Расшифровка аудио
Системы ИИ также помогут составить конспект лекции, подкаста, вебинара или совещания. Для этого есть инструменты по расшифровке аудиофайлов и видео самого разного уровня. Например, Whisper JAX, который поддерживает русский язык и позволяет сделать перевод расшифровки на английский. Решение основано на модели распознавания речи Whisper от OpenAI, но по сравнению с ней обрабатывает данные быстрее (инференс часового аудиофайла занимает около 75 секунд, хотя системам OpenAI требуется для этого порядка 126 секунд).
Более функциональный с пользовательской точки зрения сервис для расшифровки рабочих звонков — tl;dv — построен на модели GPT. Он позволяет записывать встречи, готовить транскрипты и делить саммари звонков на смысловые части. Однако в работе решения встречаются сложности — tl;dv иногда не записывает совещание до конца или не дает экспортировать текст.
Проблемы в работе таких систем обычно связаны с необходимостью учитывать различные языковые особенности. Порой и люди, говорящие на одном языке, не понимают друг друга, а для систем ИИ, модели которых зачастую обучены на американском английском, задача распознавания языковых нюансов становится одной из наиболее сложных. Однако появляются решения, способные преодолеть эти сложности — например, Speechmatics. Инструмент использует SSL-модель (Self-Supervised Learning), обученную на аудиофайлах длиною более миллиона часов, в том числе с примерами для различных языков и диалектов (распознает до 49 языков).
Поиск и саммари
Один из распространенных сценариев использования систем ИИ — подготовка саммари материалов (вроде текстовых отчетов или аудиозаписей совещаний и выступлений на конференциях), а также поиск ответов на бытовые и профессиональные вопросы.
Для таких целей можно использовать сервис Chord. Он анализирует источники в интернете и пишет мини-статьи по поисковым запросам: к примеру, его используют, чтобы найти информацию о смартфонах и принять решение о покупке или подобрать библиотеки для распознавания текста на изображениях. Что интересно, Chord указывает источники в подразделе под материалом (Research). Это могут быть Reddit-треды, статьи на CNET и другие текстовые публикации. Система анализирует источники на относительную достоверность и степень рекламности, а популярные материалы просматривают и правят редакторы-волонтеры. Сервису можно задать свой вопрос или выбрать из вопросов других пользователей — на них уже есть готовые ответы. Кстати, Chord понимает запросы на русском, хотя и выдает ответы на английском языке.
Еще одно решение — Frontdoor — построено на языковых моделях GPT-4 и Claude. Сервис позволяет последовательно работать с несколькими материалами — сохранять их и классифицировать по тегам, а также по типу контента. С помощью запросов в чате можно искать информацию по сохраненным материалам. Разработчики сервиса акцентируют внимание на его возможностях для работы над научными статьями и отчетами.
Однако традиционная проблема таких решений — галлюцинирование нейросетей. Классическая иллюстрация возможных последствий — случай с юристом из Нью-Йорка, который при подготовке к судебному процессу обратился к помощи ChatGPT. Он хотел найти прецеденты по делу, но система ИИ представила несуществующие варианты, которым судья не нашел подтверждения.
Еще один частный случай галлюцинирования связан с подменой программных зависимостей. Злоумышленники выявляют запросы, в ответ на которые нейросеть устойчиво выдает несуществующие компоненты, а затем реализуют вредоносы под нужным названием. Конечно же, над проблемой LLM-галлюцинирования давно работают, например, внедряют подход RLHF (reinforcement learning from human feedback) с обучением модели вознаграждения (reward model) и дообучением с ее помощью больших языковых моделей. Другой способ повышения точности ответов — методика RAG (retrieval augmented generation), когда вместе с пользовательским запросом на вход системе подают дополнительную релевантную информацию из внешних источников.
Сравнительный кейс
Саммари можно также подготовить с помощью YandexGPT и GigaChat. Я протестировал их возможности и взял для этого запись выступления «ИИ, которому доверяю» Максима Катрушенко, эксперта по анализу данных и машинному обучению в ПГК.
Чтобы сделать расшифровку, я получил аудиоверсию выступления в MP3-формате с помощью сервиса Convertio, где выбрал относительно низкие параметры качества, чтобы уменьшить размер аудиофайла. Далее — передал аудиофайл (~30 Мбайт) smartspeech_sber_bot'у, предварительно разделив его на две части, чтобы обойти ограничения бота. Результат просмотрел на предмет разорванных слов и предложений.
После первого теста YaGPT результат выглядел так, как будто сервис выдал его на основании не всего текста, а только его первой части. Поэтому я решил разбить транскрипт на короткие фрагменты (примерно по 4000 символов) и отдать их на обработку GigaChat и YaGPT с одинаковым промтом: «Сделай экстракт из следующего текста …». Вот примеры саммари для первого фрагмента:
Исходный текст выступления
Добрый день, меня зовут Катрушенко Максим, я эксперт по анализу данных, машинному обучению в ПГК Digital. Сегодня расскажу про ИИ, которому доверяю. У меня 6 лет опыта в Data Science, специализируюсь на математической оптимизации, веду проекты от проработки бизнес-требований до внедрения в систему принятия решений в крупных логистических компаниях, таких как Деловые Линии, Газпромнефть, но сейчас говорю из ПГК. ПГК – это крупнейший частный оператор ЖД-перевозок. Около 100 тысяч вагонов, более 100 миллионов тонн компания перевезла в 2022 году. Ну а так это топ-1 частных перевозок ЖД-дорожных в России. Топ-1 оператор. Кроме того, что это компания, крупнейший перевозчик, оператор-перевозчик, это еще и мощная цифровая команда ПГК Digital. Создаем цифровые продукты для логистики, внедряем эти решения как для клиентов, так и для внутренних проектов. У нас порядка 150 проектов, 6 из них основных, представлены на слайде. Скажу про… что у нас главное, это оптимизатор, навигатор, бюро-вагон, цифровой вагон, ну и как дополнение это личный кабинет и мобильный репортер. В навигаторе решается задача по выбору вагонов и направление их на выполнение заявок, оптимизатор отбирает нужные заявки, беру вагон, это как аналог Яндекс.Такси, только в ЖД, а цифровой вагон – это система сопровождения вагонов в процессе перевозки грузов и принятие решений по отправке их в ремонт, если это необходимо. Я член команды «Цифровой вагон». Соответственно, если вас интересует, какие у нас есть вакансии и компании, предлагаю перейти по QR-коду. Мы активно набираем и активно развиваемся, так что присоединяйтесь к команде, будем рады.
Саммари YaGPT
Максим Катрушенко - эксперт по анализу данных, машинному обучению и математической оптимизации с 6-летним опытом. В настоящее время работает с “ПГK” - крупнейшим частным оператором железнодорожных перевозок в России, с оборотом в 100 миллионов тонн в 2022 году. Компания также является лидером в сфере частных железнодорожных перевозок. Основная цель компании - оптимизация логистики с помощью цифровых продуктов и решений. Среди проектов компании - “Цифровой вагон” - система сопровождения вагонов при перевозке грузов.
Саммари GigaChat
Меня зовут Катрушенко Максим, я эксперт по анализу данных машинного обучения по digital. Расскажу о проекте ii, которому доверяю. У меня 6 лет опыта работы в области анализа данных и разработки программного обеспечения. Специализируюсь на математической оптимизации и ведении проектов от проработки бизнес-требований до внедрения систем принятия решений в крупных логистических компаниях, таких как Деловые Линии Газпромнефть. В настоящее время являюсь членом команды цифровой платформы для грузоперевозок DPD в России. Также имею опыт работы с личным кабинетом и мобильным репортером в системе навигации и отслеживания вагонов. В рамках проекта ii буду работать над оптимизацией процесса выбора вагонов для выполнения заявок. Хочу подчеркнуть важность долгосрочных отношений между участниками проекта и понимание ими взаимных обязательств. Готов предложить условия конкурса для определения победителя, которые будут включать мерч от компании Деловые Линии Газпромнефть и возможность дальнейшего развития проекта.
Результат получился неплохим (хотя выше видно, что GigaChat в данном конкретном отрывке «запутался», в какой же компании и над чем сейчас работает Максим), при этом на каждом этапе были свои нюансы. Например, в GigaChat стоит обнулять диалог с ботом, иначе проявляет себя галлюцинирование. А YaGPT на некоторые запросы отвечал, что не готов обсуждать тему, хотя в тексте не было ничего запрещенного — Максим рассказывал про работу с системами ИИ, KPI, атрибуты доверия и прочее.
Системы ИИ, конечно, все еще требуют совершенствования, но уже способны снять с нас часть рутины. Простые, повторяющиеся или просто нудные задачи — то, что вполне можно им делегировать. Конечно, результат придется оценивать критически на предмет галлюцинирования, а возможно и дорабатывать, но это все равно быстрее, чем делать все с нуля вручную. В конце концов, иногда для старта нужно просто с чего-то начать — вот этот старт или первый рабочий драфт бывает удобно переложить на плечи нейросети.
Samr1
Спасибо за обзор! Каждый подобный анонс открываю с надеждой на избавление от рутины. Но реально ли за упомянутыми ИИ-помощниками не нужно перепроверять?
Про презентации, условно они делятся на два типа: забивающие или разгружающие сенсорику. Первые для вау эффекта, вторые для понимания. ИИ-ассистенты заточены преимущественно на первые, что здорово для продаж, но не для квартального совещания. И опять же, презентация продажников точится не один месяц через а/б.
Про поиск, сейчас так много информационного мусора, что само саммари по поиску нужно перепроверять, конечно это зависит требуемого качества к документу. Плюс галлюцинации, о которых было очень точно указано.
Расшифровка созвонов и саммари по тексту, на мой взгляд пока самые полезные сервисы, но и их перепроверяет ассистент на точность распознания речи и фиксацию контекста типа "ну вы понимаете" + гримаса на лице спикера.
Увы, обычно издатели публикуют пару успешных кейсов, которые пока не экстраполируются даже на примитивные, но реальные задачи. Интересно, как у вас? Сколько человеко-часов получилось высвободить и по каким задачам?
И не совсем понял, при чем здесь алгоритмы из названия?
dmitrykabanov
Frontdoor, кстати, достаточно элегантно придумали заход с подтягиванием научных статей. Таким образом они формируют релевантный контекст к промптам и на его основе могут генерить ответы по делу
solovevva Автор
Большое спасибо что поделились. Интересный инструмент????
Samr1
Спасибо за наводку!
solovevva Автор
Спасибо за комментарий. Соглашусь, что подготовка транскрипции и саммари из статей, видео и аудио записей наверное самый распространенный кейс. Причем это уже становится стандартом и такие сервисы как zoom и Контур.Толк предлагают встроенные функции текстовой расшифровки. Яндекс браузер умеет делать саммари видео из YouTube, а так же делать перевод видел на лету. Все это позволяет экономить время на поиск нужной информации. В остальных кейсах когда AI используется для подготовки драфта презентаций и других рабочих материалов все еще нужно быть очень осторожным и обязательно использовать фактчекинг. В любом случае у меня AI уже уверенно занимает место второго пилота и помогает точно помогает на старте формирования решения задач.