Кейсы с YandexGPT, data-оркестр или бессерверный пайплайн: выбираем самое интересное с Yandex Scale’23 / forpes.ru

Главная
Кейсы с YandexGPT, data-оркестр или бессерверный пайплайн: выбираем самое интересное с Yandex Scale’23

Кейсы с YandexGPT, data-оркестр или бессерверный пайплайн: выбираем самое интересное с Yandex Scale’23 +8

29.09.2023 08:00

YandexCloudEditor 1 655 Источник

25–26 сентября состоялся Yandex Scale — ежегодное мероприятие Yandex Cloud, посвящённое новым технологиям облачной платформы. Если хотите узнать, зачем пользователи платформы данных вращали барабан и как Алиса справляется с удалением контейнеров, — этот пост для вас.

Меня зовут Вера, я редактор блога Yandex Cloud & Yandex Infrastructure, и в этом репортаже собрала самое главное с офлайн-площадки конференции для тех, кто не смог присоединиться очно.

Ключевые анонсы в паре строк и фото

Пятая юбилейная конференция прошла в гибридном формате и разделилась на два дня: в первый день подвели итоги развития облачной платформы за 5 лет (с оркестром и нейромузыкой) и обсудили возможности применения облака в отраслях.

В этом году анонсы посвящены инструментам орекстрации данных и моделям ИИ — напрашивалась идея с оркестром, которому немного помогает нейросеть

На второй день запланировали главный технологический доклад и обзоры технических новинок в шести тематических треках: Infrastructure + Kubernetes, Data Platform, Machine Learning, Security, Serverless, Digital Workplace.

Сначала о самом громком, что анонсировали в этом году.

Запустили сервис речевой аналитики с суммаризацией YandexGPT. Yandex SpeechSense поможет анализировать записи разговоров и чаты операторов контакт‑центров. В сервисе после загрузки в облако аналитика речи проходит несколько этапов:

речь переводится в текст за счёт технологии распознавания Yandex SpeechKit;
при необходимости полученные тексты проходят автопроверку по скрипту;
расшифровка передаётся на анализ в YandexGPT, где можно отслеживать такие сложные показатели, как уровень эмпатии, эмоциональный тон, вовлечённость или удовлетворённость собеседников.

Cервис доступен в формате Private Preview и предоставляется пользователям облачной платформы по запросу.

В треке ML успели обсудить подключение в будущем этой технологии и к другим источникам

Открыли исходный код BI‑инструмента Yandex DataLens. Сервис для анализа и визуализации данных теперь доступен в опенсорс‑версии, его может развернуть любой желающий и в любой инфраструктуре. Подробно о возможностях аналитики и деталях выхода в опенсорс можно прочитать в отдельном посте.

Доклад в треке Data Platform также коснулся новинок облачной версии

Презентовали облачный AntiDDoS с машинным обучением внутри. Сервис для защиты веб‑приложений Smart Web Security помогает отразить атаки на уровне L7. Чтобы выявлять сложные угрозы, Smart Web Security использует механизмы поведенческого анализа, алгоритмы машинного обучения и встроенную «капчу». В основе сервиса лежит внутренняя технология Яндекса «Антиробот», которая отбивает DDoS‑атаки на все сервисы компании. Благодаря этому ML‑алгоритмы в Smart Web Security постоянно дообучаются на большом объёме реального трафика.

Пока сервис также доступен в формате Private Preview. В будущем инженеры планируют добавить в него технологии WAF.

В треке Security раскрыли подробности, показали архитектуру и интерфейс сервиса

Подвели итоги закрытого тестирования YandexGPT. С июля 2023 года 800 компаний поучаствовали в закрытом тестировании генеративной языковой модели YandexGPT. ИТ‑разработчики, банки, ритейл и компании других отраслей попробовали технологии в десятках сценариев: для контентных задач, техподдержки, создания чат‑ботов, виртуальных ассистентов и других.

Благодаря запросам компаний облачный сервис дополнился новыми возможностями:

режимом чата, в котором технологии YandexGPT помогают поддерживать диалог и учитывать контекст беседы;
Fine tuning в сервисе машинного обучения DataSphere: так клиенты могут дообучать технологию на своих данных;
эмбеддингами — способами представления слов в виде числовых векторов, которые способствуют лучшему пониманию значения слов;
новинками модели Yandex GPT 2.

Показали сервис для работы с данными с помощью Apache Airflow. Управляемый сервис на основе опенсорс‑технологии для оркестрации данных поможет специалистам по ML и дата‑инженерам управлять обработкой данных в облаке. Apache Airflow в Yandex Cloud интегрируется с сервисами машинного обучения, объектным хранилищем, управляемыми СУБД и инструментами для анализа и визуализации данных.

Запустили сервис отправки транзакционных писем. Yandex Cloud Postbox позволяет клиентам облака по клику отправлять письма о работе своих сервисов в облачной инфраструктуре: например, об успешной подписке на услугу или смене статуса заказа в системе. Для отправки рассылок будут доступны интерфейсы, совместимые с AWS SES API и SMTP‑gateway.

Подробнее о технологиях вживую

В офлайн‑формате многие новинки хочется «потрогать». Так что для тематических стендов инженеры Yandex Cloud придумали несколько активностей:

Тестирование умных технологий. На стенде ML реализовали сценарий голосового умного поиска: посетители могли задать свой вопрос и получить ответ, обработанный SpeechKit, DataSphere и YandexGPT:

На стенде Kubernetes можно было попросить Алису запустить контейнер или решить другую DevOps-задачу:

Проверка профессиональной интуиции и удачи при работе с данными. Пользователи платформы данных могли пройти тест, насколько хорошо они знают сервисы и сценарии Data Platform, и заодно попытать счастья в «Колесе фортуны».

А на стенде Open Source можно было проверить себя в викторине по работе с документацией или испытать удачу своего пул-реквеста в «Плинко».

Диплодоки. Пожалуй, самая милая деталь конференции: на стенде Open Source среди продуктов с открытым исходным кодом представили новую платформу для создания технической документации Diplodoc. Посетители знакомились с возможностями создания документации в концепции Docs as Code и заодно создавали своих оригами-диплодоков. К концу второго дня было так:

Часть диплодоков поселились в нагрудных карманах и уехали вместе с участниками

Бессерверные лабиринты и другие, винтажные и не очень, игры. Реализовать бессерверную архитектуру, познать DevOps или проверить защиту от DDoS инженеры тоже предложили в игровом формате — так что можно было посоревноваться в построении бессерверного пайплайна, переставить контейнеры в Sokoban на винтажных музейных IBM и доказать всем: «я-не-робот».

А в эту игру можно будет поиграть и на других мероприятиях, так что пока без спойлеров

Полезное для инженеров и разработчиков

Охватить шесть параллельных треков конференции в одном репортаже точно не удастся. Так что рекомендую посмотреть записи тематических треков, а я буквально в нескольких тезисах поделюсь, на что обратить внимание тем, кто планирует использовать новинки в своей разработке.

Трек Machine Learning заинтересовал посетителей в первую очередь докладом по YandexGPT, который прошёл в предельно заполненном зале. Посмотреть запись стоит всем, кто хочет узнать больше об особенностях обучения YandexGPT: какая система метрик использовалась при создании базовой модели и с какими сложностями столкнулась команда.

Самый технический доклад секции — «Инференс моделей и гибридный формат работы в DataSphere» — останавливается на деталях подключения локального контура и показывает примеры гибридных исполнений, которые можно реализовать в пару команд. Советую его практикующим ML‑инженерам, у которых возникают задачи обучения модели в облаке при наличии локального окружения.

А доклады по SpeechKit и SpeechSense будут интересны с точки зрения реализации конкретных сценариев: создания и применения уникальных голосов или повышения качества работы контакт‑центров. Рекомендую посмотреть, например, если вы давно хотели создать аудиоклон популярного и занятого руководителя.

В треке Infra + k8s объявили об открытии сервиса Yandex Cloud Backup — с сентября 2022 года он находился в стадии Preview, а теперь доступен для всех пользователей. В своём докладе разработчики сервиса показывают на примерах возможности управления резервными копиями в облачной платформе.

Этот трек также будет интересен всем, кто хочет узнать больше о внутренней кухне и хардкорной «физике» сервисов: как устроена сетевая связность новой зоны доступности, что интересного за кулисами сервиса Managed Kubernetes, как работает мониторинг масштабной инфраструктуры и за счёт чего в нём обеспечивается отказоустойчивость.

Трек Security открылся темой стратегии безопасности, где инженеры Yandex Cloud рассказали о работе над защитой всей облачной инфраструктуры в целом. Отдельный слот посвятили инструментам для предотвращения утечки учётных данных и представили большое обновление Identity and Access Management — сервиса для управления доступом к облачным ресурсам, в котором теперь есть новые возможности безопасно управлять доступом к ВМ по SSH, имперсонация сервисных аккаунтов и другое.

Вторая половина трека будет интересна тем, кому важно позаботиться о безопасной разработке: найти баланс между безопасностью и скоростью, защитить веб‑ресурсы, а также снизить риски атак на цепочки поставок.

В треке Data Platform поговорили о деталях реализации сервисов по работе с данными: в какую сторону развиваются DataLens и YDB, что нового в Yandex Data Transfer и других решениях для интеграции и обработки данных.

Отдельные доклады подробно представили возможности работы с Apache Airflow в Yandex Cloud и показали новинки аналитической СУБД Greenplum: Command center для анализа производительности, расширение Hybrid Storage для нативной интеграции с Object Storage.

В треке Serverless поговорили о проектировании, разработке и эксплуатации бессерверных приложений в целом, представили возможности serverless‑вычислений, которые появляются с монтированием объектного хранилища, показали обновления Yandex Data Streams и Yandex Query.

Оба трека, Data Platform и Serverless, также интересны опытом пользователей Yandex Cloud: рекомендую посмотреть клиентские доклады тем, кому интересно учиться на реализованных сценариях и чужих цифрах (особенно, когда со сцены звучит «это стоило рублей сто»).

Трек Digital Workplace также будет интересен практическими примерами: здесь собрали максимум опыта от клиентов из разных отраслей.

Если вы были на конференции, но не успели задать вопросы, не стесняйтесь задать их в тематических чатах:

А в комментариях к этому посту можно поделиться впечатлениями и рассказать, какую из тем хотелось бы увидеть во всех подробностях здесь на Хабре.

Комментарии (1)

siv237
01.10.2023 22:54
#26018496
Почему вы решили в YandexGPT 2 использовать ChatGPT-3 от OpenAI вместо доработки своего полноценного движка?

Кейсы с YandexGPT, data-оркестр или бессерверный пайплайн: выбираем самое интересное с Yandex Scale’23 +8

Ключевые анонсы в паре строк и фото

Подробнее о технологиях вживую

Полезное для инженеров и разработчиков

Комментарии (1)

siv237