25–26 сентября состоялся Yandex Scale — ежегодное мероприятие Yandex Cloud, посвящённое новым технологиям облачной платформы. Если хотите узнать, зачем пользователи платформы данных вращали барабан и как Алиса справляется с удалением контейнеров, — этот пост для вас.
Меня зовут Вера, я редактор блога Yandex Cloud & Yandex Infrastructure, и в этом репортаже собрала самое главное с офлайн-площадки конференции для тех, кто не смог присоединиться очно.
Ключевые анонсы в паре строк и фото
Пятая юбилейная конференция прошла в гибридном формате и разделилась на два дня: в первый день подвели итоги развития облачной платформы за 5 лет (с оркестром и нейромузыкой) и обсудили возможности применения облака в отраслях.
На второй день запланировали главный технологический доклад и обзоры технических новинок в шести тематических треках: Infrastructure + Kubernetes, Data Platform, Machine Learning, Security, Serverless, Digital Workplace.
Сначала о самом громком, что анонсировали в этом году.
Запустили сервис речевой аналитики с суммаризацией YandexGPT. Yandex SpeechSense поможет анализировать записи разговоров и чаты операторов контакт‑центров. В сервисе после загрузки в облако аналитика речи проходит несколько этапов:
речь переводится в текст за счёт технологии распознавания Yandex SpeechKit;
при необходимости полученные тексты проходят автопроверку по скрипту;
расшифровка передаётся на анализ в YandexGPT, где можно отслеживать такие сложные показатели, как уровень эмпатии, эмоциональный тон, вовлечённость или удовлетворённость собеседников.
Cервис доступен в формате Private Preview и предоставляется пользователям облачной платформы по запросу.
Открыли исходный код BI‑инструмента Yandex DataLens. Сервис для анализа и визуализации данных теперь доступен в опенсорс‑версии, его может развернуть любой желающий и в любой инфраструктуре. Подробно о возможностях аналитики и деталях выхода в опенсорс можно прочитать в отдельном посте.
Презентовали облачный AntiDDoS с машинным обучением внутри. Сервис для защиты веб‑приложений Smart Web Security помогает отразить атаки на уровне L7. Чтобы выявлять сложные угрозы, Smart Web Security использует механизмы поведенческого анализа, алгоритмы машинного обучения и встроенную «капчу». В основе сервиса лежит внутренняя технология Яндекса «Антиробот», которая отбивает DDoS‑атаки на все сервисы компании. Благодаря этому ML‑алгоритмы в Smart Web Security постоянно дообучаются на большом объёме реального трафика.
Пока сервис также доступен в формате Private Preview. В будущем инженеры планируют добавить в него технологии WAF.
Подвели итоги закрытого тестирования YandexGPT. С июля 2023 года 800 компаний поучаствовали в закрытом тестировании генеративной языковой модели YandexGPT. ИТ‑разработчики, банки, ритейл и компании других отраслей попробовали технологии в десятках сценариев: для контентных задач, техподдержки, создания чат‑ботов, виртуальных ассистентов и других.
Благодаря запросам компаний облачный сервис дополнился новыми возможностями:
режимом чата, в котором технологии YandexGPT помогают поддерживать диалог и учитывать контекст беседы;
Fine tuning в сервисе машинного обучения DataSphere: так клиенты могут дообучать технологию на своих данных;
эмбеддингами — способами представления слов в виде числовых векторов, которые способствуют лучшему пониманию значения слов;
новинками модели Yandex GPT 2.
Показали сервис для работы с данными с помощью Apache Airflow. Управляемый сервис на основе опенсорс‑технологии для оркестрации данных поможет специалистам по ML и дата‑инженерам управлять обработкой данных в облаке. Apache Airflow в Yandex Cloud интегрируется с сервисами машинного обучения, объектным хранилищем, управляемыми СУБД и инструментами для анализа и визуализации данных.
Запустили сервис отправки транзакционных писем. Yandex Cloud Postbox позволяет клиентам облака по клику отправлять письма о работе своих сервисов в облачной инфраструктуре: например, об успешной подписке на услугу или смене статуса заказа в системе. Для отправки рассылок будут доступны интерфейсы, совместимые с AWS SES API и SMTP‑gateway.
Подробнее о технологиях вживую
В офлайн‑формате многие новинки хочется «потрогать». Так что для тематических стендов инженеры Yandex Cloud придумали несколько активностей:
Тестирование умных технологий. На стенде ML реализовали сценарий голосового умного поиска: посетители могли задать свой вопрос и получить ответ, обработанный SpeechKit, DataSphere и YandexGPT:
На стенде Kubernetes можно было попросить Алису запустить контейнер или решить другую DevOps-задачу:
Проверка профессиональной интуиции и удачи при работе с данными. Пользователи платформы данных могли пройти тест, насколько хорошо они знают сервисы и сценарии Data Platform, и заодно попытать счастья в «Колесе фортуны».
А на стенде Open Source можно было проверить себя в викторине по работе с документацией или испытать удачу своего пул-реквеста в «Плинко».
Диплодоки. Пожалуй, самая милая деталь конференции: на стенде Open Source среди продуктов с открытым исходным кодом представили новую платформу для создания технической документации Diplodoc. Посетители знакомились с возможностями создания документации в концепции Docs as Code и заодно создавали своих оригами-диплодоков. К концу второго дня было так:
Бессерверные лабиринты и другие, винтажные и не очень, игры. Реализовать бессерверную архитектуру, познать DevOps или проверить защиту от DDoS инженеры тоже предложили в игровом формате — так что можно было посоревноваться в построении бессерверного пайплайна, переставить контейнеры в Sokoban на винтажных музейных IBM и доказать всем: «я-не-робот».
Полезное для инженеров и разработчиков
Охватить шесть параллельных треков конференции в одном репортаже точно не удастся. Так что рекомендую посмотреть записи тематических треков, а я буквально в нескольких тезисах поделюсь, на что обратить внимание тем, кто планирует использовать новинки в своей разработке.
Трек Machine Learning заинтересовал посетителей в первую очередь докладом по YandexGPT, который прошёл в предельно заполненном зале. Посмотреть запись стоит всем, кто хочет узнать больше об особенностях обучения YandexGPT: какая система метрик использовалась при создании базовой модели и с какими сложностями столкнулась команда.
Самый технический доклад секции — «Инференс моделей и гибридный формат работы в DataSphere» — останавливается на деталях подключения локального контура и показывает примеры гибридных исполнений, которые можно реализовать в пару команд. Советую его практикующим ML‑инженерам, у которых возникают задачи обучения модели в облаке при наличии локального окружения.
А доклады по SpeechKit и SpeechSense будут интересны с точки зрения реализации конкретных сценариев: создания и применения уникальных голосов или повышения качества работы контакт‑центров. Рекомендую посмотреть, например, если вы давно хотели создать аудиоклон популярного и занятого руководителя.
В треке Infra + k8s объявили об открытии сервиса Yandex Cloud Backup — с сентября 2022 года он находился в стадии Preview, а теперь доступен для всех пользователей. В своём докладе разработчики сервиса показывают на примерах возможности управления резервными копиями в облачной платформе.
Этот трек также будет интересен всем, кто хочет узнать больше о внутренней кухне и хардкорной «физике» сервисов: как устроена сетевая связность новой зоны доступности, что интересного за кулисами сервиса Managed Kubernetes, как работает мониторинг масштабной инфраструктуры и за счёт чего в нём обеспечивается отказоустойчивость.
Трек Security открылся темой стратегии безопасности, где инженеры Yandex Cloud рассказали о работе над защитой всей облачной инфраструктуры в целом. Отдельный слот посвятили инструментам для предотвращения утечки учётных данных и представили большое обновление Identity and Access Management — сервиса для управления доступом к облачным ресурсам, в котором теперь есть новые возможности безопасно управлять доступом к ВМ по SSH, имперсонация сервисных аккаунтов и другое.
Вторая половина трека будет интересна тем, кому важно позаботиться о безопасной разработке: найти баланс между безопасностью и скоростью, защитить веб‑ресурсы, а также снизить риски атак на цепочки поставок.
В треке Data Platform поговорили о деталях реализации сервисов по работе с данными: в какую сторону развиваются DataLens и YDB, что нового в Yandex Data Transfer и других решениях для интеграции и обработки данных.
Отдельные доклады подробно представили возможности работы с Apache Airflow в Yandex Cloud и показали новинки аналитической СУБД Greenplum: Command center для анализа производительности, расширение Hybrid Storage для нативной интеграции с Object Storage.
В треке Serverless поговорили о проектировании, разработке и эксплуатации бессерверных приложений в целом, представили возможности serverless‑вычислений, которые появляются с монтированием объектного хранилища, показали обновления Yandex Data Streams и Yandex Query.
Оба трека, Data Platform и Serverless, также интересны опытом пользователей Yandex Cloud: рекомендую посмотреть клиентские доклады тем, кому интересно учиться на реализованных сценариях и чужих цифрах (особенно, когда со сцены звучит «это стоило рублей сто»).
Трек Digital Workplace также будет интересен практическими примерами: здесь собрали максимум опыта от клиентов из разных отраслей.
Если вы были на конференции, но не успели задать вопросы, не стесняйтесь задать их в тематических чатах:
А в комментариях к этому посту можно поделиться впечатлениями и рассказать, какую из тем хотелось бы увидеть во всех подробностях здесь на Хабре.
siv237
Почему вы решили в YandexGPT 2 использовать ChatGPT-3 от OpenAI вместо доработки своего полноценного движка?