25–26 сентября состоялся Yandex Scale — ежегодное мероприятие Yandex Cloud, посвящённое новым технологиям облачной платформы. Если хотите узнать, зачем пользователи платформы данных вращали барабан и как Алиса справляется с удалением контейнеров, — этот пост для вас.
Меня зовут Вера, я редактор блога Yandex Cloud & Yandex Infrastructure, и в этом репортаже собрала самое главное с офлайн-площадки конференции для тех, кто не смог присоединиться очно.
![](https://habrastorage.org/getpro/habr/upload_files/8f3/a61/9b8/8f3a619b8b2442359ea4b83a99e5a9eb.jpg)
Ключевые анонсы в паре строк и фото
Пятая юбилейная конференция прошла в гибридном формате и разделилась на два дня: в первый день подвели итоги развития облачной платформы за 5 лет (с оркестром и нейромузыкой) и обсудили возможности применения облака в отраслях.
![В этом году анонсы посвящены инструментам орекстрации данных и моделям ИИ — напрашивалась идея с оркестром, которому немного помогает нейросеть В этом году анонсы посвящены инструментам орекстрации данных и моделям ИИ — напрашивалась идея с оркестром, которому немного помогает нейросеть](https://habrastorage.org/getpro/habr/upload_files/b65/ed2/d52/b65ed2d52f816e72e0a7c74172faa6ca.jpg)
На второй день запланировали главный технологический доклад и обзоры технических новинок в шести тематических треках: Infrastructure + Kubernetes, Data Platform, Machine Learning, Security, Serverless, Digital Workplace.
Сначала о самом громком, что анонсировали в этом году.
Запустили сервис речевой аналитики с суммаризацией YandexGPT. Yandex SpeechSense поможет анализировать записи разговоров и чаты операторов контакт‑центров. В сервисе после загрузки в облако аналитика речи проходит несколько этапов:
речь переводится в текст за счёт технологии распознавания Yandex SpeechKit;
при необходимости полученные тексты проходят автопроверку по скрипту;
расшифровка передаётся на анализ в YandexGPT, где можно отслеживать такие сложные показатели, как уровень эмпатии, эмоциональный тон, вовлечённость или удовлетворённость собеседников.
Cервис доступен в формате Private Preview и предоставляется пользователям облачной платформы по запросу.
![В треке ML успели обсудить подключение в будущем этой технологии и к другим источникам В треке ML успели обсудить подключение в будущем этой технологии и к другим источникам](https://habrastorage.org/getpro/habr/upload_files/779/e70/d45/779e70d451ce9b8a68431917d0cef324.jpg)
Открыли исходный код BI‑инструмента Yandex DataLens. Сервис для анализа и визуализации данных теперь доступен в опенсорс‑версии, его может развернуть любой желающий и в любой инфраструктуре. Подробно о возможностях аналитики и деталях выхода в опенсорс можно прочитать в отдельном посте.
![Доклад в треке Data Platform также коснулся новинок облачной версии Доклад в треке Data Platform также коснулся новинок облачной версии](https://habrastorage.org/getpro/habr/upload_files/f3e/311/b32/f3e311b321aa83d8e02270197ef8aa74.jpg)
Презентовали облачный AntiDDoS с машинным обучением внутри. Сервис для защиты веб‑приложений Smart Web Security помогает отразить атаки на уровне L7. Чтобы выявлять сложные угрозы, Smart Web Security использует механизмы поведенческого анализа, алгоритмы машинного обучения и встроенную «капчу». В основе сервиса лежит внутренняя технология Яндекса «Антиробот», которая отбивает DDoS‑атаки на все сервисы компании. Благодаря этому ML‑алгоритмы в Smart Web Security постоянно дообучаются на большом объёме реального трафика.
Пока сервис также доступен в формате Private Preview. В будущем инженеры планируют добавить в него технологии WAF.
![](https://habrastorage.org/getpro/habr/upload_files/b39/a35/1cf/b39a351cf54961f842c63e49223bcd56.jpg)
Подвели итоги закрытого тестирования YandexGPT. С июля 2023 года 800 компаний поучаствовали в закрытом тестировании генеративной языковой модели YandexGPT. ИТ‑разработчики, банки, ритейл и компании других отраслей попробовали технологии в десятках сценариев: для контентных задач, техподдержки, создания чат‑ботов, виртуальных ассистентов и других.
![](https://habrastorage.org/getpro/habr/upload_files/c2c/784/bc2/c2c784bc25552f6d607533d354dab52c.png)
Благодаря запросам компаний облачный сервис дополнился новыми возможностями:
режимом чата, в котором технологии YandexGPT помогают поддерживать диалог и учитывать контекст беседы;
Fine tuning в сервисе машинного обучения DataSphere: так клиенты могут дообучать технологию на своих данных;
эмбеддингами — способами представления слов в виде числовых векторов, которые способствуют лучшему пониманию значения слов;
новинками модели Yandex GPT 2.
Показали сервис для работы с данными с помощью Apache Airflow. Управляемый сервис на основе опенсорс‑технологии для оркестрации данных поможет специалистам по ML и дата‑инженерам управлять обработкой данных в облаке. Apache Airflow в Yandex Cloud интегрируется с сервисами машинного обучения, объектным хранилищем, управляемыми СУБД и инструментами для анализа и визуализации данных.
![](https://habrastorage.org/getpro/habr/upload_files/6fb/d6c/f2c/6fbd6cf2c631d7797914ee166739fcb1.jpg)
Запустили сервис отправки транзакционных писем. Yandex Cloud Postbox позволяет клиентам облака по клику отправлять письма о работе своих сервисов в облачной инфраструктуре: например, об успешной подписке на услугу или смене статуса заказа в системе. Для отправки рассылок будут доступны интерфейсы, совместимые с AWS SES API и SMTP‑gateway.
![](https://habrastorage.org/getpro/habr/upload_files/292/dd2/063/292dd2063447d3e417344566e5678f03.jpg)
Подробнее о технологиях вживую
В офлайн‑формате многие новинки хочется «потрогать». Так что для тематических стендов инженеры Yandex Cloud придумали несколько активностей:
Тестирование умных технологий. На стенде ML реализовали сценарий голосового умного поиска: посетители могли задать свой вопрос и получить ответ, обработанный SpeechKit, DataSphere и YandexGPT:
![](https://habrastorage.org/getpro/habr/upload_files/af2/247/25d/af224725d5a2899681ccb3e2336ffa6d.jpg)
На стенде Kubernetes можно было попросить Алису запустить контейнер или решить другую DevOps-задачу:
![](https://habrastorage.org/getpro/habr/upload_files/e20/de7/6c0/e20de76c0b285a46a87b614c395dca74.png)
Проверка профессиональной интуиции и удачи при работе с данными. Пользователи платформы данных могли пройти тест, насколько хорошо они знают сервисы и сценарии Data Platform, и заодно попытать счастья в «Колесе фортуны».
![](https://habrastorage.org/getpro/habr/upload_files/fac/c0d/e34/facc0de3466c3de9225b9d15284ef57b.jpg)
А на стенде Open Source можно было проверить себя в викторине по работе с документацией или испытать удачу своего пул-реквеста в «Плинко».
![](https://habrastorage.org/getpro/habr/upload_files/003/a8d/82d/003a8d82daf48a0efe60e59aca5db219.jpg)
Диплодоки. Пожалуй, самая милая деталь конференции: на стенде Open Source среди продуктов с открытым исходным кодом представили новую платформу для создания технической документации Diplodoc. Посетители знакомились с возможностями создания документации в концепции Docs as Code и заодно создавали своих оригами-диплодоков. К концу второго дня было так:
![Часть диплодоков поселились в нагрудных карманах и уехали вместе с участниками Часть диплодоков поселились в нагрудных карманах и уехали вместе с участниками](https://habrastorage.org/getpro/habr/upload_files/845/616/c8b/845616c8bd205d8c40c857fe8fa2c1b9.png)
Бессерверные лабиринты и другие, винтажные и не очень, игры. Реализовать бессерверную архитектуру, познать DevOps или проверить защиту от DDoS инженеры тоже предложили в игровом формате — так что можно было посоревноваться в построении бессерверного пайплайна, переставить контейнеры в Sokoban на винтажных музейных IBM и доказать всем: «я-не-робот».
![Ну, почти не робот Ну, почти не робот](https://habrastorage.org/getpro/habr/upload_files/b4a/865/8e1/b4a8658e17173ccfb1891459b8c93d85.jpg)
![Сдуваем пыль с IBM Amstrad Сдуваем пыль с IBM Amstrad](https://habrastorage.org/getpro/habr/upload_files/08a/62f/f9b/08a62ff9b1f06f8ae94bd194e8e8d76a.jpg)
![А в эту игру можно будет поиграть и на других мероприятиях, так что пока без спойлеров А в эту игру можно будет поиграть и на других мероприятиях, так что пока без спойлеров](https://habrastorage.org/getpro/habr/upload_files/71d/c4b/4b7/71dc4b4b7c96e54add72b2575511e728.jpg)
Полезное для инженеров и разработчиков
Охватить шесть параллельных треков конференции в одном репортаже точно не удастся. Так что рекомендую посмотреть записи тематических треков, а я буквально в нескольких тезисах поделюсь, на что обратить внимание тем, кто планирует использовать новинки в своей разработке.
Трек Machine Learning заинтересовал посетителей в первую очередь докладом по YandexGPT, который прошёл в предельно заполненном зале. Посмотреть запись стоит всем, кто хочет узнать больше об особенностях обучения YandexGPT: какая система метрик использовалась при создании базовой модели и с какими сложностями столкнулась команда.
Самый технический доклад секции — «Инференс моделей и гибридный формат работы в DataSphere» — останавливается на деталях подключения локального контура и показывает примеры гибридных исполнений, которые можно реализовать в пару команд. Советую его практикующим ML‑инженерам, у которых возникают задачи обучения модели в облаке при наличии локального окружения.
А доклады по SpeechKit и SpeechSense будут интересны с точки зрения реализации конкретных сценариев: создания и применения уникальных голосов или повышения качества работы контакт‑центров. Рекомендую посмотреть, например, если вы давно хотели создать аудиоклон популярного и занятого руководителя.
![](https://habrastorage.org/getpro/habr/upload_files/b28/ce8/699/b28ce869957e27cef93913c173533800.jpg)
В треке Infra + k8s объявили об открытии сервиса Yandex Cloud Backup — с сентября 2022 года он находился в стадии Preview, а теперь доступен для всех пользователей. В своём докладе разработчики сервиса показывают на примерах возможности управления резервными копиями в облачной платформе.
Этот трек также будет интересен всем, кто хочет узнать больше о внутренней кухне и хардкорной «физике» сервисов: как устроена сетевая связность новой зоны доступности, что интересного за кулисами сервиса Managed Kubernetes, как работает мониторинг масштабной инфраструктуры и за счёт чего в нём обеспечивается отказоустойчивость.
![](https://habrastorage.org/getpro/habr/upload_files/984/450/152/98445015284310a25b9bb7cd832de034.jpg)
Трек Security открылся темой стратегии безопасности, где инженеры Yandex Cloud рассказали о работе над защитой всей облачной инфраструктуры в целом. Отдельный слот посвятили инструментам для предотвращения утечки учётных данных и представили большое обновление Identity and Access Management — сервиса для управления доступом к облачным ресурсам, в котором теперь есть новые возможности безопасно управлять доступом к ВМ по SSH, имперсонация сервисных аккаунтов и другое.
![](https://habrastorage.org/getpro/habr/upload_files/61b/c4a/198/61bc4a198e4563781175e829d338f407.jpg)
Вторая половина трека будет интересна тем, кому важно позаботиться о безопасной разработке: найти баланс между безопасностью и скоростью, защитить веб‑ресурсы, а также снизить риски атак на цепочки поставок.
В треке Data Platform поговорили о деталях реализации сервисов по работе с данными: в какую сторону развиваются DataLens и YDB, что нового в Yandex Data Transfer и других решениях для интеграции и обработки данных.
Отдельные доклады подробно представили возможности работы с Apache Airflow в Yandex Cloud и показали новинки аналитической СУБД Greenplum: Command center для анализа производительности, расширение Hybrid Storage для нативной интеграции с Object Storage.
![](https://habrastorage.org/getpro/habr/upload_files/dd8/f94/211/dd8f942117a482708e34da282da50ad7.jpg)
В треке Serverless поговорили о проектировании, разработке и эксплуатации бессерверных приложений в целом, представили возможности serverless‑вычислений, которые появляются с монтированием объектного хранилища, показали обновления Yandex Data Streams и Yandex Query.
Оба трека, Data Platform и Serverless, также интересны опытом пользователей Yandex Cloud: рекомендую посмотреть клиентские доклады тем, кому интересно учиться на реализованных сценариях и чужих цифрах (особенно, когда со сцены звучит «это стоило рублей сто»).
Трек Digital Workplace также будет интересен практическими примерами: здесь собрали максимум опыта от клиентов из разных отраслей.
![](https://habrastorage.org/getpro/habr/upload_files/8a3/826/5de/8a38265de25198abcc7754384101a3f5.jpg)
Если вы были на конференции, но не успели задать вопросы, не стесняйтесь задать их в тематических чатах:
А в комментариях к этому посту можно поделиться впечатлениями и рассказать, какую из тем хотелось бы увидеть во всех подробностях здесь на Хабре.
siv237
Почему вы решили в YandexGPT 2 использовать ChatGPT-3 от OpenAI вместо доработки своего полноценного движка?