
Салют, Хабр!
Я Артур, CPO умных колонок Sber. Сегодня мы представили новое поколение умных устройств Sber с искусственным интеллектом GigaChat — колонку SberBoom Micro. Это самая маленькая из всех колонок семейства Sber, при этом с новой функцией, которая позволяет сделать умной обычную аудиосистему. Достаточно подключить её к обычной аудиоколонке по bluetooth и управлять воспроизведением на своей акустике голосом.
В статье о разработке SberBoom Micro расскажу:
при чём тут Стэнли Кубрик и Дени Вильнёв;
как компоновали устройства на плате, которая должна быть на 20% больше;
какие метрики звука позволяют вычислить количество ложных срабатываний ассистента.
Два предложения о продуктовых требованиях. По замыслу SberBoom Micro — это помощник для эволюции обычной аудиоакустики: она позволяет владельцу сделать её умной. Кроме того, это устройство-персональный ассистент — обеспечивает аудиоинтерфейс для общения с GigaChat, прослушивание контента и удобное управление устройствами умного дома.
Ключевыми требованиями к новому интеллектуальному устройству стали функциональность и компактность. Именно компактность продиктовала подход к схемотехнике и акустике: предварительно намеченные в соответствии с продуктовыми требованиями компоненты требовалось уместить в миниатюрном (для колонки) корпусе. Поэтому первым делом — о дизайне.
Форма будущего
Для колонки мы рассмотрели как минимум пять дизайн-концепций и даже разные форм-факторы. Концепцией, которая понравилась всем, стала «Новая космология». Это колонка в форме, знакомой всем: галечный камень, который умещается в ладонь.
«Я хотел упаковать новую технологию в простую и узнаваемую форму: чем выше технология, тем чище и «тише» должна быть её оболочка. Этот контрастный подход часто используют в кино: суперсовременная или инопланетная технологию в архетипично примитивном формате. Можно вспомнить монолит из фильма «2001 год: космическая одиссея» Стэнли Кубрика или корабли в «Прибытии» Дени Вильнёва.
Отсюда и форма слегка асимметричной «гальки». Такой объект хочется держать в руках, словно тот самый камень с пляжа, который в итоге забираешь с собой на память. То же ощущение свежести и спокойствия хотелось передать и в цвете. Итоговый оттенок — серо-небесный. Он меняется от каменно-серого до бледно-голубого в зависимости от освещения» .
Кирилл Мусиенко, промышленный дизайнер SberDevices

Чтобы попасть в нужный цвет, мы распечатали на 3D-принтере макет, купили краски в магазине для моделистов и раскрасили макеты, чтобы затем подобрать этот оттенок по вееру… и доработать отдельно — на веере оттенок был слишком грубым. В CMF (Color, Material, Finish — описание внешнего вида продукта для фабрики) был указан целевой цвет плюс некоторые ответвления от него. Финальный цвет выбирали из семи почти одинаковых образцов, оценивая их в естественном и искусственном освещении.

Планировалось замаскировать все технологические отверстия с лицевой части корпуса так, чтобы осталась только одна кнопка. Поэтому на устройстве появилась текстура, которая прячет реальные отверстия. Кирилл написал код для генерации нерегулярных точек разного диаметра с помощью модуля параметрического моделирования в CAD; далее на основе нескольких макетов сделали образцы и выбрали лучший. Благодаря крапинкам текстура работает и визуально, и функционально — это не декор поверхности, а маскировка инженерных элементов.
Точки наносятся на поверхность с помощью технологии тампопечати: силиконовая груша берёт краску для печати с трафарета и накладывает на корпус. Они выглядят рандомными, но вместе с тем абсолютно одинаковы на каждом девайсе. Характеристики груши пришлось подбирать так, чтобы не смазывать точки на нижнем закруглении колонки.

Маленькая колонка с большими возможностями
Разработка схемотехники и акустики проходила под негласным лозунгом «впихнуть невпихуемое». Команде hardware нужно было уместить в корпус размером 80×80×25 мм динамик плюс плату со всеми компонентами.
Мы подсчитали минимально необходимую площадь платы (выходило, что она должна быть на 20% меньше стандартной) и подогнали её под форму. В итоге плата решена в форме неправильного круга, словно срезанного с одной стороны. Пришлось искать более компактные компоненты и размещать их плотнее. Вместе с тем нужно было сохранить правильный импенданс на радиочастотном тракте и не позволять ничему влиять на качество распознавания звука.
В процессе мы отказались от дополнительной PCBA для микрофона и LED-индикатора, отказались от второй PCB — взамен оптимизировали дизайн RF-антенны. В верхней части корпуса пришлось сделать выемку под конденсатор усилителя — её будет видно, если разобрать умную колонку.
В итоге SberBoom Micro оснащена SoC Amlogic A113L, чипом ROM типа DDR3 на 128 Мб и такого же объёма Flash-RAM, Wi-Fi модулем W155S1, который поддерживает стандарты 802.11 b/g/n, а также антенной Flex PCB для WiFi и SMD антенной для BT. Питание — TYPE-C 5В 1A.

Аудиосистема колонки функционально устроена предельно просто: динамик мощностью 2 Вт и усилитель. Из-за размера Micro пришлось отказаться от классического акустического чембера: по сути им выступает сам корпус устройства. Мы рассматривали вариант круглой PCBA с отверстием под динамик в середине (кодовое название «бублик»), но отказались от неё, так как пришлось бы серьёзно увеличить плату, а как следствие, и всё устройство, для соответствия требованиям референсного дизайна SoC.
Вместе с тем необходимо было добиться оптимального звука даже на Micro. Поэтому нам требовался небольшой динамик, способный звучать сравнительно громко и с низким количеством искажений. (Спойлер: в среднем маленький не умеет быть громким, а громкость искажает звук).
Динамик для колонки выбирали из трёх вариантов: майларовый, смартфонный и алюминиево-бумажный примерно сходных характеристик. Мы сделали небольшие акустические чембера и прослушивали разные динамики, одновременно сравнивая их костэффективность. Майларовый был самым недорогим, но не мог обеспечить качественное звучание музыки — подходил только для аудиокниг и подкастов. Смартфонный просто странно звучал, при этом удорожал изделие. Оптимальным оказался бумажно-алюминиевый. Он совсем малыш: 36 мм в диаметре и 7 в высоту.
Чтобы добиться оптимального распространения звука, решено было поэкспериментировать с размещением. Мы протестировали два приоритетных варианта расположения акустики: вверх (апфайринг) и вниз (даунфайринг). Снимали АХЧ — амплитудно-частотную характеристику — с обоих вариантов, проводили прослушивания акустических чемберов в разных условиях и с разным аудиоконтентом.
Апфайринг мог обеспечить лучшую громкость, хотя требовал существенной доработки акустического выхода на верхней крышке. Даунфайринг позволял создать подобие фирменного звука колонок SberBoom 360°, если расположить колонку на твёрдой поверхност — звук, выходящий под углом 45 градусов из акустических щелей, отражается от поверхности и расширяет звуковую сцену.
Поиск оптимальной формы акустических щелей тоже превратился в квест. Изначально предполагалось, что удастся вывести звук так же, как микрофон и светодиод — через микроотверстия на корпусе колонки — но для электроники этого оказалось мало. Поэтому рассматривали и сравнивали чуть ли не все варианты акустических щелей: круглые, широкие вдоль корпуса, вертикальные, горизонтальные. Дополнительно выбранную форму верифицировала дизайн-команда. Тестирования подтвердили, что оптимальный для Micro вариант — это даунфайринг с акустическими щелями внизу.
На всякий случай мы сравнили громкость SberBoom Micro с другими моделями линейки SberBoom. Оказалось, что она ненамного уступает, например, SberBoom Mini, несмотря на свой малый размер.
Для прогноза качества работы ассистента в умной колонке мы использовали три основных параметра:
THD+N (total harmonics distortion + noise) — соотношение мощности нелинейных искажений (гармоник, призвуков с некратной частотой и шумов) к мощности тона. Для измерения колонка воспроизводит свип-тон и параллельно записывает результат воспроизведения на внешний измерительный микрофон и звуковую карту.
SNR (signal to noise ratio) — отношение сигнал-шум, в случае умной колонки — отношение мощности голосового запроса к мощности звука самой колонки. Оно оценивалось исходя из разных пользовательских сценариев.
ERLE (echo return loss enhancement) — степень подавления звука, издаваемого самой колонкой, то есть отношение мощности сигнала до очистки к мощности сигнала после очистки.
SNR оценивался методом статистического анализа, так как и человеческая речь, и музыка — постоянно меняющиеся параметры. Экспериментально мы определили, что минимальная длительность записи для статистически достоверного анализа составляет 3 минуты. Перед оценкой SNR обработали полосовым фильтром тестовые сигналы и выделили диапазон частот 300-3400 Гц, чтобы отфильтровать помехи и акустические шумы, но выделить диапазон частот человеческого голоса. Вычислялся как мгновенный SNR, так и интегральный. Одновременно с SNR по такой же процедуре и на тех же фрагментах сигнала оценивался ERLE (методикой поделимся позже в другой статье).
Лирическое отступление: в умных колонках вопросы звука имеют не одно, а два значения сразу. Есть качество звучания устройства; существует множество стандартов и рекомендаций, как его оценить и улучшить… но их нет для валидации аудиодорожки с микрофоном внутри корпуса, которую использует голосовой ассистент. Именно поэтому SNR и ERLE были важны как сами по себе, так и для прогноза продуктовой метрики FRR, false rejection rate. Это соотношение запросов, на которые умная колонка не среагировала, к общему количеству запросов.
Мы разработали экспериментальную методологию прогнозирования FRR исходя из показателей THD+N и SNR. Звук снимается не с внешнего измерительного микрофона (так, как его слышит пользователь), а с микрофонов самого устройства — то, что «слышит» колонка. Наиболее высокую корреляцию с FRR показывают SNR на выходе VQE в Дб (в диапазоне 300-3400 Гц) и средний THD+N в диапазоне 100-4000 кГц.
Для улучшения FRR нужно было снижать значения THD+N , а значит, оптимизировать и дорабатывать механический дизайн. Мы разбирали и изучали аналогичные девайсы, изучая, что за компоненты там применяются и где они расположены. Тестировали разные материалы для изготовления демпфирующих прокладок. В общей сложности было проверено более двадцати хардверных гипотез. В итоге:
Добавили четвёртое монтажное отверстие, но разместили его несимметрично. Прокладки из силикона в монтажных отверстиях позволили дополнительно снизить вибрацию.
Добавили демпфирующие материалы точечно там, где наблюдали и предполагали их влияние — на деталь, к которой крепится динамик; в точку крепления микрофона (чтобы снизить потенциальный резонанс с платой); на контекст акустического экрана с телом корпуса по периметру; в нишу отсека разъёма TYPE-C.
На обратной стороне динамика добавили виброизоляционную прокладку.
Использовали виброизолирующие резиновые втулки для стяжки винтами.
Обеспечили изолирующий звуковой канал для микрофона.

После доработок показатель TND-N SberBoom Micro составил менее 2%. Соответственно оцениваемый показатель FRR попал в целевые значения. Чтобы перестраховаться, на практике проверили, что споттерное слово успешно срабатывает. Для тестирования создали соответствующие условия.
Условие |
Показатель |
Окружение, приближённое к домашней обстановке по уровню шума |
± 45 dB |
Размер комнаты |
5х5 м |
Расстояние от источника голоса (колонка) до SberBoom Micro |
± 1 м, источник голоса на высоте ± 1.5 м |
Положение умной колонки |
горизонтально на столе, высота 1 метр |
Громкость воспроизводимого голоса (воспроизведение через колонку) |
± 65 dB |
Колонка играла треки на стопроцентной громкости, а мы воспроизводили споттерное слово со средней громкостью спокойной речи взрослого человека — примерно 65 Дб.
Помощник, который знает всё
Одна из ключевых опций SberBoom Micro — возможность коммуницировать с искусственным интеллектом GigaChat в колонке. Вместе с тем GigaChat присутствует на многих поверхностях — есть веб-интерфейс GigaChat, а также GigaChat App и Telegram-бот GigaChat. Поэтому в новой колонке мы решили реализовать принцип омниканальности между поверхностями. Пользователь может голосом дать GigaChat задачу исследовать что-нибудь, а развёрнутый результат получить текстом в веб-интерфейсе GigaChat.
Опция запускается голосовой командой. Например:
— Салют, сделай исследование востребованных профессий будущего!
Чтобы реализовать эту возможность, мы добавили в модель GigaChat на колонке две JSON-функции, такие же, как «болталка» или «погода»: одна запускает исследование, вторая позволяет проверить статус — готово или нет. Две функции позволяют повысить качество вызова и избежать вызовов с неправильными аргументами.
GigaChat вызывает функцию по API. Та делает запрос в бэкенд веб-версии и передаёт ему предмет ресёрча, а также обезличенный идентификатор пользователя — токен из blackbox, по которому можно опознать пользователя. В свою очередь, бэкенд веб-версии посредством blackbox определяет, зарегистрирован ли в ней пользователь. Если да — сообщает предмет исследования. Если нет, опять же сообщает предмет исследования плюс создаёт по идентификатору нового пользователя. Пользователю без регистрации в веб-версии SberBoom Micro озвучит расширенную инструкцию, где и как посмотреть результат.
Так как технически это очередные функции для GigaChat, добавляли их по стандартной процедуре — JSON с описанием и инструкцией, тестирование финальной инструкции в режиме zero-shot (детали тут). Также модель проходит обстрел запросами для проверки, корректно ли вызывается функция.
Колонка, с которой удобно
SberBoom Micro можно установить в квартире двумя методами: поставить на стол или прикрепить на стену. В обоих случаях решающую роль играл вес девайса.
Настенное крепление у SberBoom Micro двуслойное — здесь переиспользован принцип, который применяется в SberBox 2. На дне устройства расположена велкро-липучка, которая крепится к наклейке с адгезивным слоем. Вместе с тем колонка устойчиво располагается и на горизонтальных поверхностях.

Изначально в разработке крепления на стену основным фокусом была максимальная надёжность. Но с первым вариантом адгезивного слоя снять умную колонку со стены получилось только вместе со штукатуркой. «Это плохой пользовательский опыт», — догадались мы. И начали подбирать надёжный состав, который одновременно позволит неоднократно снимать и перевешивать колонку без ущерба для стены. Он успешно прошёл тесты. Для перестраховки SberBoom Micro прикрепили к стене на офисном месте нашего hardware TPM Дмитрия Кабачника; несколько месяцев он периодически дёргал за колонку и подвешивал к ней тяжёлые power-адаптеры для тестирования. Импровизированное лонгитюдное исследование крепление тоже выдержало.
Питание колонки реализовано от Type-C 5 Вт, 1А. Она способна работать при подключении к любому Type-C порту — в пауэрбанке, компьютере или ноутбуке, телевизоре, даже прикуривателе. Мы дополнительно убедились, что SberBoom Micro может питаться от пауэрбанка, давая ей экстремальные (и нестандартные) нагрузки по звуку и замеряя максимальное энергопотребление. Оно составило 0,63 Вт — даже меньше, чем заявленные 1,5 Вт. Интересный факт: после UX-исследования мы отказались от адаптера для Type-C в комплекте. Большинство респондентов заявили, что у них дома уже есть минимум один, поэтому адаптер не требуется.
Заключение
Глобально SberBoom Micro — интеллектуальное устройство-проводник: между пользователем и его акустической bluetooth-системой, пользователем и искусственным интеллектом GigaChat, пользователем и умным домом. Создать такое — определённо задача-челлендж. Тем занимательнее было её решать: искать подходы, ошибаться и исправлять ошибки, раскрашивать макеты и бегать по парковке с аттеньюаторами для проверки Wi-Fi-модуля. Разработка каждого устройства — это приключение, а в конце все получают приз — готовое устройство.
В подготовке статьи участвовали: Дмитрий Кабачник, Олег Шилов, Кирилл Мусиенко, Александр Кудинов, Михаил Кузьмин
anti256
Вопрос - кому нужна дома колонка в виде гальки размером 80х80 мм в прямоугольном мире? Почему никто не делает устройства в форм-факторе книги - надоела, поставил на полку к другим прямоугольным книгам. )))
BoriskovKB
Идея очень красивая, но на текущий день колка с книгами это исчезающая редкость.