Приветствую всех. В данной статье я расскажу, как заказал, отремонтировал и изучил новейшего голосового робота из Китая. Статья не является рекламой, я оцениваю от себя как независимый программист. Ввиду некоторой спешки, данная статья не будет покрывать все аспекты, мы лишь коротко пройдёмся по устройству данного робота.
Первые упоминания о данном проекте датируются началом 2025 года. Примерно с октября этого же года (5 месяцев назад на момент написания поста) код стал доступен на GitHub: https://github.com/78/xiaozhi-esp32
Данный робот предполагает самостоятельную сборку, но определённый китайский завод под названием JITUIHOM так же наладил производство уже собранных плат с корпусом. Я заказал именно такой клиент. Вот, как он выглядит:

Данный клиент производитель назвал «Робот Добби». Клиент пришёл ко мне с браком: он подключался к серверу (облачные серверы принадлежат адресному пространству Alibaba Cloud), я с помощью Wireshark проверил доставку пакетов, однако, он передавал тишину, вследствие чего было решено разобрать робота.
Шаг 1. Снимаем пластиковые рамочки

Шаг 2. Откручиваем винты и вытаскиваем плату

Шаг 3. Вытаскиваем микрофон

Как оказалось, в колпачке микрофона забыли прорезать дырку, поэтому было слышно полную тишину. После прорезания дырки робот стал функционировать.
Точно такую же схему предлагает производитель в своих руководствах: на китайском аналоге YouTube под названием bilibili выставлено руководство по сборке такой же схемы на китайском.

Сама схема состоит из следующих деталей: ESP32-S3 версия Dev, OLED экран, модуль цифрового микрофона, и модуль ЦАП с усилителем для динамика (в сборке, которую я купил, стоит гибридный звуковой кодек для задач звука). Более точные детали указаны в руководстве.
Мой робот уже был настроен на конкретную программу (весёлый робот, который шутит шутки), однако, если вы решите собрать такого же, следуйте такому алгоритму:
На вашу плату ESP32-S3 установите официальный клиент, после чего плата предложит подключиться к Wi-Fi, и выдаст вам мастер ключ
В официальной панели для входа https://xiaozhi.me/login введите номер телефона и получите код (российские номера поддерживаются - код подтверждения пришёл мне в Telegram-аккаунт, привязанный к указанному номеру). Вы получите доступ к панели управления
Добавьте аппаратуру клиента, используя кнопку Добавить устройство и следуя инструкциям, соединив его тем самым с облачным сервером.
Создайте и настройте виртуального ИИ-агента, его основное имя, характеристики и модель, на основе которой он будет работать. Часть моделей доступна всем пользователям, часть - премиум пользователям (по договоренности с тех. поддержкой)
Каждому экземпляру робота соответствует виртуальный узел, находящийся в облачном сервере. Серийные производители создают такие виртуальные узлы массово с одинаковыми начальными настройками.
Пример настроек робота: тип голоса

Настройка характеристик личности:

Так же имеется возможность редактирования постоянной памяти робота (которая может быть записана в ходе диалогов с ним), и возможность приложения своего документа с данными, на который робот может опираться при беседе.
Как видите, всё не так уж и сложно и подано, как говорят в России, «на блюдечке с голубой каёмочкой». В том же китайском видеохостинге можно обнаружить видео, как к такому роботу добавляли распознавалку изображения с камеры.
Несколько трюков по сборке: если вы указали некорректный Wi-Fi, то для отвязки от него необходимо отключить раздающий роутер или покинуть зону раздачи, после чего интерфейс появится снова. Так же, инструкция к устройству была от старой ревизии, и сеть называется не Xiaozhi, а XX-AI.
Желаю всем удачи в экспериментах! Робот в каждый дом.
Комментарии (6)

mihmig
03.02.2026 01:42Какое качество микрофона (как далеко он слышит команды)?
Русский понимает?
Можно ли перенастроить на свой HomeAssistant-сервер?

ritsudo Автор
03.02.2026 01:42Качество распознавания весьма хорошее, говорить нужно в метре от него (но микрофон подлежит модификации на какой хотите), все посторонние шумы, постороннюю музыку отфильтровывает программа, так что об этом заботиться нет нужды. То есть, что адресовано непосредственно ему, он слышит, как Алиса от Яндекса
Используется модуль перевода на языки всех стран и обратно, в т.ч. и русский. Перевод с китайского иногда ломанный, но в целом на 80% и выше перевод корректный.
На сайте есть целая куча различных интеграций к нему, функционал постоянно расширяется, в будущем возможно добавят поддержку камер и т.д., поэтому я даже не в курсе, какие там полностью есть функции, возможно есть способ сделать и это. Когда буду собирать ещё таких же роботов, это всё проверю и испытаю. Сейчас только заказал ESP'шки для сборки.
wtigga
Это точно робот, а не умная колонка в виде робота?
ritsudo Автор
Это не колонка, он не играет музыкальные треки (может только включить трансляцию нейро радио), это именно робот, причём ты можешь ему задавать задачи, под какие он будет работать. Ядро у них на своей модели, либо DeepSeek.
Это IoT вещь, работает по MQTT.
KivApple
Тут вопрос скорее в том, что по классике робот должен содержать приводы и взаимодействовать механически с миром. Перемещаться и/или двигать что-нибудь, брать и т п.
Если он стоит может только стоять на месте и издавать звуки, то это именно умная колонка в форме робота, а не робот.
ritsudo Автор
Если так рассуждать, умная колонка должна уметь воспроизводить музыкальные треки (ведь это же колонка). А роботом называется любое устройство, способное заменять работу человека, при этом интеллектуальную в том числе, а тела может вообще не иметь (например, поисковый робот или краулер). Так что это именно робот и ни что иное. Функциональное назначение проекта - помощь в общении с людьми, а не функции "умной колонки" вроде Алисы и прочих.