2025 год щедро раздаёт нейросети всем желающим. Кажется, уже невозможно открыть браузер, чтобы на тебя не посмотрела очередной умник, обещающий сгенерировать гениальный текст, как у Толстого, но быстрее.

Одни модели сочиняют музыку, другие красят фотографии, третьи уверяют, что понимают людей лучше психологов. Но за громкими именами вроде ChatGPT, Midjourney и Runway скрывается подлесок маленьких, но интересных проектов.

Мы собрали десятку инструментов, на которые стоит обратить внимание.

Приятного чтения!


BotНub

Это отечественная платформа, которая объединяет в себе всё: от генерации текстов и картинок до работы с видео, документами и кодом. Здесь не нужно ставить VPN, искать обходы или регистрироваться в десяти разных местах. Всё работает в одном интерфейсе!

Вы можете создавать тексты, писать код, решать задачи, обрабатывать документы, анализировать ссылки, транскрибировать аудио, а также генерировать и редактировать изображения. Для этого доступно 4 модели, включая Midjourney и Flux. А для работы с текстами целых 11 мощных нейросетей, таких как ChatGPT, Gemini, Grok, DeepSeek и другие.

А при регистрации по этой ссылке Bothub дарит 100 000 капсов — забирайте бонус и начинайте творить бесплатно!

Работа в BotНub:

Платформа также предоставляет доступ к библиотеке шаблонов промптов. Это готовые заготовки для рекламных текстов, заголовков, рассылок, сценариев, постов и статей. Всё работает в пару кликов и идеально подходит тем, кто раньше ничего не слышал о нейросетях.


MiniMax-M2

Это открытая языковая модель, лицензированная под MIT. Она разработана для задач, где нужны интеллект, кодирование и агентные цепочки команд. Основная архитектура модели – это MoE (mixture of experts) с общим объёмом около 230 млрд параметров, но активных параметров при работе используется только около 10 млрд. Такая конструкция позволяет получить высокую производительность при меньших вычислительных затратах.

Модель показывает сильные результаты по кодированию и инструментальному использованию: она отлично справляется с многофайловыми правками, циклами «написать-запустить-исправить», цепочками команд типа shell/browser/IDE. В бенчмарках, таких как SWE-bench и BrowseComp, MiniMax-M2 превосходит многие открытые модели и конкурирует с коммерческими вариантами.

Работа в MiniMax-M2:

Для разработчиков сервис предлагает следующее: можно скачать модель с Hugging Face и разворачивать локально, либо использовать API и платформу MiniMax. Поддерживаются фреймворки SGLang, vLLM, MLX. Указаны рекомендуемые параметры инференса: например, temperature = 1.0, top_p = 0.95, top_k = 40.


Firebase Studio

Это AI-рабочее пространство от Google, которое ускоряет весь цикл разработки: фронтэнд, бэкенд и мобильные приложения можно создавать и тестировать в одном месте. Можно импортировать репозитории (GitHub, GitLab, Bitbucket или локальные), либо начать с нуля через агент прототипирования, используя описание на естественном языке, макеты, скриншоты или шаблоны.

Инструмент интегрирует модели Gemini для помощи с кодом: генерация, отладка, рефакторинг, документация, всё внутри пространства. В режиме превью предоставляется до 3 рабочих пространств бесплатно, участники Google Developer Program получают до 30 рабочих пространств.

Работа в Firebase Studio:

?
undefined...
embedd.srv.habr.com

Для тестирования и предпросмотра приложений встроены веб-превью и Android-эмуляторы, а также доступ к экосистеме VSX-расширений (Open VSX Registry). Развёртывание можно делать в Firebase Hosting, Google Cloud Run или на своей инфраструктуре, плюс встроенный мониторинг и панель управления.

Reve Image

Онлайн-редактор изображений, который объединил возможности текстовой генерации и визуального редактирования. Пользователь может загрузить свою картинку или указать текстовое описание, после чего сервис создаёт или перерабатывает изображение: добавляет объекты, изменяет композицию, масштабирует элементы и применяет стили.

Работа в Reve Image:

Еще один фокус — это минимальные ограничения цензуры, что делает платформу заметной среди конкурентов. Функция Image Creator & Remixer позволяет пересобирать изображения в реальном времени. Пользователь может перетаскивать объекты, изменять форму и позицию прямо мышкой, как в привычной программе-редакторе.


Qwen3 VL

Это мультимодальная модель нового поколения, созданная компанией Alibaba Cloud. Она сочетает возможности языковой и визуальной обработки, умеет анализировать изображения, видео и текст, а также связывать их в едином контексте. Модель входит в линейку Qwen 3 и представлена в нескольких вариантах, включая плотные версии и версии с архитектурой Mixture of Experts. В некоторых версиях добавлены режимы Instruct и Thinking, которые позволяют более гибко адаптировать поведение модели под конкретные задачи.

Главная особенность Qwen3 VL в том, что она получила значительно улучшенные механизмы восприятия изображений. За это отвечает технология MRope с перемешанным макетом, которая помогает модели лучше понимать пространственные и временные связи на картинке или в кадре видео. Кроме того, в архитектуру добавлена система DeepStack, которая извлекает многоуровневые признаки с помощью Vision Transformer и делает восприятие визуальных данных глубже и точнее.

Работа в Qwen3 VL:

Еще одно нововведение касается работы с видео. Если раньше подобные модели имели ограниченные возможности при анализе динамичных сцен, то Qwen3 VL применяет механизм синхронизации текста и временных меток.

Запустить Qwen3 VL можно через библиотеку Transformers. Для этого достаточно установить необходимые зависимости и загрузить модель с Hugging Face.


Krea realtime video

Это новая модель для генерации видео, в которой сделали ключевой прорыв. Диффузионная архитектура преобразована в авторегрессионную, что позволяет строить каждый следующий кадр на основе предыдущего. Это полностью меняет подход к видеогенерации. Теперь ролик создаётся не целиком, а в виде потока кадров, как будто видео рождается прямо у вас на глазах. Такой подход снимает ограничения по длине клипа, позволяет получать результат покадрово и, самое важное, менять промпт на лету, корректируя сюжет или стиль во время генерации.

Модель основана на дистилляции из Wan 2.1 14B и оптимизирована для работы с autoregressive video diffusion. На одной видеокарте NVIDIA B200 она выдаёт скорость около 11 кадров в секунду при четырёх шагах инференса, а первый кадр появляется примерно через секунду после старта. Использованы уникальные техники вроде KV cache recomputation и attention bias correction, благодаря которым система избегает накопления ошибок между кадрами и работает стабильно даже в длинных потоках.

Работа в Krea realtime video:

Krea Realtime Video поддерживает два режима: text-to-video и video-to-video, а также умеет принимать поток с вебкамеры или интерактивного canvas. Код открыт под лицензией Apache 2.0, интеграция реализована через diffusers с новой модульной структурой Modular Pipeline.


Hitem3D

Онлайн-сервис, который превращает обычные 2D-изображения в полноценные трёхмерные модели. Разработан он компанией Math Magic и рассчитан на дизайнеров, 3D-художников, инженеров и просто любителей визуализации, которым хочется быстро получить реалистичный 3D-объект без сложных программ вроде Blender или ZBrush. Главная особенность платформы — работа на базе нейросети, которая восстанавливает глубину и форму объекта по одной фотографии, создавая детализированную модель высокого разрешения.

Платформа создаёт геометрию уровня 1536³. Это выше среднего среди аналогичных AI-сервисов. Поверхности получаются гладкими, с хорошей проработкой мелких деталей. Благодаря этому инструмент подходит для создания прототипов, визуализаций, а также 3D-печати.

Работа в Hitem3D:

Для качественного результата важно правильно подобрать исходное изображение. Лучше всего подходят снимки с чистым фоном, чётким освещением и контрастным объектом. Если есть возможность загрузить несколько ракурсов, итоговая модель получится заметно точнее. После генерации стоит проверить готовую геометрию, удалить ненужные элементы и при необходимости оптимизировать сетку.


Genspark

Представляем платформу-агент нового поколения, которая не просто ищет информацию, а автономно выполняет задачи по командам пользователя без кода. Она использует мультимодельный подход. Под капотом работает 9 специализированных языковых моделей и более 80 встроенных инструментов, каждый применяется к части задачи, наиболее подходящей ему.

Когда вы просите, например, «составь презентацию», «сделай звонок», «собери план поездки», Genspark формирует Sparkpage. Это кастомная страница-ответ с консолидированной информацией и встроенным ИИ-копилотом, который позволяет задавать уточняющие вопросы прямо там.

Работа в Genspark:

В приложении на Android он может делать реальные телефонные звонки от вашего имени, планировать поездки, генерировать изображения, видео и аудио по простым запросам. В бесплатной версии пользователи получают 200 кредитов в день.

Elai

Сервис позволяет создать цифрового аватара. Вы можете оживить фотографию, выбрать шаблонного диктора или загрузить собственный референс. В бесплатной версии доступна 1 минута видео, что, конечно, немного, но хватит для демо. В коллекции есть свыше 80 аватаров и поддержка 75+ языков.

Работа в Elai:

Плюс Elai в том, что всё работает прямо в браузере. Записывать видео можно даже с вебки или телефона. Но если брать фото вместо видео, то результат получается криповый. Перед рендером важно верифицировать свою почту, иначе ничего не выйдет.


NotebookLM

Это AI-инструмент от Google, призванный помочь работать с документами: загружать PDF, Google Docs, сайты, слайды и конспекты, а затем задавать вопросы, получать пояснения, создавать конспекты и аудио-версии обзоров на основе своих источников.

Система использует модель Gemini как основу, и работает по принципу retrieval-augmented generation (RAG). Ответы формируются преимущественно из загруженных материалов, что снижает галлюцинации и позволяет видеть, из каких источников взяты данные.

Работа в NotebookLM:

В бесплатной версии доступны создание множества блокнотов, чат-вопросы (в рамках лимитов), генерация аудиоверсий обзоров (Audio Overviews) и использование документов как базы знаний для запросов.


Резюмируя

В конце хочется напомнить, что нейросетям всё ещё рано безоговорочно доверять. Они ошибаются, фантазируют и иногда удивляют не в ту сторону. Они неплохи, но только как помощники, не более. Алгоритмы могут ускорить рутину, упростить сложное, вдохновиться и сэкономить время. Главное помнить, что за всеми этими технологиями стоим мы.

Поэтому доверяйте, но проверяйте. И не забывайте, именно вы направляете всё это в нужное русло!

Спасибо, что дошли до конца! А теперь очередь за вами. Расскажите, какие нейросети уже прописались в ваших закладках? Может, мы забыли про какой-то сервис? Давайте пополним этот список вместе!

Комментарии (1)


  1. KartaloSt
    05.11.2025 21:27

    Хорошая информативная статья, но почему почти у каждой что-то под капотом, а перед капотом всегда Толстой. Кто-то один вставил и понеслось. Неужели никто Куприна, Лескова или Фазиля, понимаешь, Искандера не читал, что так легко поддались на клиширование этого сравнения. Толстой писал многословно и зачастую трудночитаемо. В контексте генерации текста вообще неуместен. Вот просто начните вслух читать начало его Воскресения. Язык сломать можно, - перегруженные длинные предложения даже для того времени. И повторы. Не изящно, не лаконично, не гениально. Чистого кода там совсем нет. А "под капотом" уже, наверное, даже автожурналы не пишут. А там те ещё клише-генераторы. Ну вот рассмотрена куча ИИ-помощников, а толку, если даже не попросили предложить варианты замены этого уже архаичного и малоинформативного клише. Написать что ли статью "Что под капотом у Толстого?":)