Искусственный интеллект давно вышел за рамки научной фантастики и стал частью нашей жизни — от поисковых систем до чат-ботов и голосовых помощников. Но у этого удобства есть немалая цена: для генерации ответа ИИ расходует значительные вычислительные ресурсы и энергию.
Правда, здесь разработчики современных языковых моделей тоже продвинулись. Недавно Google сообщил о впечатляющем результате: всего за год энергопотребление одного AI-запроса удалось снизить в 33 раза. Это не просто техническое достижение, а сигнал для всей индустрии, который может изменить подход к разработке и использованию ИИ. Давайте разберем, каким образом Google этого добился, какие технологии помогли и как это повлияет на будущее искусственного интеллекта.

Энергопотребление ИИ: масштабы проблемы и решения Google
ИИ-модели, особенно крупные, вроде тех, что трудятся в поисковых системах или чат-ботах, требуют колоссальных ресурсов. Каждый запрос — это работа процессоров, памяти и систем охлаждения дата-центров. По оценке Goldman Sachs, к 2030 году энергопотребление ЦОД может вырасти на 160%, и значительная часть этого роста связана с ИИ. К слову, один запрос к языковому ИИ потребляет примерно в 10 раз больше энергии, чем обычный поиск в Google. Это приводит не только к дополнительным расходам на электроэнергию, но и к растущей нагрузке на энергосети.

Google интегрировал ИИ прямо в поисковые алгоритмы и сразу столкнулся с новой проблемой: каждый запрос стал тяжелее для инфраструктуры. Вместо того, чтобы просто строить новые серверные мощности, компания пошла по пути оптимизации. Итог впечатляет: один текстовый запрос к модели Gemini теперь требует всего 0,24 ватт-часа — примерно столько же, сколько телевизор за 9 секунд работы. Для сравнения, у ChatGPT это около 0,34 ватт-часа, а воды он расходует в полтора раза больше — примерно 5 капель на запрос.
Как Google этого добился? Главную роль сыграла комбинация аппаратных и программных инноваций. Так, компания применила подход Mixture-of-Experts (MoE), он активирует только необходимые части модели для обработки запроса. Вместо того, чтобы задействовать всю нейронную сеть, подход Mixture-of-Experts (MoE) подключает только те модули, которые действительно нужны для решения задачи. Это похоже не на оркестр, а, скорее, на вызов узкого специалиста: зачем собирать целый консилиум врачей, если проблему может решить один хирург? Такой выбор снижает вычислительные затраты в десятки раз.
Помимо этого, Google создал компактные версии моделей: они дают сопоставимое качество ответов, но потребляют меньше ресурсов. Здесь уместна другая аналогия — как если бы вместо грузового поезда, перевозящего пару коробок, вы использовали небольшой фургон: результат тот же, но затраты гораздо меньше.
На аппаратном уровне Google применяет собственные AI-ускорители (TPU), оптимизированные для задач машинного обучения. Более половины энергопотребления запроса приходится на эти чипы, и их улучшение позволило выжать максимум производительности из каждого ватта. Кроме того, компания оптимизировала дата-центры, усовершенствовав системы охлаждения. Все это не только экономит энергию, но и продлевают срок службы оборудования, уменьшая потребность в новых серверах и снижая затраты на инфраструктуру.
Google пошел дальше формальных публикаций и не просто сообщил об успехе, а выложил подробный отчет в формате технической статьи. В нем раскрыты детали оценки энергозатрат: как прямых, так и косвенных — от производства «железа» до расходов на инфраструктуру и обучение моделей. Такого уровня открытости в индустрии почти нет, игроки рынка «внутреннюю кухню» стараются держать за семью замками.
Тем не менее в отчете остались и вопросы. Google не показал данные за прошлые годы, поэтому проверить реальное «снижение в 33 раза» сложно. К тому же компания использует медианное значение энергопотребления, а не среднее, что при огромных массивах запросов может сглаживать пики и искажать картину. Но даже с такими оговорками результат выглядит серьезным и показывает реальный прогресс.
Перспективы ИИ: масштабирование, конкуренция и новые возможности
Снижение энергопотребления в 33 раза — это не просто технический результат, а шаг к более устойчивому развитию ИИ. Популярность языковых моделей растет, вместе с ней и количество обращений к ним. Если бы уровень затрат оставался прежним, серверные комплексы быстро превратились бы в серьезную нагрузку для энергосистем. Опыт Google показывает, что рост использования ИИ можно сопровождать без кратного увеличения расхода электричества. Экономия здесь важна не только с точки зрения экологии, но и инфраструктуры: чем меньше энергии требуется на один запрос, тем больше задач обрабатывается на существующем оборудовании, а значит, дольше служат серверы и медленнее возникает потребность в строительстве новых дата-центров.

Результаты Google фактически поднимают планку для конкурентов — OpenAI, Anthropic и других. Чтобы не отставать, им тоже придется работать над оптимизацией: например, применять прунинг (сокращение лишних параметров модели) или дистилляцию (обучение более легких нейронок на основе больших). Отдельный эффект может дать и открытая отчетность: сегодня данные об энергопотреблении ИИ фрагментарны, и исследователи часто работают с неполной картиной. Если компании начнут публиковать сопоставимую статистику, это позволит объективнее оценивать реальную нагрузку и искать новые способы ее снижения.
Одно из самых интересных следствий — возможность переноса ИИ на пользовательские устройства. Компактные модели и низкое энергопотребление позволяют запускать ИИ не только в облаке, но и на смартфонах, ноутбуках или IoT-гаджетах. Google уже движется в этом направлении с моделями вроде Gemma. Локальные вычисления ускоряют обработку, так как данные не нужно передавать в облако, снижают затраты на серверы и повышают конфиденциальность. Например, голосовые помощники смогут работать офлайн, а приложения — обрабатывать все прямо на устройстве. Это открывает новые сценарии: от умных часов, анализирующих информацию в реальном времени, до автономных IoT-систем в удаленных местах.
При этом остаются и нерешенные вопросы. Отчет Google касается только стадии инференса — то есть обработки готовых запросов. Но обучение самих моделей по-прежнему требует колоссальных ресурсов, и если учитывать этот этап, общий след ИИ будет значительно выше. Даже если один запрос стал дешевле, общее потребление все равно растет: пользователей становится больше, а задачи — объемнее. Длинные тексты и сложные вычисления по-прежнему требуют больше ресурсов, чем простые запросы.
Наконец, есть и качественный аспект: сами ответы моделей не всегда надежны, пользователи регулярно жалуются на ошибки и «галлюцинации». Поэтому реальный вызов для индустрии — не только сделать ИИ экономичнее, но и добиться стабильной точности, без которой технология не сможет стать по-настоящему массовой.
Но опыт Google показывает, что энергозатраты ИИ можно существенно сократить за счет грамотного сочетания алгоритмов, компактных моделей и специализированного оборудования. Это делает технологию более устойчивой и открывает возможность масштабировать ее без избыточной нагрузки на инфраструктуру. Но вместе с этим задачи все еще остаются и достаточно важные. Так, обучение нейросетей по-прежнему требует огромных ресурсов, объем запросов растет, а качество ответов не всегда соответствует ожиданиям. От того, насколько индустрия сумеет решить эти вопросы и найти баланс между эффективностью и надежностью, будет зависеть дальнейшее развитие ИИ.