Почему крупный бизнес бежит от ChatGPT на «железки» за $150 / forpes.ru

Главная
Почему крупный бизнес бежит от ChatGPT на «железки» за $150

Почему крупный бизнес бежит от ChatGPT на «железки» за $150 +15

02.06.2025 09:07

Artezio_team 27 40000 Источник

ChatGPT стоит дорого, требует постоянного интернета и может внезапно отключиться. Альтернативой становятся компактные Edge-устройства, способные работать автономно. Но действительно ли локальное железо может конкурировать с облачными гигантами?

Антон Мальцев знает ответ на этот вопрос. ML Lead в ArtSign и основатель RemiBrain, он с 2014 года развертывает решения компьютерного зрения и ИИ на тысячах Edge-устройств — от городских камер до промышленного оборудования. За десять лет накопил уникальный опыт сравнения облачных и локальных решений в реальных проектах.

В большом интервью каналу AI4Dev эксперт рассказал, почему больничная палата с тремя камерами не может работать через облако, как RockChip за $150 конкурирует с Jetson за $500, и почему банки требуют полностью автономные AI-решения.

Полную версию интервью, организованного нашей компанией Artezio, можно посмотреть на канале Ai4Dev на Youtube. А еще у нас появился Telegram-канал для разработчиков, которые используют ИИ. В нем уже больше трех тысяч разработчиков, с которыми можно обмениваться мнениями и реальными кейсами.

«Ассистент должен функционировать автономно»

Индустрия активно продвигает идею, что языковые модели требуют огромных вычислительных ресурсов. Но насколько оправдана эта зависимость от облачных вычислений? Есть ли реальная альтернатива в виде Edge AI?

При работе с любыми языковыми моделями, системами компьютерного зрения или искусственным интеллектом всегда важно понимать цель их применения. Если стоит задача проходить сложные собеседования или решать университетскую математику, то действительно нужна мощная модель с доступом к интернету и большим объемам данных. Однако на практике ИИ часто используется для простых задач — проверить, правильно ли припарковался автомобиль, или составить отчет о проделанной работе. Для таких целей модели уровня ChatGPT или Gemini избыточны — достаточно решений с 3, 2 или даже 0,5 миллиардами параметров.

Подобных моделей сейчас множество на платформе Hugging Face. Китайские компании активно развивают компактные решения — Qwen, DeepSeek и другие предлагают модели, которые прекрасно работают на недорогих Edge-устройствах.

Выбор конкретного решения зависит от специфики задач. Нужно ли компьютерное зрение или вы создаете умного ассистента для дома, который должен работать без передачи приватных данных в облако? Такой ассистент должен функционировать автономно даже при отключении интернета. Именно поэтому Edge AI набирает популярность — его главные преимущества заключаются в простоте развертывания и надежности работы.

Что касается аппаратной части, сегодня существует несколько доступных решений для запуска таких моделей. Платы RockChip поддерживают модели до 7 миллиардов параметров и стоят около 150 долларов — ненамного дороже популярного Raspberry Pi, но уже способны работать с моделями до 7B. Эти платы не совсем "полноценные", но хорошие. Альтернативы включают Sophon и Jetson от NVIDIA. Sophon - это китайская плата чуть дороже чем RockChip, но умеет брать большие модели. Она дешевле Jetson. Intel и AMD также развивают собственные AI-ускорители в более высоком ценовом сегменте, предлагая расширенную функциональность.

Видите ли вы перспективы в специализированных AI-процессорах, которые интегрируют Apple, Intel и другие производители?

— Главная выгода для потребителей — независимость от облачных сервисов. Облако может отключиться, мы наблюдали множество компаний, закрывшихся после исчерпания инвестиционных бюджетов. Крупные сбои происходят регулярно — Facebook, OpenAI и другие сервисы могут быть недоступны длительное время. Для гарантии стабильной работы модели Edge-решения выглядят разумной альтернативой.

Второе преимущество — экономическое. За облачные решения приходится платить постоянно: за трафик и каждый запрос к модели. При работе с видео трафик становится особенно дорогим. Даже с простыми моделями и недорогими запросами расходы со временем накапливаются.

Третий фактор — латентность. Даже быстрая облачная модель требует времени на передачу данных и обработку, тогда как локальная обработка обеспечивает минимальные задержки.

Четвертый аспект — контроль персональных данных. Многие компании не готовы передавать конфиденциальную информацию в OpenAI, поскольку неясно, как эти данные используются для дообучения моделей. SOC2-совместимые решения существуют, но стоят дороже, поэтому большинство компаний использует публичные API с высоким риском утечки данных.

Получается, что Edge-устройства решают простые задачи, а мощные модели остаются в облаке. Мир разделился на примитивные локальные модели и серьезные облачные решения?

Этот вопрос затрагивает архитектуру современного ИИ-ландшафта. Посмотрите на крупные open-source модели — они практически не уступают ChatGPT. Множество задач можно эффективно решать локально.

Языковые модели нужны для сложных задач, и такие применения у небольших компаний только формируются. Хороший пример — управление умным домом. Вместо зависимости от Алисы, Siri или других облачных ассистентов можно развернуть локальную систему.

Простые модели уже широко используются в повседневной жизни — компьютерное зрение, различные детекторы. В домашних условиях их применение ограничено, но на уровне городской инфраструктуры, корпораций и бизнеса они работают повсеместно.

Для крупных языковых и мультимодальных моделей в ближайшие годы действительно останется облако — содержать такую инфраструктуру локально экономически нецелесообразно. Программисту все равно, к какому серверу подключается модель — OpenAI, Antropic или другому провайдеру. Главное — обеспечить защиту кода.

Однако существуют области, где локальная обработка критична. Автомобили определенно будут использовать локальные модели — они уже активно внедряются. Роботы также требуют локальной обработки из-за необходимости минимальных задержек. Умные дома через пять лет могут кардинально измениться — возможно, появятся телевизоры с камерами для анализа происходящего в помещении. Передавать весь видеопоток в облако будет нецелесообразно как с экономической, так и с технической точки зрения.

«Основное ограничение в будущем — это память»

Скажите, как вы считаете, насколько мощность Edge-устройств будет повышаться, и смогут ли они в какой-то период своей эволюции вместить текущие большие модели?

Мне кажется, сейчас идёт очень много параллельных трендов, и сложно угадать, что будет через пять лет. Есть тренд на увеличение моделей, но в то же время существует параллельный тренд, когда создается всё больше маленьких моделей, у которых точность не сильно ниже.

Маленькие модели проигрывают большим, но их качества достаточно для разных задач. Нельзя сказать что 0.3 лучше прошлого поколения 3B. Но она есть и она может выдавать разумный вывод. Плюс я бы проверил что у Qwen есть 0.3 Мне кажется там был SmolVLM какой-то

По железу тоже наблюдается тренд на улучшение производительности. Во-первых, значительно расширилась поддержка больших языковых моделей (LLM) и мультимодальных моделей (VLM). Год назад единственная железка, которая могла более-менее нормально их поддерживать — это была платформа NVIDIA Jetson. Прошёл год, и теперь у нас есть рок-чипы, нейронные процессоры (NPU) от Intel и AMD. Кстати, NPU в Jetson не может с этим работать, только графический процессор. Появились чипы от RockChip, Sophon, Sima AI и многих других производителей. За год ситуация кардинально изменилась, и поддержка LLM и технологий квантования стала гораздо шире.

Если посмотрим на производительность, то год назад новое железо делилось на серверное с высокой производительностью и Edge-устройства, выдававшие до 20 TOPS (триллионов операций в секунду). Недавно компания Axelera представила решение — я пока не проверял, поддерживает ли оно языковые модели, но они заявляют уже 220 TOPS. Это значительный прогресс.

Существует очень много разных идей, как ускорять аппаратную часть. Например, создаются ASIC-чипы, когда модель буквально "печатают" прямо на железе. Я видел стартап, который разрабатывал аналоговые блоки, значительно ускоряющие работу.

Мне кажется, основное ограничение в будущем — это память. На маленький чип уровня Raspberry Pi сложно установить больше нескольких терабайт памяти. А самые большие модели требуют много памяти и очень быстрый к ней доступ. Как решить эту архитектурную проблему никто пока не решил.

Скорее всего, сейчас будет ограничение — модели, требующие до 32 гигабайт оперативной памяти, будут работать нормально на Edge-устройствах, а вот более требовательные пока не получится на таких устройствах использовать. Впрочем, возможно, в ближайшие пять лет эта проблема будет решена. Команда Grok (модель ИИ от xAI) очень много работала именно с оптимизацией памяти, но их решения пока не ориентированы на Edge-устройства.

А как вы относитесь к экспериментам производителей смартфонов? Мы видим много попыток поместить функционал больших моделей в небольшие устройства с помощью специфических процессоров, созданных под мобильные устройства. Как вы считаете, успех этого железа может стать драйвером всей индустрии или нет?

Знаете, если честно, то большинство этих экспериментов используют абсолютно то же железо, что и обычные Edge-платформы. Взять того же Qualcomm — сейчас это один из мировых лидеров по производству чипов. Они делают и Edge-платы, и процессоры для телефонов, причем на одной и той же архитектуре. И что интересно — в телефонах у них обычно даже более современные решения, чем в других устройствах.

Но есть одна большая проблема с мобильными устройствами — энергоэффективность. ИИ-вычисления жрут довольно много энергии, а батарея телефона не резиновая. Хотя, справедливости ради, Samsung уже давно внедряет нейросети в свои устройства. Помню, аутентификацию по радужке глаза они запустили еще в 2014 году. Мы тогда как раз делали стартап в этой области с 2009 года и даже общались с их R&D-центром в России.

По моим наблюдениям, уже тогда у Samsung была готовая архитектура для запуска нейросетей прямо на устройстве, и в принципе она особо не изменилась. Сейчас полно нейросетей для улучшения фотографий — и конечно, их запускают локально на телефоне.

А что касается языковых моделей, то тут используются те же самые платы, действуют те же логические ограничения, но требования по энергопотреблению становятся еще жестче. В итоге все упирается в три ключевых момента: сколько у тебя памяти, как быстро работает интернет и сколько энергии съедает обработка запросов.

«Использование китайских чипов в Америке может быть рискованным делом»

Какой сейчас топ-3 чипов для Embedded, для работы с видеонейронками и OpenCV?

Первое, на что стоит обратить внимание — это для чего конкретно вы планируете их использовать и в каких условиях работать. Сейчас мир довольно сильно поляризовался, поэтому использование китайских чипов в Америке может быть рискованным делом. Точно так же и с американскими чипами — скажем, в России их использование тоже может обернуться проблемами из-за возможного прекращения поставок. Так что первый вопрос, который нужно себе задать — где и что вы собираетесь делать, и к каким технологиям у вас будет реальный доступ.

Если говорить с точки зрения удобства и практичности, не оглядываясь на цену и ограничения, я очень люблю NVIDIA Jetson. На этих платах обычно можно запустить практически всё — это действительно хорошая, проверенная платформа.

А вот если смотреть на соотношение цена-качество, то RockChip — просто находка. За сто долларов можно взять плату, на которой вполне реально запускать довольно неплохие языковые модели прямо на NPU. Хотя какие-то модели можно запустить с небольшой скоростью и на Raspberri Pi.

Так что мои фавориты — это Jetson и RockChip. Если говорить о третьей платформе, то до недавнего времени мне очень нравился Hailo, но у них возникли серьезные проблемы с поддержкой языковых моделей. Их предыдущее поколение не очень хорошо с этим справляется, а новые решения они пока не выпустили. Поэтому третье место пока остается вакантным.

Я с нетерпением жду возможности протестировать Axelera, возможно Sima AI, и новый Qualcomm. Год назад мы пробовали тестировать Qualcomm, но они только-только вышли на рынок, были достаточно сырыми, и у нас сгорело две платы подряд. Мы тогда отложили эксперименты, но через пару месяцев планирую снова взяться за Qualcomm.

— Многие выбирают Jetson Xavier как универсальное решение для edge-вычислений. Действительно ли Jetson — лучший выбор с точки зрения энергопотребления, производительности и сложности поддержки?

— С Jetson ситуация неоднозначная. Начнем с того, что Xavier уже устарел — актуальным сегодня является Orin. Xavier представляет предыдущее поколение архитектуры, которое потеряло актуальность несколько лет назад.

Линейка Jetson включает вычислительные модули разной мощности. В устаревшем Xavier существовали версии AGX и NX, современная серия Orin сохраняет ту же градацию: Nano для базовых задач, NX для проектов средней сложности и AGX для самых требовательных применений.

По энергопотреблению DLA-ускорители (Deep Learning Accelerator) показывают хорошую эффективность при обработке нейронных сетей. Но есть критическое ограничение — они не поддерживают языковые и мультимодальные модели. Теоретически это может измениться, однако сейчас доступна только восьмибитная точность и крайне ограниченный набор типов слоев.

Зато Jetson оснащен полноценным GPU, способным выполнять PyTorch и современные движки языковых моделей — vLLM, LLaMA.cpp и другие. GPU получает отличную поддержку, но проигрывает специализированным ускорителям в энергоэффективности.

Анализ соотношения цены и производительности усложняет картину. Для простого распознавания объектов достаточно RockChip — он справляется с задачей и стоит в четыре-пять раз дешевле. Однако если проекту нужна крупная языковая модель, помещающаяся только в память Jetson, или требуется высокая скорость обработки, альтернатив практически нет.

RockChip заявляет производительность около 6 TOPS. Jetson Orin NX демонстрирует 60 TOPS на GPU плюс около тридцати на каждом DLA-ядре.

Среди прямых конкурентов по производительности — Sophon и чипы Qualcomm. Sophon стоит около трехсот долларов против пятисот за Jetson, решения Qualcomm — пятьсот против шестисот. Однако настройка и запуск нейросетей на альтернативных платформах требует значительно больше усилий.

Существуют решения Intel и AMD, но это отдельная история. AMD пока не может нормально запускать даже мультимодальные модели, NPU от Intel еще не успел протестировать. По цене решения обеих компаний сопоставимы с Jetson, а энергопотребление, вероятно, даже выше.

— Какая из упомянутых платформ реально выдерживает продакшн-нагрузку? Где можно не просто запустить демо, а стабильно обновлять модели, поддерживать экосистему и проходить сертификацию? Или мы все еще живем в мире железа для прототипов?

— Мы создавали продуктовые решения на разных платформах. В продакшене использовали Jetson — работаем с ними с 2014 года, реализовали множество проектов. Разрабатывали решения на RockChip, различных платформах Intel, включая Movidius. Было решение на Qualcomm, правда не на последнем поколении, а на чипах четырехлетней давности. Внедряли Hailo и другие платформы.

В основном это классические задачи компьютерного зрения. По масштабам развертывания — компании, с которыми мы сотрудничали, использовали тысячи устройств, возможно, десятки тысяч. Поэтому называть это демонстрационными проектами неправильно.

Языковые и мультимодальные модели — совершенно другая история. Как я уже отмечал, за последний год рынок в этой области изменился кардинально. Все еще остается довольно сырым. Компании, готовые вложить больше усилий сейчас, быстрее выйдут на рынок с такими продуктами. Альтернатива — подождать год-два, пока инфраструктура созреет, тогда разработка станет дешевле и проще.

Можете назвать конкретный кейс, где железо реально проработало год без костылей и миграций на другую архитектуру? Есть решение, которое стабильно функционирует на этих платформах, а не демонстрируется кратковременно?

Конечно! Несколько компаний заказывали у нас решения на Jetson для городского трафика — распознавание номеров, классификация транспорта. Развертывались тысячи устройств.

Первый крупный проект с Jetson — компания Artec 3D, производитель трехмерных сканеров. Мы предложили им использовать Jetson. Там применялась не совсем нейросеть, а CUDA для математических вычислений. Исследования начались в 2014 году, активная разработка — в 2015-м. Финальный продукт вышел примерно в 2018-м. Продали тысячи устройств, возможно, десятки тысяч — точную цифру не знаю, но это определенно полноценное Jetson-решение.

По RockChip знаю разработчиков, которые внедряли их для распознавания номеров и идентификации животных. Они выпустили свои продукты, и все работает.

Получаются довольно однотипные примеры применения?

Да, но с разнообразными условиями эксплуатации. Автомобильные решения функционируют в Египте, России, Европе. Они стабильны и надежны.

Правда, большинство наших разработок — решения для узких доменов. Мультимодальные модели теоретически когда-нибудь позволят выйти за эти рамки — создать универсальную камеру для десятков различных задач. Но пока мы не достигли уровня, когда такое решение может обеспечить точность, сравнимую со специализированными моделями.

Стоит ли гнаться за более мощным железом, не лучше ли вложиться в грамотного инженера-оптимизатора, чем в очередной Xavier? Может быть, не железо, а оптимизация — это будущее развития Edge-устройств?

Здесь важно понимать, что именно оптимизировать. Если речь о моделях, то скорее нет. Возьмем, например, Qwen. Чтобы его оптимизировать, нужна команда программистов, которые понимают математику модели, принципы обучения, функции различных компонентов и особенности их работы на конкретном железе. Полностью разобраться в математике Qwen, алгоритмах обучения и проецировании на аппаратуру — задача не для одного человека. Либо нужен суперпрофессионал, либо адекватная команда с различной экспертизой.

Поэтому логичнее другой подход. Когда мы консультируем по проектам, обычно советуем начать с тестирования плат, подходящих под конкретные условия и задачи. После тестирования выбираете плату и под нее делаете необходимые оптимизации. Плату стоит брать с запасом — чтобы при добавлении новых AI-функций остаться в рамках выбранной платформы. Оптимизацию можно проводить на позднем этапе, например, через пять лет, когда появятся новые архитектуры.

Это скорее вопрос системного проектирования. Нужен грамотный архитектор, который спланирует развитие AI на выбранной платформе на несколько лет вперед с учетом всех рисков, ресурсов и ограничений. Низкоуровневые оптимизации без системного подхода не гарантируют результат.

«Ключевой вопрос — не цена поддержки, а необходимый уровень сервиса»

Какая платформа реально самая дешевая в долгосрочной перспективе, а не просто по цене коробки?

Ответ зависит от масштаба проекта. Для домашних экспериментов — скажем, детектора кошек на газоне — Jetson идеален. Все работает из коробки, никаких дополнительных инструментов не требуется. Однако при переходе к промышленным масштабам картина меняется.

Когда речь заходит о тысячах устройств, возникают принципиально новые задачи: централизованное управление, удаленные обновления прошивок, мониторинг состояния. Ни одна платформа не решает эти вопросы из коробки. Для Jetson существуют системы вроде Balena, способные управлять большим флотом устройств, но это добавляет 1-2 доллара ежемесячных расходов на каждое устройство.

NXP занимает лидирующие позиции на рынке встраиваемых систем благодаря комплексной экосистеме. Их готовые Linux-дистрибутивы позволяют автоматически собирать образы с нужными компонентами — достаточно выбрать требуемую конфигурацию. Все NPU и периферия поддерживаются сразу. Как правило, финальную интеграцию выполняет поставщик железа, который передает готовое решение с предустановленной системой.

Ключевой вопрос — не цена поддержки, а необходимый уровень сервиса. Для нескольких тестовых устройств оптимален Jetson. При сотне устройств экономически выгоднее облачные системы управления. Масштабы в тысячи единиц требуют разработки собственной инфраструктуры.

Как вы относитесь к идее отказаться от Edge-плат в пользу облачных моделей, которые могли бы выполнять более сложные сценарии — не только гонять котиков на газоне, но и следить за домом, контролировать температуру? Умные дома сегодня используют облачные вычисления, команды поступают через серверы. Не кажется ли вам, что вы “последний из могикан”, кто еще интересуется этим железом?

Не кажется, потому что я вижу реальный спрос со стороны бизнеса. Множество компаний переносят свои нейросети на Edge-устройства. Вопрос домашнего использования действительно спорный — я бы дома вполне спокойно отнесся к облаку. Но знаю множество решений, которые делают именно на локальном железе.

Для бизнеса облако означает серьезные расходы, значительно превышающие затраты на Edge-решения.

Можете сравнить расходы?

Возьмем простой пример. Палата пациента с тремя камерами для мониторинга происходящего. Нужно распознавание объектов хотя бы с частотой два кадра в секунду. Три камеры должны стримить видео, значит, нужен роутер — вряд ли больничный Wi-Fi выдержит такую нагрузку. Стоимость этого роутера может покрыть цену чипов с вычислителями для самих камер.

Когда поток приходит на сервер, нужно одновременно декодировать несколько видеостримов плюс выполнять обработку. Даже если создать систему, сопоставимую по цене с Edge-решением, она сможет обслуживать, скажем, 100 камер. Получается, минимальная единица покупки для больницы — сразу 100 камер. Хотите протестировать на пяти камерах — экономически невыгодно. Нужно добавить три новые палаты, а лимит сервера исчерпан — придется ставить еще один сервер. Бизнесу это крайне неудобно.

Возьмем городское наблюдение — автобусы. В 2017 году мы делали на Jetson систему подсчета пассажиров для контроля оплаты проезда. Такая система экономит бюджет и может приносить 50-100 долларов выгоды с одного автобуса в день. Если гнать все видео в облако, половину этого бюджета съест 4G-трафик.

Для домашнего применения вопрос спорный, согласен. Но думаю, локальные решения все равно будут востребованы — облако ненадежно и нестабильно. Люди, которые создают по-настоящему умные дома, все равно ставят локальные системы на базе Raspberry Pi с поддержкой различного железа. Если это просто поиграться — достаточно Яндекс.Колонки с парой лампочек, но это не умный дом.

Когда заказываете ремонт с установкой умной системы, вам не будут ставить подключение к Яндексу — дадут локальную сборку с пультом управления. Потому что с Яндексом регулярно возникают проблемы: лампочка перестает поддерживаться, команда некорректно обрабатывается. Качественное решение, скорее всего, будет локальным.

«Теоретически, американское правительство может выводить из строя американские компоненты»

Edge-устройства подаются как решение для приватности — данные не уходят в облако. Но кто проверяет, что само устройство не скомпрометировано? Те же китайские чипы, от которых американцы закрываются. В облаке хотя бы контролируешь периметр, а здесь множество уязвимых точек. Это реально безопасно?

Зависит от уровня необходимого контроля. Возьмем устройства NXP или Texas Instruments — у них можно собрать Linux с готовым набором компонентов. За пределами этого набора ничего нет. Закладок на уровне железа можно избежать, трафик прослушивается. Насколько мне известно, обмануть такую систему крайне сложно.

Более того, можно заказывать собственное железо. Мы довольно часто делаем кастомные платы на базе Jetson — отдельный чип, отдельная память, все компоненты известны и контролируемы.

Теоретически американское правительство может выводить из строя американские компоненты специальным сигналом — есть слухи о подобном во время войны в Ираке. Возможно, с китайскими платами то же самое. Но серверы подвержены таким атакам на порядок больше — если кому-то нужно все выжечь, это произойдет без особых проблем.

Чем ниже уровень контроля над железом, тем проще обеспечить безопасность. Меня больше пугает отправка данных в облако. Представьте: в квартире стоит прослушка, которая реагирует на разговоры, и все это уходит в облако, над которым у вас нет контроля. Яндекс.Станция напрягает меня больше, чем потенциальный RockChip с локальным Whisper.

— Получается, вас напрягает возможность получения и обработки данных компанией вроде Яндекса, но китайским производителям вы доверяете?

— Я вижу разные уровни рисков. Возможно, у китайских производителей есть способ зайти на мое устройство, но это спорно. На том уровне, на котором пересобирается система, единственный реальный вариант компрометации — удаленно вывести устройство из строя по сигналу. Если вы не покупаете готовое железо, а собираете систему сами, то встроить закладку в стандартные сборки Linux крайне сложно.

Меня как владельца малого бизнеса или обычного пользователя не столько напрягают теоретические риски глобальной войны или тотального контроля, сколько реальные риски утечки персональных данных. И этот риск на порядок выше, когда данные — например, расшифровка речи — уходят в облако. Это напрягает гораздо больше.

От бизнеса часто поступают запросы в целях безопасности запустить большие модели на локальных мощностях. Банки заинтересованы в локальной работе того же ChatGPT. Возможно ли это реализовать через Edge? Как бы вы советовали решать такие задачи?

Здесь нужно в первую очередь понять, зачем им это нужно. Если речь об анализе документов, я бы просто поставил небольшой сервер с необходимым количеством GPU. Для анализа документов очевидно лучше взять более крупную модель — качество будет выше. Начал бы с анализа метрик, а дальше действовал исходя из результатов.

На уровне Edge-решений, какой-то компактной коробки, не очень понимаю, где банку это может понадобиться. Возможно, для аудиоинтерфейсов — например, аудиокиосков. Там действительно простая модель на Edge может сработать.

Что касается компьютерного зрения, то все, что есть в банках, — обычно детекционные и классификационные модели. Контроль очереди, мониторинг заполненности помещений, сбор первичных данных. Для этого большие модели не нужны. Edge справляется, и во всех банках, которые я видел, это реализовано на уровне камеры или небольшого обработчика в сети.

Если же решение касается работы с документами, письмами или другими сложными задачами, лучше поставить сервер с нужным количеством GPU и развернуть все на нем.

Комментарии (27)

JBFW
02.06.2025 10:21
#28384360
Не, нуачо, все правильно. Вон стоит у меня одноплатник стоимостью $20, прекрасно детектирует "кошек на газоне" (прохожих и машины).
Какие облака, когда РКН то и дело что-то ломает?

Аналогичная штука вполне могла бы "посчитать людей в комнате" или еще что-то.
1. March228
  02.06.2025 10:21
  #28386980
  Ну верно, но для генеративных моделей все же требуются значительные мощности. Хотя все же для простого бота поддержки в банке я думаю джетсон пойдет
  1. Koshkodevka
    02.06.2025 10:21
    #28392638
    Уже вижу очередь к поддержке:
    
    Чат-бот с со статическими вопросами и ответами.
    
    ИИ.
    
    Человек оператор со скриптами.
    
    Человек оператор с универсальными, но поверхностными знаниями.
    
    Человек оператор специалист по данной проблеме.
    
    Всё для того, чтобы сэкономить на поддержке, ведь большинство людей до 4 или 5 пункта не добирается, проще забить на эту затею.

terabucks
02.06.2025 10:21
#28385606
Очень интересная тема. Пока мало что про нее известно. Спасибо за компетентную экспертизу!

poriogam
02.06.2025 10:21
#28385658
Кто-нибудь юзает мелкие модели, типа qwen3-8b? Как, для чего?
1. SnakeSolid
  02.06.2025 10:21
  #28385910
  Я использую 8b модельку от яндекса для перевода и сокращения текста.
  1. Spectrum-Hyena
    02.06.2025 10:21
    #28386416
    для перевода хорошо справляется gemma 4b от гугла, 8b должна быть лучше, понятное дело. Сомневаюсь, что среди локалок есть что-то лучше геммы в мультиязычности (разве что qwen3 как раз, но сомнительно)
    
    Shannon
    02.06.2025 10:21
    #28386802
    Сомневаюсь, что среди локалок есть что-то лучше геммы в мультиязычности (разве что qwen3 как раз, но сомнительно)
    
    Есть специализированная Aya Expanse (8B и 32B), она не самая умная, но она заточена на перевод на 23 языках (Arabic, Chinese (simplified & traditional), Czech, Dutch, English, French, German, Greek, Hebrew, Hindi, Indonesian, Italian, Japanese, Korean, Persian, Polish, Portuguese, Romanian, Russian, Spanish, Turkish, Ukrainian, and Vietnamese).
    
    По крайней мере с японского на русский она лучше чем Gemma3 переводит.
    Есть еще более свежая Aya Vision 8B/32B, может как и Gemma3 переводить картинки, но у неё нет gguf, только bnb-4bit, что не так удобно для запуска.
  1. poriogam
    02.06.2025 10:21
    #28387154
    Но ведь у мелких моделей проблемы с языком, они нередко даже согласование путают - твая мая панимай, как их можно использовать для переводов?
    
    SnakeSolid
    02.06.2025 10:21
    #28387856
    Проблемы с согласованием если и есть, то мне они в глаза не бросаются, по крайней мере на паре русский-английский. Возможно для литературного перевода эта модель не подходят, но у меня был выбор только среди 8b моделей и я выбрал ту, которая показала лучший результат в моих тестах. Если когда-нибудь обновлю видеокарту, буду выбирать модели побольше.
    
    dv0ich
    02.06.2025 10:21
    #28392706
    Если когда-нибудь обновлю видеокарту, буду выбирать модели побольше.
    
    Там Nvidia давеча выкатила RTX6000 с 96 ГБ видеопамяти, должно хватить на жирную нейронку :) Цена вопроса - всего 10 кило зелени.
1. artmel
  02.06.2025 10:21
  #28386788
  Анализ настроения и удовлетворенности клиента в техподдержке. И анализ работы техподдержки

Hheimerd
02.06.2025 10:21
#28388158
Зачем в статье сравнивается теплое с мягким? GPT модели и CV модели. Они совершенно разные

Busla
02.06.2025 10:21
#28388166
Edge-устройства подаются как решение для приватности — данные не уходят в облако.

Edge устройства — это по определению оптимизирующие шлюзы в/из облака. Огромная LLM в датацентре генерит связный разумный текст, локальная компактная модель на edge-устройстве его озвучивает; локальные легковесные модели обрабатывают шаблонные голосовые команды "включи лампочку", а всё выходящее за рамки их шаблонов пересылают на обработку в облако и т.д. и .т.п.
1. JBFW
  02.06.2025 10:21
  #28388312
  локальные легковесные модели обрабатывают шаблонные голосовые команды "включи лампочку", а всё выходящее за рамки их шаблонов пересылают на обработку в облако
  
  И всё это для того, чтобы не щелкать кнопкой выключателя )
  
  На самом деле, если так подумать, сейчас на волне всеобщего хайпа скоро LLM из облаков прикрутят для управления межкомнатными дверями - ну, там где надо просто рукой толкнуть.
  
  Сбываются мечты о личном мажордоме, который команды понимает. Правда, в ответ обычно говорит только "Да, господин!" - и включает ту лампочку.
  1. holgw
    02.06.2025 10:21
    #28388846
    И всё это для того, чтобы не щелкать кнопкой выключателя )
    
    Как будто что-то плохое. Если есть технология, которая позволяет за приемлемую цену хоть чуть прибавить бытового комфорта, то почему бы и нет. Ну и если отбросить алармизм типа "из-за этих ваших умных домов люди скоро двери открывать разучатся", то есть группы людей, для которых подобные технологии будут действительно необходимы -- люди с ограниченными возможностями и пожилые люди.
    
    На самом деле, если так подумать, сейчас на волне всеобщего хайпа скоро LLM из облаков прикрутят для управления межкомнатными дверями
    
    Умный дом с голосовым ассистентом появился задолго до GPT moment.
    
    ilvar
    02.06.2025 10:21
    #28389004
    А также группа "люди, идущие ночью в сортир в темноте"
    
    Serge78rus
    02.06.2025 10:21
    #28389574
    Проблемы этой группы решаются светильником с датчиком движения.
    
    ilvar
    02.06.2025 10:21
    #28389730
    Поздравляю, у вас умный дом!
    
    zuek
    02.06.2025 10:21
    #28389998
    Ну, не знаю - на даче - да, идти ночью в сортир, не включив свет - чревато наступить на что-то, оставленное на проходе (или улёгшееся на проходе, правда, моя шерстяная приучена на приближающегося впотьмах кожаного выдавать предупреждающий "Мур!"), но в городе - для перемещения по комнатам с запасом хватает уличного освещения, а в коридоре - иллюминации от роутера.
    
    ...а кричать в ночи "Масяня! Включи свет в коридоре!" - ну, такое...
    
    numark
    02.06.2025 10:21
    #28390348
    Для ночных походов ~~в сортир~~ давно уже лампочки с датчиками движения придумали. Хочешь в розетку, если есть, хочешь - на батарейках.
    
    Тысячи их. И не надо никакого умного дома и, тем более, орать в ночи.
    
    zuek
    02.06.2025 10:21
    #28391136
    Ну, светильники с датчиками движения у меня как раз на даче стоят - у входной калитки, у входов в постройки, около дровника - везде вешать проходные выключатели неудобно... ну, а по помещению ночью перемещаться - хватает света от фитнес-браслета. Ну, а ночник с датчиком движения - думаю, удобное решение, просто как по мне - избыточное, как и голосовое управление светом.

Bardakan
02.06.2025 10:21
#28388290
Однако на практике ИИ часто используется для простых задач — проверить, правильно ли припарковался автомобиль, или составить отчет о проделанной работе. Для таких целей модели уровня ChatGPT или Gemini избыточны — достаточно решений с 3, 2 или даже 0,5 миллиардами параметров.

для таких задач даже GPT не нужен. А если все-таки хотите его использовать, то вам точно не нужен ИИ общего назначения.

z3r0-gr4v1tY
02.06.2025 10:21
#28390786
а разве это «локальное» не зависит от питания и сетки)?

hphphp
02.06.2025 10:21
#28391528
Много всего написано, но конкретных современных примеров использования ИИ не увидел. Все что сказано было известно всем, кто работал с OpеnCV начиная года эдак с 2009.

Для чего тратить даже эти 150 у.е. на плату, что с ней реально можно сделать локально полезного?

Georgii_L
02.06.2025 10:21
#28391810
убежать не выйдет. Я хотел бы локальный инстанс с возможностью определять системный промт и выставлять размер обрабатываемых токенов. Но б у сервер не потянет. Нужно МНОГО видеопамяти. Для полноценной модели нужна машинка на 1.5 млн

На работе развернули- но доступ пока сильно ограничили. Ибо много пользователей не тянет.

НО- для ряда задач переходят, да. Где можно модель попроще. Но доступ к очень чувствительной для бизнеса информации

GidraVydra
02.06.2025 10:21
#28395910
Я даже ХЗ как комментировать сравнение GPT и CV.