Локальный DeepSeek-R1: Когда скорость улитки – не приговор, а точка старта / forpes.ru

Главная
Локальный DeepSeek-R1: Когда скорость улитки – не приговор, а точка старта

Локальный DeepSeek-R1: Когда скорость улитки – не приговор, а точка старта +70

09.06.2025 14:21

Banakhovich 109 24000 Источник

Зачем?

У меня возникло желание запустить локальную версию DeepSeek R1 и V3. Это связано с необходимостью избежать рисков связанных с блокировками доступа и утечкой данных. Ещё добавилось желание протестировать разнообразные настройки LLM. До этого момента я пробовал запускать разные небольшие модели исключительно на cpu. А вот опыта с большими моделями не было.

Где?

На просторах интернета можно встретить разные решения для запуска локально DeepSeek R1 и прочих больших моделей. К сожалению, в публикациях часто путают DeepSeek R1 и его дистиллированные версии, требующие куда меньших ресурсов. Рассчитывать на покупку профессиональных решений для LLM я не мог в связи со скромным бюджетом. Ограничение бюджета наложило серьёзный отпечаток на итоговый выбор железа. А ещё хотелось сделать всё достаточно компактным.

Процессор

Руководствуясь мыслью, что чем больше ядер, тем лучше, сделал ставку на процессоры поколения AMD EPYC 7002 Все более старшие поколения стоили для меня слишком дорого. Прочитал статью Что за Epyc такие? Cтранные OEM версии Epyc 2-го и 3-го поколения. Тест AMD Epyc 7C13 и остановил свой выбор на EPYC 7K62. Он стоил дешевле, чем его точная копия EPYC 7552. В статье есть неточность по поводу ОЕМ версии. Процессор является OEM версией 7552, а не 7642. Разница в размере L3 Cache 192MB против 256MB. Процессор совместим с выбранной в дальнейшем материнской платой. К моей конфигурации подошёл бы и топовый AMD EPYC 7H12, но он дороже в несколько раз. Хотя результаты было бы интересно сравнить с AMD EPYC 7K62.

- AMD EPYC™ 7552
- CPU Cores 48
- Threads 96
- Max. Boost Clock Up to 3.3 GHz
- Base Clock 2.2 GHz
- L3 Cache 192 MB
- Default TDP 200W
- CPU Socket SP3
- Socket Count 1P / 2P
- PCI Express® Version PCIe® 4.0 x128
- System Memory Type DDR4
- Memory Channels 8
- System Memory Specification Up to 3200 MT/s
- Per Socket Mem BW 204.8 GB/s

Материнская плата

Материнская плата выбиралась так, чтобы иметь 8 слотов памяти, формфактор ATX или меньше для компактности. Поддержка быстрого NVMe накопителя в формфакторе M.2 для быстрой загрузки моделей в оперативную память.
Опираясь на уже выбранный процессор и информацию из выше приведённой статьи, решил взять Supermicro H11SSL-i Version: 2.00

- Single AMD EPYC™ 7001/7002* Series Processor (*AMD EPYC 7002 series drop-in  
support requires board revision 2.x)
- 1TB Registered ECC DDR4 2666MHz SDRAM in 8 DIMMs 
   2TB Registered ECC DDR4 3200MHz SDRAM in 8 DIMMs (Board revision 2.x required)
- Expansion slots:  
 3 PCI-E 3.0 x16  
 3 PCI-E 3.0 x8  
 M.2 Interface: 1 PCI-E 3.0 x4  
 M.2 Form Factor: 2280, 22110  
 M.2 Key: M-key  
- 16 SATA3, 1 M.2
- Dual Gigabit Ethernet LAN Ports
- ASPEED AST2500 BMC graphics
- Up to 5 USB 3.0 ports  
 (2 rear + 2 via header + 1 Type A)
 Up to 4 USB 2.0 ports  
 (2 rear + 2 via header)
- 7 PWM 4-pin Fans with tachometer status monitoring

Память

С памятью было сложно. Очень хотелось попробовать запустить модели с квантованием INT8, но это влекло за собой выбор модулей по 128GB, что сильно увеличивало бюджет проекта. Решил остановиться на 512GB оперативной памяти, отказавшись от запуска версии INT8. И купил восемь планок hynix 64GB 2Rx4 PC4-3200AA-RB4-12.

Твердотельный накопитель

Для хранения и загрузки я рассчитывал, что мне хватит 2TB и приобрёл SSD WD black SN770 2 TB Сейчас уже думаю о большем объёме, так как при тестировании требуется иметь побольше моделей.

- Capacity 2TB
- Form Factor M.2 2280
- Sequential Read Performance 5150MB/s
- Sequential Write Performance 4850MB/s
- Random Read 650K IOPS
- Random Write 800K IOPS
- Interface PCIe Gen4 x4

Видеокарта

Видеокарта появилась не сразу, а была куплена чуть позже для эксперимента с улучшением скорости работы. Как оказалось в дальнейшем, прирост был значительным.
Видео карта выбиралась из бытовых вариантов с памятью не менее 24GB. Таких вариантов было всего три

RTX 3090
RTX 4090
RTX 5090

Учитывая цены на представленные варианты и желание минимизировать стоимость сборки, остановился на NVIDIA RTX3090 FE

Блок питания

Блок питания у меня достаточно банальный corsair rm series RM850 его должно хватить и на процессор с памятью и на перспективу для подключения GPU.

Корпус

Выбор корпуса был увлекательным. Хотелось максимально компактный, в который всё поместится и будет хорошо охлаждаться. Я не знал ещё, какой куллер буду ставить, и какого размера будет GPU. Некоторое время назад столкнулся с корпусом Zalman T6. Памятуя о том, что у меня в него поместился огромный куллер Noctua NH-D15 chromax.black и большая GPU. Решил остановится на нём.
Корпус, ругаемый по отзывам в яндексе покупателями за тонкий металл и возможность легко его погнуть, меня вполне устроил как по компактности (377(глубина) X 200(ширина) X 430(высота)mm), так и по возможностям размещения в нём комплектующих. При заявленных размерах для установки GPU 280mm я спокойно установил в дальнейшем карту длиной 313mm. Порадовало хорошее охлаждение корпуса.

Железяка

Сервер получился компактным и шустрым.

Итоговая конфигурация:

EPYC 7K62
Supermicro H11SSL-i Version: 2.00
8 x hynix 64GB 2Rx4 PC4-3200AA-RB4-12.
SSD WD black SN770 2 TB
NVIDIA RTX 3090 FE
corsair rm series RM850
Zalman T6

Вся эта радость стоила совсем не маленьких 230 тысяч рублей и была куплена по частям на Авито, за исключением блока питания, корпуса и ssd.

Настройка среды выполнения

Как и что?

В качестве операционной системы была выбрана ubuntu 24.04 server. Для работы с моделями llama.cpp. Удобство запуска модели обеспечили docker контейнеры. Все артефакты у меня хранятся в кэшируещем прокси репозитории, организованно посредством nexus sonatype 3. Сложность с nexus вызвана желанием, полностью исключить выход сервера с AI в сеть интернет, и необходимостью наличия локальных копий всех требуемых для работы артефактов. У меня настроены отдельные контейнеры для каждой LLM. Более подробно о llama.cpp в docker можно узнать тут. Это позволяет легко запускать и останавливать нужную LLM, пользуясь удобным интерфейсом portainer.

Не претендую на то, что это самый лучший и удобный способ, но пока сделал так. Наличие docker позволяет в дальнейшем автоматизировать запуск нужных LLM, посредством API. Ничего не мешает использовать llama.cpp без докера. Возможно, даже будет чуть быстрее. По моим наблюдениям разница не принципиальна и тяжело поддаётся оценке.

Приведу пример docker compose файла для запуска с использованием GPU

services:
  gpu-ds-r1-0528:
    container_name: gpu-ds-r1-0528
    image: ghcr.io/ggml-org/llama.cpp:server-cuda
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              capabilities: [gpu]
    ports:
      - "29004:29004"
    volumes:
      - ./ds-r1-0528-ud-q4_k_xl:/models:ro
    command: [
      "-m", "/models/DeepSeek-R1-0528-UD-Q4_K_XL-00001-of-00008.gguf",
      "--cache-type-k", "q4_0",
      "--threads", "48",
      "--ctx-size", "32768",
      "--n-gpu-layers", "999",
      "-ot", ".ffn_.*_exps.=CPU",
      "--seed", "4038",
      "--prio", "3",
      "--temp", "0.6",
      "--min-p", "0.01",
      "--top-p", "0.95",
      "--port", "29004",
      "--host", "0.0.0.0"
    ]
    healthcheck:
      test: ["CMD-SHELL", "curl -f http://localhost:29004/health || exit 1"]
      interval: 30s
      timeout: 10s
      retries: 5
      start_period: 2m
    restart: unless-stopped

И только на CPU

services:
  cpu-ds-r1-0528:
    container_name: cpu-ds-r1-0528
    image: ghcr.io/ggml-org/llama.cpp:server
    ports:
      - "29004:29004"
    volumes:
      - ./ds-r1-0528-ud-q4_k_xl:/models:ro
    command: [
      "-m", "/models/DeepSeek-R1-0528-UD-Q4_K_XL-00001-of-00008.gguf",
      "--cache-type-k", "q4_0",
      "--threads", "48",
      "--ctx-size", "32768",
      "--seed", "4038",
      "--prio", "3",
      "--temp", "0.6",
      "--min-p", "0.01",
      "--top-p", "0.95",
      "--port", "29004",
      "--host", "0.0.0.0"
    ]
    healthcheck:
      test: ["CMD-SHELL", "curl -f http://localhost:29004/health || exit 1"]
      interval: 30s
      timeout: 10s
      retries: 5
      start_period: 2m
    stop_grace_period: 60s
    restart: unless-stopped

Используемая модель

Когда я только собрал этот сервер, запускал предыдущую версию DeepSeek-R1. Так как на днях модель обновилась до версии DeepSeek-R1-0528, то именно на ней будем проверять производительность. Заодно оценим качество её работы. Сама модель очень большая 671 миллиард параметров. Если верить опубликованным тестам, то очень хороша по сравнению с топовыми закрытыми моделями. По сравнению со своей предыдущей версией тоже прибавила.

Модель я использую квантованную в формате gguf. Мне нравится реализация от unsloth для теста буду использовать DeepSeek-R1-0528-UD-Q4_K_XL занимает 384GB на диске.

Тест производительности

Методика тестирования будет достаточно простой. Я отправлю один и тот же запрос и буду фиксировать скорость ответа. Для справки также приведу ответы на запрос.

Меня интересуют подробности о Хабре.
Расскажи как можно больше и подробнее.
Обязательно добавь историю и тенденции.

CPU

Во время генерации нагрузка на процессор составляет 100%

Генерация начинается со скоростью 4.1 t/s после генерации 1000 токенов понижается примерно до 3.7t/s при приближении к 2000 скорость становится равна 3.5 t/s 3000 токенов 3.3 t/s
итоговые результаты:

Tokens: 3304
Time: 992173.402 ms
Speed: 3.3 t/s

Ответ

Окей, пользователь хочет максимально подробную информацию о Хабре. Запрос очень широкий - история, тенденции, всё подряд. Видно, что человек либо новичок в IT-сфере, либо собирается глубоко погрузиться в русскоязычное tech-сообщество.

Интересно, почему именно так сформулирован запрос? Может быть, он рассматривает Хабр как платформу для работы/блогинга, или просто хочет понять культурный контекст. Надо покрыть все аспекты, но структурированно - иначе получится каша.

Сначала стоит объяснить суть Хабра - многие путают его с обычным новостным сайтом. Важно подчеркнуть три ключевых компонента: публикации, Q&A и фриланс. И историю подать не как сухие факты, а с упоминанием ключевых моментов вроде ребрендинга с GT на Хабр - это важно для понимания эволюции платформы.

Пользователь явно ждёт анализа трендов. Надо выделить как позитивные (например, рост образовательного контента), так и проблемные (уход экспертов в Telegram). Особенно стоит отметить "хаброжизнь" - это уникальное явление, которое многое говорит о местной культуре.

О, и нельзя забыть про тренды! Тут важно балансировать - показать и рост авторитарного администрирования (баны), и параллельную тенденцию к визуализации (инфографика, YouTube). Пользователю наверняка интересна практическая польза: можно ли там найти работу, стоит ли заводить блог.

Финал должен быть честным: да, Хабр уже не тот, но всё ещё незаменимый ресурс. И добавить контрастные эпитеты - "корпоративный" vs "маргинальный", чтобы передать двойственность платформы. Главное не перегружать, но дать исчерпывающую картину.

Хабр (Habr) — это крупнейшая русскоязычная IT-ориентированная платформа, объединяющая новостной портал, блог-платформу для профессионалов, систему вопросов и ответов (Q&A) и площадку для фриланса. Вот максимально подробный обзор:

Суть и Основные Составляющие:

Публикации (Статьи/Посты): Ядро Хабра. Пользователи (от новичков до признанных экспертов) публикуют:
- Технические статьи: Глубокие разборы технологий (языки программирования, фреймворки, базы данных, алгоритмы), архитектурные решения, кейсы, туториалы.
- IT-новости и аналитика: Свои переводы зарубежных новостей, аналитика рынка, обзоры событий.
- Опыт и кейсы: Рассказы о реальных проектах, успехах, провалах, решениях сложных задач ("как мы построили...", "почему наш проект сгорел").
- Мнения и дискуссии: Точки зрения на тренды, управление, этику, карьеру в IT.
- Образовательный контент: Учебные материалы, разборы задач, руководства.
- "Хаброжизнь": Уникальный жанр — личные истории из жизни IT-специалистов (переезды, карьера, конфликты, юмор), ставший культурным феноменом.
- Статьи проходят модерацию на соответствие правилам (качество, уникальность, релевантность).
Хабрахабр (Q&A): Система вопросов и ответов. Пользователи задают технические и профессиональные вопросы, другие отвечают, набирая репутацию. Есть тематические разделы ("Хабы").
Фриланс (Habr Freelance): Платформа для поиска исполнителей (фрилансеров, студий) для IT-проектов и заказов для исполнителей. Включает рейтинги, портфолио, безопасные сделки.
Компании: Разделы компаний, где они публикуют новости, вакансии, кейсы, представляют себя IT-сообществу.
Вакансии: Крупная IT-биржа вакансий с фильтрами по технологиям, опыту, локации.
Хабы: Тематические разделы (категории), куда публикуются статьи и вопросы (например, "Программирование", "Администрирование", "Дизайн", "Научная IT-тематика", "Карьера").

История Хабра (Ключевые вехи):

2006: Рождение как "Главная Тема" (GT): Основатель — Денис Крючков. Площадка для гиков с фокусом на технологиях Apple и веб-разработке. Формат — коллективный блог.
2006 (Конец года) — Перезапуск как Habrahabr.ru: Смена названия, расширение тематики. Появление первых "хабов". Начало формирования активного сообщества.
2008: Появление кармы и рейтинга: Введение системы кармы (внутренней репутации пользователя за публикации/комментарии) и рейтинга статей. Стимулировало качественный контент и активность.
2010: Запуск "Хабрахабра" (Q&A): Отдельный сервис для вопросов и ответов.
~2010-2014: Золотая Эра: Период расцвета:
- Огромный поток качественного экспертного контента.
- Активные, часто жесткие, но содержательные дискуссии в комментариях.
- Высокий авторитет площадки в русскоязычном IT-мире.
- Становление "хаброжизни" как жанра.
- Появление знаковых авторов и компаний.
2010: Продажа компании TM: Habr был продан холдингу TM (владелец — Арам Пахчанян). Это вызвало опасения сообщества о коммерциализации и цензуре.
2013: Ребрендинг, Habr.com: Смена домена на Habr.com, новый дизайн. Акцент на интернационализацию (хотя основная аудитория осталась русскоязычной).
2015: Запуск Habr Freelance: Выход на рынок фриланс-услуг.
2018: Серьезные изменения в модерации и политике: После скандалов и критики:
- Усиление модерации комментариев (борьба с токсичностью, но часто обвиняемая в избыточности и запрете критики).
- Введение "черных списков" тем и слов.
- Ужесточение правил публикаций.
- Следствие: Массовый уход части старых, активных и критически настроенных пользователей и авторов на альтернативные платформы (Medium, VC.ru, Telegram, собственные блоги). Сообщество ощутило раскол.
2020-2022: Политика и Цензура: В связи с геополитическими событиями Хабр, как часть российской юрисдикции:
- Ввел строгие ограничения на обсуждение определенных тем и использование определенной лексики.
- Усилил политическую цензуру в комментариях и статьях.
- Заблокировал возможность комментирования для пользователей из некоторых стран (включая Украину).
- Это привело к новой волне ухода аудитории и авторов, особенно из Украины и критически настроенных россиян.
Настоящее время (2024):
- Остается крупнейшей русскоязычной IT-площадкой по охвату и объему контента.
- Основной контент: новости (часто переводные), кейсы компаний, обучающие материалы, кадровые/карьерные темы, "хаброжизнь".
- Глубина и экспертный уровень части статей ниже "золотой эры", но все еще много ценных материалов.
- Комментарии стали значительно менее агрессивными, но и менее содержательными/критическими.
- Платформа стала более "корпоративной" и менее "маргинальной".

Основные Тенденции (Последние годы):

Снижение "Экспертности" и "Блогосферности":
- Рост доли новостного контента и кейсов от компаний (часто с элементами пиара). Много переводов англоязычных статей.
- Уход части лучших независимых авторов на другие площадки или в личные блоги.
- Упрощение языка и глубины материалов: Больше контента для junior/middle уровня. Сложные нишевые темы публикуются реже.
Коммерциализация и Корпоратизация:
- Habr как HR-инструмент: Публикации о культуре компаний, кейсы, вакансии — важный канал привлечения кадров.
- Платформа для B2B: Компании активно используют Хабр для продвижения своих решений, сервисов, экспертизы.
- Развитие Habr Freelance: Платформа активно конкурирует с другими фриланс-биржами.
Эволюция Сообщества и Модерации:
- Смена поколений: Новая активная аудитория, менее помнящая "старый Хабр".
- "Зачистка" токсичности: Модерация жестко пресекает оскорбления, троллинг. Комментарии стали спокойнее.
- Критика цензуры: Ограничение острых тем, запрет на критику администрации/модерации — источник постоянных споров.
- Снижение активности дискуссий: Меньше жарких, но содержательных споров в комментариях.
Расширение Форматов:
- Видео: Появление видео-контента (стримы, лекции, обзоры) как на основном сайте, так и на YouTube-канале Habr.
- Инфографика и Визуализация: Больше материалов с графиками, схемами, скриншотами.
- Подкасты: Проекты, связанные с Хабра (например, "Запуск Запуска").
Образовательный Фокус: Рост популярности обучающих статей, руководств, курсов (как от авторов, так и от учебных заведений/компаний).
Геополитическое Влияние:
- Ограничение аудитории и авторов из некоторых стран.
- Самоцензура авторов по "острым" темам.
- Сложности для международных компаний в использовании платформы.

Значение Хабра Сегодня:

Крупнейшая IT-Библиотека: Огромный архив статей по всем аспектам IT (бесценный ресурс для обучения и поиска решений).
Важный Новостной Агрегатор: Основной источник IT-новостей на русском.
Мощная HR- и B2B-Площадка: Ключевой канал для найма и продвижения IT-продуктов/услуг/компаний.
Сообщество (хоть и изменившееся): Все еще место для обмена опытом, пусть и в более ограниченных рамках.
Фриланс-Площадка: Активный рынок для IT-заказов и исполнителей.
"Витрина" Рунета: Демонстрирует уровень развития и интересов русскоязычного IT-сектора.

Выводы:

Хабр прошел путь от нишевого блога гиков до крупнейшего многофункционального IT-портала Рунета. Он пережил "золотую эру" с взрывом экспертного контента и бурными дискуссиями, но также и серьезные кризисы, связанные с коммерциализацией, изменениями в модерации и геополитикой. Сегодня Хабр — это мощная, но несколько другая платформа:

Сильные стороны: Огромный архив знаний, новостной охват, HR и B2B потенциал, узнаваемость бренда, работающие фриланс и Q&A сервисы.
Слабые стороны/Критика: Снижение уровня экспертизы и независимого блогосферного контента, коммерциализация, цензура (особенно политическая), уход части старой аудитории, менее активные дискуссии.

Несмотря на все изменения и противоречия, Хабр остается незаменимым ресурсом для русскоязычных IT-специалистов, компаний и всех, кто интересуется технологиями, хотя его роль и восприятие сообществом значительно трансформировались. Он отражает как развитие, так и сложности русского IT-рынка.

CPU+GPU

Нагрузка на GPU сначала 100% пока происходит чтение запроса, потом снижается примерно до 30% и растёт постепенно по мере генерации ответа.

Генерация начинается со скоростью 8 t/s. После генерации 1000 токенов понижается до 7t/s, при приближении к 2000 скорость становится равна 6.8 t/. Преодоление порога в 3000 токенов показывает скорость 6.6 t/s

итоговые результаты:

Tokens: 3549
Time: 545956.756 ms
Speed: 6.5 t/s

Ответ

Окей, пользователь хочет максимально подробную информацию о Хабре. Упоминает историю и тренды — значит, нужен не просто сухой справочник, а живой анализ.

Пользователь явно либо новичок, который только слышал о платформе, либо опытный юзер, проверяющий мои знания. Раз просит "как можно больше", лучше дать развернутый ответ с деталями, которые не всегда очевидны.

Стоит структурировать:
Сначала база — что такое Хабр (но без воды, он ведь просит подробности).
Потом история — с упоминанием пионеров Рунета (Габелев, Сысоев), это покажет глубину.
Особенно важно объяснить эволюцию: как из нишевого IT-форума выросла экосистема.

Тренды — самая ценная часть. Надо честно показать смену парадигмы:

Раньше: хардкорные технари, глубина.
Сейчас: широкая аудитория, больше поверхностных статей. Это вызовет дискуссию у знающих пользователей — хорошо, значит ответ не скучный.

Не забыть про Хабрахабр → Хабр, ребрендинг важен для понимания культуры. И тени — например, как модерация иногда вызывает споры.

Финал — мой личный взгляд. Показать, что Хабр — это живой организм со своими болезнями роста, но незаменимый. Так пользователь получит не только факты, но и аналитику.

Расскажу о Хабре максимально подробно, как вы просили, с фокусом на историю и современные тенденции.

Хабр (Habr) — Крупнейшая русскоязычная ИТ-платформа и экосистема

Это не просто сайт. Это сложная экосистема, объединяющая:

Habr.com (основная платформа):
- Публикации (Статьи): Ядро платформы. Технические руководства, обзоры технологий, аналитика рынка, кейсы компаний, новости ИТ, мнения экспертов, переводы иностранных статей. Есть материалы разного уровня сложности — от beginner-friendly до deep tech.
- Хабы: Тематические разделы (категории). Пользователи могут подписываться на интересующие их хабы (Python, Java, ИИ, Безопасность, Карьера в ИТ, Стартапы и т.д.).
- Компании: Разделы компаний-работодателей. Здесь компании публикуют новости, статьи о своих технологиях, кейсы, вакансии, рассказывают о корпоративной культуре.
- Пользователи (Хабравторы): Зарегистрированные участники. Могут публиковать статьи, комментировать, голосовать (+/-), добавлять в закладки, общаться в личных сообщениях. Есть система кармы (репутация) и рейтинга.
- Комментарии: Одно из самых активных и ценных сообществ. Часто в комментариях разворачиваются глубокие технические дискуссии, исправляются ошибки в статьях, задаются уточняющие вопросы.
- Вакансии: Мощный раздел по поиску работы в ИТ. Компании размещают вакансии напрямую.
- Q&A (Вопросы и ответы): Раздел для задавания конкретных технических вопросов и получения ответов от сообщества.
- Песочница: Место для публикации черновиков статей, получения предварительной обратной связи перед публикацией на главной.
Другие проекты экосистемы:
- Мой круг (moikrug.ru): Сервис поиска работы и найма специалистов (часто интегрирован с вакансиями на Хабре). Покупался TM в прошлом.
- Хабр Карьера: Сервис по поиску работы (развитие раздела вакансий).
- Хабр Фриланс (freelance.habr.ru): Площадка для фрилансеров в ИТ.
- Хабр Учебник (habr.com/ru/sandbox/learn): Образовательные курсы (в основном платные).

История Хабра: От Нишевого Форума до ИТ-Гиганта

2006 - Основание (Habrahabr):
- Создан Денисом Крючковым ("Gribozavr") и Дмитрием Сысоевым ("Sourcerer") как блог-платформа для публикации переводов статей из зарубежных технических ресурсов (в первую очередь, Slashdot).
- Название — каламбур: "Habr" как производное от "Hacker" + "Hub" (центр), а "Habrahabr" — отсылка к "Алисе в Стране Чудес" ("Jabberwocky").
- Изначальная идея: Сделать качественные переводы технических новостей и статей доступными для русскоязычной аудитории.
2007-2010 - Становление Сообщества:
- Постепенно платформа открывается для оригинальных авторских статей.
- Формируется активное, технически подкованное сообщество. Высокие стандарты качества контента и дискуссий (закладываются основы модерации).
- Появляются первые хабы (тематические разделы).
- Хабрахабр становится главным местом общения русскоязычных ИТ-специалистов.
2010 - Переломный Год. Покупка ТМ:
- В августе 2010 года проект покупает компания ТМ (Тематические Медиа) Алексея Габелева (сооснователя Mail.ru Group и ряда других крупных проектов). Это ключевой момент в истории.
- Инвестиции позволяют серьезно развивать платформу, наращивать команду, улучшать техническую инфраструктуру.
- Ставка делается не только на контент, но и на построение экосистемы (вакансии, компании, фриланс).
2011-2016 - Расширение и Монетизация:
- Запускаются ключевые сервисы: Вакансии (2011), Компании на Хабре (2013), Фриланс (позже).
- Появляются новые форматы: интервью, репортажи с конференций, дайджесты.
- Растет аудитория, расширяется тематика (помимо чистых технологий, появляются хабы по управлению, маркетингу, дизайну, карьере).
- Внедряются модели монетизации: реклама, платные публикации для компаний (HR-брендинг, технологический брендинг), платные услуги для соискателей/фрилансеров.
2017 - Ребрендинг: Habrahabr -> Habr:
- Сайт меняет название с "Habrahabr" на более короткое и современное "Habr".
- Одновременно происходит серьезный редизайн платформы, улучшение UX.
- Это символизирует переход от нишевого проекта к крупной медиа-экосистеме.
2018-2020 - Глобализация и Интеграции:
- Запускается англоязычная версия Habr.com/en (не получила такого же масштабного развития, как RU).
- Интеграция с другими сервисами ТМ (например, слияние баз вакансий с "Мой круг").
- Дальнейшее развитие экосистемы: Habr Career, Habr Freelance.
- Усиление позиций как главной площадки для HR-брендинга и рекрутинга в ИТ.
2022 - Настоящее время: Новые Реалии:
- События февраля 2022 года оказали значительное влияние:
  - Исход части аудитории (как авторов, так и читателей).
  - Уход многих международных компаний-рекламодателей и работодателей.
  - Изменения в тематике контента (больше фокуса на отечественные решения, импортозамещение).
- Адаптация платформы:
  - Сохранение основной массы русскоязычной ИТ-аудитории внутри страны.
  - Появление большого количества контента про отечественные технологии и софт (PostgreSQL вместо MySQL, Astra Linux, "Базис", СБИС, VK Работа и т.д.), импортозамещение.
  - Фокус на практические аспекты работы в новых условиях (юридические аспекты, релокация/удаленка, переквалификация).

Современные Тенденции и Дискуссии

Расширение Тем и Аудитории:
- Диверсификация: Хабр давно перестал быть только про программирование. Активно развиваются хабы по Data Science, DevOps, SRE, Security, Тестированию, Управлению проектами, Менеджменту, Маркетингу, Дизайну, Карьере, Финансам в ИТ, геймдеву и даже научпопу.
- Более Широкая Аудитория: Помимо senior-разработчиков, сейчас на платформе много junior-специалистов, менеджеров, рекрутеров, маркетологов, студентов. Это меняет стиль и глубину части контента.
Коммерциализация и HR-Брендинг:
- HR-Контент: Огромный объем статей — это HR-брендинг компаний: рассказы о проектах, технологических стеках, корпоративной культуре. Важный канал рекрутинга.
- Технический Маркетинг: Компании публикуют кейсы, обзоры своих продуктов/решений.
- "Непрямая" реклама: Реклама в статьях, спонсорские публикации. Пользователи иногда критикуют избыток "нетехнического" и "рекламного" контента.
Изменение Качества Контента:
- "Золотой век" vs "Эпоха мусора": Старая гвардия часто ностальгирует по временам, когда статьи были глубже и "техничнее", а комментарии исключительно по делу. Сейчас огромный объем публикаций, качество очень разнится: от блестящих технических разборов до поверхностных перепостов новостей или откровенно слабых статей.
- Система Модерации: Ключевой элемент. Статьи перед публикацией проходят проверку модераторами (часто волонтерами из сообщества). Система вызывает споры: с одной стороны, фильтрует откровенный спам и низкосортный контент, с другой — иногда блокирует спорные или нестандартные материалы. Карма и голосование (+/-) позволяют сообществу саморегулироваться, но тоже неидеальны (флейм, минусование за "не ту" точку зрения).
Сообщество и Дискуссии:
- Сила Комментариев: По-прежнему одно из самых ценных мест. Эксперты дополняют статьи, исправляют ошибки, задают острые вопросы. Дискуссии могут быть очень содержательными.
- Токсичность и Флейм: Как и в любом большом сообществе, присутствуют споры, переходы на личности, минусование "неугодных" мнений. Модерация комментариев — вечная головная боль.
- Клубный дух vs Доступность: Сохраняется некий "клубный" дух для технических специалистов, но платформа открыта для всех, что создает напряжение между старожилами и новой, менее технической аудиторией.
Тенденции в Контенте (2023-2024):
- Импортозамещение: Огромный пласт статей про российский софт, железо, облака, опыт миграции.
- ИИ (Искусственный Интеллект) и ML: Бум статей по генеративным моделям (ChatGPT, Stable Diffusion и аналоги), их применению, этике, инструментам.
- Карьера: Тонны материалов по поиску работы, собеседованиям, развитию навыков (hard & soft skills), релокации, удаленной работе.
- Практические Руководства: Популярны пошаговые туториалы, решения конкретных задач.
- "Мягкие" Навыки: Управление, коммуникации, психология работы в ИТ.

Значение Хабра Сегодня:

Главная ИТ-Площадка Рунета: Остается центральным хабом для русскоязычных ИТ-специалистов, несмотря на конкуренцию (vc.ru, DTF, Telegram) и изменения.
База Знаний: Неисчерпаемый источник информации (статьи + комментарии) по широкому спектру технических и околотехнических тем.
Кадровый Рынок: Важнейшая площадка для поиска работы и найма специалистов.
Медиаплатформа: Место, где формируются тренды, мнения, где компании доносят свою позицию и технологии.
Сообщество: Платформа для общения, обмена опытом, дискуссий (со всеми вытекающими плюсами и минусами).

В заключение: Хабр — это живой, динамичный, а иногда и противоречивый организм. Это зеркало русскоязычной ИТ-индустрии с ее достижениями, проблемами, коммерциализацией и энтузиазмом. Это не просто сайт, это сложная экосистема, играющая ключевую роль в жизни миллионов русскоязычных технических специалистов. Понимание его истории и текущих тенденций необходимо для понимания самой ИТ-среды Рунета.

Оно точно надо?

Собранный сервер позволил успешно запускать локальную версию DeepSeek-R1-0528. Несмотря на достаточно медленную генерацию, решение позволяет работать с чувствительными данными, а также не зависеть от внешнего поставщика.

Добавление в сборку GPU позволило практически в два раза повысить производительность системы и получить более комфортные 7 t/s на небольших запросах. Причём стоимость GPU составила всего 30% от общей стоимости сервера.

Использовать сервер с DeepSeek-R1-0528 для обычных бытовых запросов наверное нет смысла из-за скорости ответа. Для этого стоит либо использовать модели попроще, например Llama 4 Maverick. Она хоть и туповата по сравнению с DeepSeek R1 на сложных запросах, зато даёт фантастическую скорость в 30 t/s для модели в 400 миллиардов параметров. Сложные запросы конечно стоит обрабатывать на DeepSeek-R1-0528 или, если не нужны рассуждения, на DeepSeek-V3-0324. Они показывают одинаковую скорость работы.

Комментарии (109)

MxMaks
09.06.2025 15:26
#28416732
А если установить 2 GPU 3090 или 3 GPU 3090 ?
1. Banakhovich Автор
  09.06.2025 15:26
  #28416802
  У меня столько нет. Предположительно можно выгрузить туда ещё часть слоёв. И получить прирост производительности.
  1. Shannon
    09.06.2025 15:26
    #28418660
    "--cache-type-k", "q4_0",
    
    Лучше использовать q8_0, q4 для кэша уже дает заметное влияние на качество.
    
    Генерация начинается со скоростью 8 t/s. После генерации 1000 токенов понижается до 7t/s, при приближении к 2000 скорость становится равна 6.8 t/. Преодоление порога в 3000 токенов показывает скорость 6.6 t/s
    
    Попробуйте ik_llama, этот форк заточен для работы на CPU, и там, помимо разных оптимизаций, реализована поддержка mla. MLA позволяет 160к контекста засунуть в 11гб без квантования kv-кэша, и даёт меньшую потерю t/s.
    
    ik_llama может использовать существующие кванты с ключем -rtr, ничего перекачивать не нужно. Но есть и готовые R4 кванты, заточенные под CPU + 1 GPU на 24гб под 32к контекста, там же инструкция как запускать: https://huggingface.co/ubergarm/DeepSeek-R1-0528-GGUF
    
    Epyc 9374F 384GB RAM + 1 x RTX 4090
    Для этого стоит либо использовать модели попроще, например Llama 4 Maverick. Она хоть и туповата по сравнению с DeepSeek R1 на сложных запросах, зато даёт фантастическую скорость в 30 t/s для модели в 400 миллиардов параметров.
    
    У Maverick по Aider результат всего 15.6% против 71.4% у DeepSeek R1-0528, то есть она совсем туповата для программирования, но вполне неплоха в других сферах, например, перевода или творческого письма, поэтому модель в целом недооценена, учитывая её скорость.
    
    А причина разницы скорости в том, что у Maverick 402B есть приличное количество общих слоев нужных на каждом шагу, поэтому параметр -ot там даёт хорошее ускорение. А, например, у Qwen3-235B, которая весит ещё меньше, нет общих экспертов и там такого внушительного эффекта не будет. У DeepSeek вроде как есть небольшое количество общий экспертов, судя по их структуре.
    
    Сложные запросы конечно стоит обрабатывать на DeepSeek-R1-0528
    
    Если говорить про кванты и программирование, то провели бенчмарк кванта DeepSeek R1-0528-UD-IQ1_M в Aiders Polygot Benchmark испытывающий языки C++, Go, Java, JavaScript, Python и Rust.
    
    Без квантования: 71.4%
    UD-IQ1_M: 60%
    Sonnet 4 (no thinking): 56.4%
    Sonnet 4 (32k thinking): 61.3%
    
    У UD-IQ1_M вес 200гб, без квантования вес 700гб (оригинал DeepSeek в fp8, а не fp16, иначе было бы 1400гб), что позволяет даже на домашнем ПК DDR5 192гб + 24гб vram запускат на скорости 5 t/s. Таким образом динамическое квантование UD от unsloth может уменьшить вес в 3.5 раза, а качество упадет всего на 19% в плане программирования.
    
    Banakhovich Автор
    09.06.2025 15:26
    #28418798
    Спасибо. я смотерл в сторону ik-llama, но решил сначала попробовать классику как отправную точку. График красивый и скорости совсем другие но это надо учитывать что тестирование происходило на процессоре который на два поколения свежее того что у меня, и память скорее всего в два раза быстрее (DDR5). Maverick 402B шикарная модель для многих вещей, она даёт быстрые и достаточно хорошие ответы, но вот в коде очень ленится. если надо чтото быстро сделать поправить проанализировать то Maverick 402B хорош.
  1. riv9231
    09.06.2025 15:26
    #28421376
    Я скоро повторю, у меня и эпик есть такой же примерно и 2 x RTX3090, но тоже только 512GB RAM к сожалению. Нужны 128ГБ модули, но для такие процессоров этот объем памяти выглядит избыточным. Скорости генерации намного выше тех, что я ожидал. Я думал будет 0.5-1 t/s. Ещё интересно было бы видеть задержку перед первым токеном для случаев чистого CPU и CPU + GPU.
    
    Какая же у вас отличная статья! О таких статьях давно соскучился habr.
    
    Banakhovich Автор
    09.06.2025 15:26
    #28421446
    Если подскажете как корректно померить скорость первого токена. она ведь зависит от длинны промпта или я ошибаюсь? вот к примеру промпт из почти 5000 тоекнов обрабатывается со скоростью 22t/s на модели с квантованием 2. Это я сейчас тесты делаю к следующей статье.
    
    Prompt- Tokens: 4887- Time: 216186.398 ms- Speed: 22.6 t/s

maisvendoo
09.06.2025 15:26
#28416756
И будет такая улитка

SlavikF
09.06.2025 15:26
#28416938
DeepSeek-R1-0528 или, если не нужны рассуждения, на DeepSeek-V3-0324

Да, скорость генерации токенов примерно одинакова. Только вот для R1 надо ждать минут 10 пока она "думает", а V3 отвечает сразу и неплохо.

"--prio", "3"

Интересно, зачем этот флаг? Бывает на сервере запущено ещё пара сервисов, а запуск инференции с этим параметром "душит" всё остальное на сервере, при этом скорость генерации практически не увеличивается.

Мой опыт:

Моя система:
- Intel Xeon Gold 5218 (16 ядер, 32 threads),
- 6 каналов памяти * 64GB DDR4-2666
- RTX 4090D 48GB VRAM (китайский мод)
Использую две модели:
- DeepSeek-V3-0324-UD-Q2_K_XL (250GB), 6.3 tokens / sec
- Qwen3-235B-A22B-128K-UD-Q4_K_XL (125GB), 7.7 tokens / sec
Классная фишка у моделей Qwen3 - модель можно запустить один раз, а уже для каждого запроса решать - нужен простой ответ быстро? или нужно думать (thinking) долго?

Сейчас вот удалось на Ebay "словить" вариант компьютера с Intel Xeon W5-3425 всего за $1000. Правда память надо будет докупать. Надеюсь будет значительно быстрей, потому что у этих Xeon добавили технологию AMX, которая ускоряет инференцию, и есть 8 каналов DDR5-4800 памяти. DDR5 память правда раза в 3-4 дороже чем DDR4.
1. Banakhovich Автор
  09.06.2025 15:26
  #28417012
  Субъективно мне показалось что последняя R1 с рассуждениями сильно прибавила. И выдаёт решения лучше V3.
  Про приоритеты, у меня этот сервер исключительно для LLM и ComfyUI но они работают по очереди. я данный параметр брал как рекомендуемый от Unsloth.
  Qwen3-235B-A22B тоже хорошая но по моему уступает R1/V3 То что можно отключить размышления очень круто с этим не поспоришь.
  Не было экспериментов с выгрузкой дополнительных слоёв на GPU? Кажется что 48GB должны позволить это сделать.
  1. SlavikF
    09.06.2025 15:26
    #28417042
    Да, вот эта скорость выше - это с частичной выгрузкой слоёв. Вот мои параметры:
    
    --ctx-size 16384
    
    --cache-type-k q8_0 --cache-type-v q8_0
    
    --flash-attn
    
    --threads 16
    
    --n-gpu-layers 999
    
    --override-tensor '([3-8]+).ffn_.*_exps.=CPU'
    
    Выгрузка слоёв на GPU делает скорость чуть быстрее, но не сильно. GPU очень круто ускоряет процессинг промпта, и работу с KV cache. Сама инференция по большей части упирается в RAM.
    
    Banakhovich Автор
    09.06.2025 15:26
    #28417052
    У меня просто почти в два раза скорость выросла с выгрузки слова на gpu. А сколько памяти используется на gpu при таких настройках?
    
    SlavikF
    09.06.2025 15:26
    #28417074
    Тут надо разобраться - это выгрузка слоёв на GPU ускоряет?
    
    Потому что llama.cpp в первую очередь выгружает на GPU работу KV cache и обработку промпта. В этом случае даже если сами слои вообще не выгружать на GPU - уже может быть раза в два быстрее.
    
    У меня используется где-то 43GB VRAM.
    
    Я сильно много не экспериментировал, но думаю, что для моделей размером 120-350 ГБ особой разницы в скорости между 24GB и 48GB VRAM не будет. А вот разница между нет GPU и есть 24GB VRAM - большая.
    
    Shannon
    09.06.2025 15:26
    #28419486
    С недавних пор llama.cpp позволяет выгружать на GPU не целые слои, а их части. Например, для MoE моделей на каждом шагу, допустим, нужны лишь 5 слоев из 64, на каждом новом шагу эти 5 слоев разные. Если выгрузить 10 слоев на GPU, то шанс, что на каждом шагу вычисления попадут на GPU малы.
    
    Теперь есть параметр -ot или --override-tensors. Этим параметром можно разбить слои на тензоры внимания attn и массивные тензоров ffn.
    Если тензоры внимания вынести на GPU, для этого нужно не так много vram, то 64 слоев из 64 в виде тензоров внимания будут считаться на GPU на каждом шагу, что и дает ускорение.
    
    Если памяти хватает, то и отдельные ffn можно выгрузить на GPU дополнительно. Например, -ngl 99 -ot "blk.([0-9]|1[0-3]).ffn.=CUDA0" -ot exps=CPU выгрузит все тензоры внимания на GPU, после этого тензоры ffn слоев с 0 по 13 выгрузит на первую gpu CUDA0, а остальное отправит на CPU.
1. Vplusplus
  09.06.2025 15:26
  #28418116
  Подскажите, как делать переключение в Qwen3, чтобы не думать, а сразу выдавать результат?
  1. SlavikF
    09.06.2025 15:26
    #28418124
    Надо промпт начинать с /no_think
    
    Тогда отвечает сразу. Я использую OpenWebUI, - там можно этот "/no_think" добавить в список промптов и тогда его можно использовать "в один клик"
1. Advisory
  09.06.2025 15:26
  #28418258
  RTX 4090D 48GB VRAM (китайский мод)
  
  Где брали? Давно?
  1. SlavikF
    09.06.2025 15:26
    #28418260
    вот тут брал в феврале этого года:
    
    https://www.c2-computer.com/products/new-parallel-nvidia-rtx-4090d-48gb-gddr6-256-bit-gpu-blower-edition
    
    У них на сайте есть и другие видюхи.
    
    Advisory
    09.06.2025 15:26
    #28418360
    Пишут, что иногда глючат и не видятся все 48, а только 32. Судя по вашим ответам — не подтверждаете?
    
    SlavikF
    09.06.2025 15:26
    #28421450
    OS: Ubuntu 24.
    
    Видятся 48ГБ.
    
    Обычные драйверы, ничего особо не настраивал специально, всё "из коробки".
    
    Вот тут я написал результаты бенчмарков, мерил скорость у неё:
    
    https://www.reddit.com/r/LocalLLaMA/comments/1j11js6/i_bought_4090d_with_48gb_vram_how_to_test_the/
1. StraNNicK
  09.06.2025 15:26
  #28420080
  RTX 4090D 48GB VRAM (китайский мод)
  
  подскажите, где такую взять (гуглить умею, но судя по "китайский мод", лучше спросить про проверенный вариант)?
  1. Quarc
    09.06.2025 15:26
    #28423666
    Есть вот тут: https://www.avito.ru/brands/mdm/
1. Derapt
  09.06.2025 15:26
  #28423918
  Являюсь обладателем 48/96 инженерника Sapphire Rapids, тоже покупал с мыслями о AMX. В общем, смысла от них не много, всё упирается в скорость памяти.
  
  Система:
  
  Xeon QYFU (48/96, 2.8 GHz по всем ядрам)
  
  4 канала * 64gb DDR5-4800
  
  2 * RTX 3090
  
  Софт:
  
  LM Studio
  
  Результаты:
  
  Модель Qwen3-30B-A3B Q8_0, контекст 2400 ток:
  
  Только CPU:
  
  До первого токена: 34 сек
  
  Скорость генерации: 13 т/с
  
  50/50:
  
  До первого токена: 12 сек
  
  Скорость генерации: 17 т/с
  
  Только GPU:
  
  До первого токена: 1.5 сек
  
  Скорость генерации: 80 т/с
  
  Модель Qwen3-30B-A3B Q8_0, контекст 2400 ток:
  
  Только CPU:
  
  До первого токена: 48 сек
  
  Скорость генерации: 2.6 т/с
  
  50/50:
  
  До первого токена: 13.8 сек
  
  Скорость генерации: 3.44 т/с
  
  Только GPU:
  
  До первого токена: 2.6 сек
  
  Скорость генерации: 21 т/с
  
  В общем первостепенна скорость памяти, производительность CPU не так важна.
  Допускаю что в LM Studio есть какой-то косяк в работе с цпу, но вряд ли. Если посмотреть на соотношение пропускной способности памяти к т/с, то всё сходится. У проца 120-130 гб/с против 1тб/с у карты, ну и т/с соответственно в 10 раз меньше.
  Скорее всего можно выжать ещё больше, но я пришёл к выводу, что выгоднее вкладывать в процы с большим количеством pcie линий и видюхи к ним.
  
  Кстати ещё момент, с увеличением количества видеокарт скорость инференса не растёт, а в некоторых случаях даже немного падает (в случае с 1 одновременным запросом). Если проанализировать как происходит инференс на железе с помощью Nvidia Nsight, то становится понятно почему это происходит.
  1. SlavikF
    09.06.2025 15:26
    #28423932
    Не совсем понятно, у вас в результатах сравнивается "Модель Qwen3-30B-A3B Q8_0" с "Модель Qwen3-30B-A3B Q8_0"?
    
    LM Studio наврядли использует AMX. Это нужно или llama.cpp или ik_llama
    
    4 канала памяти? Обычно с таким количество ядер процессоры имеют по 8 каналов.
    
    Derapt
    09.06.2025 15:26
    #28424108
    Во втором случае qwen3-32B. Не заметил, когда писал)
    
    LM Studio использует llama.cpp как основу для инференса llm.
    
    4 канала памяти, ибо я на материнке сэкономил, когда покупал год назад, учитывая цену на оперативу и на платы, 8 каналов в 2 раза увеличило бы вложения.
    
    Изначально покупал чтоб протестить будет ли вообще толк от этих AMX (не хотелось сразу вкладывать кучу денег без результата), мой вывод, что в случае больших моделей - нет. Смысл от них есть только в том случае, если не хватает именно вычислительной мощности, в случае с LLM на процах упор идёт в скорость памяти. AMX возможно может немного помочь в случае больших контекстов (не проверял, не уверен), но оно не панацея. К тому же AMX имеет весьма ограниченную поддержку типов точности, если точнее, то только bf16 и int8.
    Тут на хабре есть хорошая статья о AMX: https://habr.com/ru/articles/807033/
    
    Если кратко резюмировать: Если Вам хочется получить максимально быстрый инференс на CPU, ищите варианты с максимально быстрой памятью. Сколько именно надо ядер точно не скажу (могу попробовать выяснить примерно оптимальное количество, если интересно), но от 48 точно никакого толка с такой медленной памятью нет.
    
    SlavikF
    09.06.2025 15:26
    #28424164
    Попробовать выяснить оптимальное количество ядер - это было бы интересно.
    
    Я видел комментарий, что в среднем одно ядро современного (Sapphire Rapids) Xeon способно переварить 20-30ГБ/с данных модели. Поэтому если ядер много, а память недостаточно быстрая чтобы загрузить ядра - они простаивают. И наоборот - если память быстрая, но не хватает скорости ядер их обработать - то простаивает память.
    
    Но эта цифра 20-30ГБ/c - сомнительная. Просто кто-то написал. Вот если бы реально это как-то померить, и как оно зависит от квантизации, ...
    
    Derapt
    09.06.2025 15:26
    #28424186
    И ещё важный момент:
    Когда будете покупать ОЗУ, Вам нужна именно RDIMM (серверная) память. Обычная DIMM не поддерживается этой платформой. Она (обычная) отличается по вольтажу и ключу разъёма от серверной. Проверьте внимательно совместимость.
    
    Советую почитать доп. инфу об этой платформе тут (на форуме очень много полезной информации, которую очень сложно найти): https://forums.servethehome.com/index.php?forums/processors-and-motherboards.18/
    
    Касательно замеров скорости ядра: Они есть в статье, которую я выше про AMX кидал, там есть график пропускной способности AMX блока (по сути самого ядра) в зависимости от размера: "Скорость загрузки AMX регистров"
    
    Кол-во ядер померяю чуть позже, но это чисто приблизительные данные, т.к. сильно может от системы зависеть.
    
    SlavikF
    09.06.2025 15:26
    #28424316
    Спасибо за ссылки. Кстати там тоже написана эта же цифра - около 20ГБ/с на ядро.
    
    Насколько я смотрел проекты, то поддержка AMX толком ещё не добавлена. Вот тут пишут какие-то фантастические цифры, которые "возможно" достичь с AMX:
    
    https://github.com/ikawrakow/ik_llama.cpp/issues/437
    
    Ktransformer kernel can achieve 21 TFLOPS of BF16 throughput and 35 TOPS of Int8 throughput on Xeon4 CPUs — about 4× faster than PyTorch’s general AMX kernel. For DeepSeek-V3, pairing a Xeon4 CPU with a single RTX 4090 GPU achieves 418 tokens/s end-to-end throughput
    
    Вроде бы прямо сейчас над этим работают.
    
    Derapt
    09.06.2025 15:26
    #28425094
    Почитал, в общем 400 т/с это судя по всему скорость обработки входного промпта (и то я сильно сомневаюсь в реалистичности такой скорости).
    Если перейти и посмотреть страницу на которую человек ссылается (https://github.com/kvcache-ai/ktransformers/blob/main/doc/en/AMX.md), то там видно, что в случае инференса Qwen3-235B-A22B на системе с Xeon 4 + RTX 4090 они достигают скорости 114 т/с при вычислении промпта и 14 т/с во время вывода новых. Это не мало, но и не сказать, что быстро как по мне. Я бы такое не использовал, слишком медленно для меня, тем более с рассуждающей моделью.
    
    Я думаю что есть смысл пожертвовать парой процентов метрик в пользу скорости, взяв модель поменьше. Лично я довольно часто и много общаюсь с локальными LLM во время кодинга и попутно у меня ещё чат бот свой работает. Долгие ответы очень быстро начинают подбешивать и портят весь комфорт взаимодействия.
    
    Сейчас я в основном сижу на Qwen3-30b-a3b, ибо 80-90 т/с великолепный результат с моментальными ответами, да и модель вполне себе умная, без проблем использует сложные инструменты и хорошо следует огромным инструкциям. Хотя честно говоря, есть у неё косяки, иногда тупит в некоторых диалогах и некоторые слова не знает)
    
    SabMakc
    09.06.2025 15:26
    #28425110
    Если сейчас в память упирается - то как расширенный набор инструкций процессора поможет (AMX или AVX512)?
    Максимум - меньше нагрузка на ядра будет.
    
    Derapt
    09.06.2025 15:26
    #28425296
    Меньше времени будет потрачено на саму операцию вычисления. Небольшой выигрыш будет. Условно можно за раз обработать больше данных, загружать их будем столько же, зато обработаем за раз.
    
    А если всё уместится в кеш процессора (не в случае с LLM), ты выигрыш будет очень большой.
    
    Ядра сами по себе сложные штуки с кучей вычислительных блоков внутри, на 100% оно на самом деле никогда не загружено, в самом идеальном случае дай бог 80-90% будет. То, что пишет в мониторинге не отражает действительности. Реальную загрузку можно разве что через профилировщики типа VTune посмотреть.
    
    Я, например, смотрел как llama.cpp работает на GPU и процентов 30 времени ядро карты простаивает выполняя другие операции, типа ввода/вывода, квантования и т.п, хотя все мониторинги пишут 100% загрузку. Да и оставшиеся 70 тоже на деле не 100% загрузка.
    
    SabMakc
    09.06.2025 15:26
    #28425366
    Т.е. ждать будем столько же, но энергопотребление будет ниже )
    
    Можно просто уменьшить число ядер, обрабатывающих запрос - будет меньше нагрузка. Потому как они действительно просто греют воздух в большинстве своем, ожидая данных из памяти )
    
    У меня 2х канальная память - и по скорости вывода разницы нет, что 8 ядер обрабатывают, что 4 ядра (у меня 16 ядер с учетом HT, без GPU).
    Правда скорость обработки запроса (prompt) меняется (падает в 2 раза), но и процессор не так греется - для меня это допустимый компромисс.
    
    Derapt
    09.06.2025 15:26
    #28425434
    Да, так и есть. На самом деле, если переборщить с количеством ядер результат даже ухудшится, причём заметно. На настольных процах это возможно не заметно, но у меня при использовании 48 ядер скорость падает в сравнении с 24.
    
    В других конфигурациях позже попробую и напишу сюда.
    
    А на счёт энергопотребления))... Бич этих зеонов (4 ген) в том, что есть 2 варианта кристалла, MCC (32C) и XCC (60C), XCC - это сборка из 4 чиплетов соединённых EMIB шиной. Эта шина совместно с архитектурой L3 кеша приводит к тому, что проц в простое жрёт 150-200 ватт. Если включить все энергосберегайки, то потребление падает до 90, но при этом всё становится жутко тормазнутым, т.к. проц просто не "просыпается" от обычных действий.
    Хотя из-за огромного кристалла (в районе 1600 мм2) охлаждать его очень легко, у меня при жоре 320 ватт больше 50-55 не греется)
    
    Derapt
    09.06.2025 15:26
    #28427122
    Вот результаты.
    
    Важные уточнения:
    
    Скорость памяти в районе 120 гб/с (у инженерников она на 10-15% медленнее релизных процов)
    
    Проц инженерный, по этому результаты в сравнении с релизными версиями могут немного отличатся в худшую сторону, но в общем закономерность должна прослеживаться.
    
    Инференс исключительно на CPU
    
    CPU с отключенным Hyper Threading, только настоящие ядра.
    
    LM Studio с движком llama.cpp b5572 (llama.cpp-win-x86_64-avx2)
    
    tFT - Время от старта до появления первого токена в секундах. Указано только для случая с контекстом, без контекста задержка плавала от 0.1 до 1 сек.
    
    Тесты провёл как с контекстом 2900 токенов, так и без.
    
    Тесты проводил по 1 прогону (уж очень долго и нудно это оказалось), так что результаты могут немного "плавать")
    
    Система: Win 11
    
    Qwen3-30b-a3b Q8_0
    
    | Cores | tFT (2900) | t/s (2900) | t/s (0) | |-------|------------|------------|----------| | 2 | 90 | 4.3 | 5.8 | | 4 | 58 | 7.5 | 10 | | 6 | 47 | 9.6 | 12.3 | | 8 | 41 | 11.4 | 14 | | 10 | 38 | 12.4 | 15.3 | | 12 | 36 | 13.4 | 16.1 | | 14 | 34 | 13.6 | 16.6 | | 16 | 33 | 14 | 16.8 | | 18 | 32 | 13.75 | 16.1 | | 20 | 31.6 | 14.2 | 16.2 | | 22 | 31.3 | 13.9 | 16 | | 24 | 31.3 | 13.6 | 15.7 | | 36 | 30 | 12.7 | 13.8 | | 48 | 30.5 | 9 | 9.7 |
    
    Qwen3-30b-a3b Q4_K_S
    
    | Cores | tFT (2900) | t/s (2900) | t/s (0) | |-------|------------|------------|----------| | 2 | 85 | 5.5 | 8.3 | | 4 | 52 | 9.5 | 13.8 | | 6 | 41 | 12.1 | 17 | | 8 | 35 | 14.1 | 19.2 | | 10 | 31.6 | 15.7 | 19.9 | | 12 | 26.8 | 16.1 | 20.9 | | 14 | 25.1 | 16.7 | 21.4 | | 16 | 23.5 | 17.6 | 21.8 | | 18 | 24.8 | 17.4 | 21.1 | | 20 | 24.6 | 17.5 | 21.2 | | 22 | 24.2 | 17.8 | 21.3 | | 24 | 23.8 | 17.4 | 20.7 | | 36 | 22.6 | 15.7 | 17 | | 48 | 22.7 | 11.4 | 12.5 |
    
    Qwen3-30b-a3b IQ1_S
    
    | Cores | tFT (2900) | t/s (2900) | t/s (0) | |-------|------------|------------|----------| | 2 | 75.3 | 4.1 | 5.4 | | 4 | 43 | 7.4 | 9.55 | | 6 | 33 | 9.9 | 12.7 | | 8 | 27.1 | 12 | 15.3 | | 10 | 23.9 | 13.3 | 16.5 | | 12 | 21.6 | 14.7 | 18.2 | | 14 | 20.1 | 15.5 | 19.4 | | 16 | 19.1 | 15.9 | 19.8 | | 18 | 18.4 | 16.7 | 20.3 | | 20 | 18 | 16.7 | 20.1 | | 22 | 18 | 17 | 20.1 | | 24 | 17.7 | 16.9 | 20.1 | | 36 | 18.3 | 16.1 | 17.9 | | 48 | 18.2 | 9.1 | 9.8 |
    
    Получается, что при такой скорости памяти предпочтительны 16-18 ядер (ну или аналогичная производительность, у меня они на 3.4 - 3.5 GHz в этот момент работали)
    Интересно, что IQ1_S работает даже медленнее Q4_K_S, похоже есть какие-то серьёзные "затупы" помимо скорости памяти... Я полагаю это может быть связано с преобразованием весов во время инференса.
    В ходе тестов оператива прогрелась до 78 градусов)
    
    По идее могу ради интереса попробовать скомпилировать движок с поддержкой AMX, но уже завтра.
    
    Могу ещё какие-нибудь прогоны сделать, если интересно.
    
    На счёт "компьютера с Intel Xeon W5-3425", проверьте какая там стоит материнская плата. Процессоры для рабочих станций работают только на W790 чипсете, таких плат 4:
    
    ASUS Pro WS W790-ACE
    
    Asrock W790 WS
    
    ASUS Pro WS W790-SAGE
    
    Gigabyte W790 AI TOP
    
    Так вот первые 2 - 4 канальные платы.
    
    SlavikF
    09.06.2025 15:26
    #28427260
    Спасибо большое за результаты!
    
    Я купил уже готовый компьютер - Dell Precision T7960, сегодня утром пришёл. Правда с ним только 4*16GB RAM, так что памяти надо будет докупить.
    
    chipset W790
    
    motherboard - не знаю какая, похоже у них своя (они называют это system board)
    
    поддерживается 8 каналов. На материнке - 16 DIMMs.
    
    Кстати, кто-нибудь знает, если запустятся DDR5 планки на 48GB? В их мануале написано что поддерживаются только 16 GB, 32 GB, 64 GB, 128 GB, 256 GB.
    
    8 * 48GB (384GB) - это наверное минимум чтобы запустить нужные модели. Можно купить за $1400.
    
    А вот 8 * 64GB (512GB) - это уже где-то $2200.
    
    Кстати узнал, что если ставить до 8 модулей памяти - работать будет на 4800 MT/s. А если больше модулей памяти - только на 4400 MT/s
    
    Derapt
    09.06.2025 15:26
    #28427338
    Лучше ставить те, что в мануале. Такие системы могут не запускаться с некоторой памятью, тем более проприетарные. Лучше всего брать планки с большим количеством чипов, с ними наименьший шанс проблем. И следите за типом памяти, обычная DDR5 не подойдёт (вообще там в мануале должен быть написан требуемый тип памяти).
    Я покупал эту: M321R8GA0BB0-CQK
    
    Кстати на счёт частоты, на форуме люди 8 канальную память до 6000 MT/s гнали, у меня 6к стабильно не работают, всё-таки самая дешёвая память не особо гонится). Так что эти 4800-4400 - гарантированная частота. На деле можно больше, но деловская плата наверное не даст погнать

digrobot
09.06.2025 15:26
#28417330
7 т./с. нормально, хватит чтобы речь генерировать

Evengard
09.06.2025 15:26
#28418058
А есть какие нить адекватные настройки чтоб на 16 GB VRAM попробовать запустить? Хочется попробовать, но с удивлением обнаружил что все ориентированы на 24 GB VRAM, а 16 уже типа видимо "прошлый век", хотя из потребительски доступных кажется достаточно всё ещё редким...

Спец устройство собирать пока не хочется, хочется на своём попробовать запустить, пусть медленно, но именно GPU + CPU
1. Spyman
  09.06.2025 15:26
  #28418066
  Если чисто на гпу - берите любую 7b модель из репозитория или 13b q4/q5 - они должны почти влезать.
  
  А если на гпу + цпу, то просто любую модель, что в озу влезает.
  1. Evengard
    09.06.2025 15:26
    #28418076
    Не хочу дистиллированную использовать, хотел именно полноценную (хотя бы самую маленькую из unsloth-вариантов)
    
    molnij
    09.06.2025 15:26
    #28418538
    Вы хотите Deepseek 600B+ запустить на 16gb vram? o_O
    Или вообще какую-нибудь модель запустить на 16gb?
    
    Второе легко. Как сказали выше - берете любую модель подходящего размера и запускаете - никаких проблем. В линейке MS Phi есть небольшие, у LLama есть, у Gemma есть, да много у кого есть отдельно тренированные модели, влезающие в 16Gb. Имхо, самый простой вариант для прям совсем новичка - LMStudio, чуть посложнее и в зависимости от навыка и задач - open webui/ollama, или чистая llamacpp - для экспериментов даже её встроенного минимального гуя хватит (ну и еще десятки разного рода оболочек и т.п.)
    
    Первое - ну, кхм, удачи. На обычном десктопе (не сервере, не тредрипере) если прям задаться целью, можно максимально ужатый вариант загнать в 198Гб сборку (4х48Гб - сетап который еще возможно найти и упихать в десктоп). Но это чисто спортивный интерес. Ни пользоваться для каких-то минимально разумных задач, ни что-то адекватное из неё получать не удастся. Там проблемы буквально со всех сторон будут - и по памяти едва-едва влезет, под контекст места почти не останется, и по скорости это будет грусть-печаль (хотя вариант с последними оптимизациями, когда на gpu перегружается только кэш а остальное крутится на cpu в этом исполнении еще не пробовал), ну и ужатый до предела первый квант... это не то, к чему стоит стремиться. В совсем уж теории есть варианты с подкачкой с диска, когда даже ram недостаточно. Но это уже для совсем... крепких духом и свободным временем.
    
    yatanai
    09.06.2025 15:26
    #28420778
    А смысл? Квантованные не сильно в качестве падают. Судя по тестам до q6_0 падение макс 10%, а вот дальше уже плохо всё.
    
    Banakhovich Автор
    09.06.2025 15:26
    #28420828
    Могу сказать что качество хоть и падает но не так сильно как кажется. Сейчас начал писать статью про сравнение разных квантов одной и той же модели.
1. Killan50
  09.06.2025 15:26
  #28418382
  Дипсик никак адекватно не запустите, даже сборка что в посте это просто эксперимент с очень низкой производительностью, на чем-то бытовом сразу забудьте.
  Если именно дипсик не важен, идете https://huggingface.co и подбираете модель под свои ресурсы, тысячи их и их тюнов. Однако чудес не ждите, на сегодняшний день какие-то реальные мозги у моделей общего назначения начинаются с Gemma 3 27b, запихать её в 16 vram конечно можно, особенно на гибриде с RAM, но производительность просядет, поиграться хватит но не более. Всякие мелкие модели как правило более прикладные, к примеру с переводами уже неплохо справляются 4b.
  1. apcs660
    09.06.2025 15:26
    #28418926
    вчера как раз попробовал gemma 3 27b на 16 VRAM карточке (4060 вроде).
    
    Тормозит как пьяный слон. 12б работает резво (целиком входит).
    
    Сегодня забираю 3090 24 ГБ (бу), попробую с ней. Две карты нужны были для достаточно простой задачи, не для прогона больших моделей (RAG демки).
    
    Валялось всякое железо - десктоп старый, в нем карта 4060 от демки год назад, minisforum 1290 Intel /64 RAM, пара плашек на 64 ГБ, штуки 3 SSD.
    
    Докупил minisforum еще один (на озоне из Китая, цена вполовину), в минисфоруме что хорошо: оптика, 2 SPF+, в дополнение к обычной сети и один слот pcie, можно еще карту расширения вставить (oculink), при этом компактный.
    
    Карточку добавил на 2 SFP+ для десктопа (intel 570 вроде, на али, 1800 руб), и метровые кабели (тоже на али). Oculink PCIe карты (около 1000 руб) и внешний minisforum egpu на oculink (5600 руб).
    
    Получилось бюджетно собрать мини кластер, с full mesh SPF+, выделенные каналы по 10 гбит между всеми нодами (гигабайт в секунду льется без проблем с пингом менее 1 мсек) - можно собрать небольший K8S кластер для домашних PoC, цеплять видюхи к нодам по окулинку, или все три видюхи по тому же окулинку к десктопу.
1. Banakhovich Автор
  09.06.2025 15:26
  #28418766
  Конечно есть и достаточно не лохие на моей сборки начинают генерацию со скорости 10 t/s и занимают в памяти GPU 15GB и 233 RAM https://huggingface.co/unsloth/DeepSeek-R1-0528-GGUF/tree/main/Q2_K
  только подберите размер контекстного окна думаю что 8-16k должно быть ок, возможно и больше. единственное я тестировал на модели Q2_K_XL она немного больше чем та которая сейчас лежит на сайте. её обновили буквально сегодня. учитывая уменьшение размера небольшое будет по идее ещё шустрее.
  
  И ещё 24GB уже давно не топ, сейчас RTX PRO 6000 96GB....
  1. apcs660
    09.06.2025 15:26
    #28418970
    за ссылочку спасибо. 24 понятно что не топ, это вопрос бюджета.
    
    Я вот сейчас, в творческом отпуске - если покупаю что то себе (видюху к примеру), значит и жене надо сопоставимый подарок сделать (женщины найдут на что потратить любой бюджет). Никаких заначек не хватит если для проб 96 гб карты покупать поиграться. Это ж не более чем практикум, для наработки опыта, играться с железяками дома. Хотя, тысяч 10-20 баксов можно потратить, если очень нужно, но все таки дом не работа.
    
    Для домашних демок нормальных сеток можно токены купить, в том же vsegpt.ru - посмотрел, сравнил, оценил и достаточно.
    
    Смотреть как сетка выплевывает по токену в секунду (или две) так себе удовольствие, это как программировать в windows на 386SX33 (была такая шутка) - я бы рядом с таким человеком опасался сидеть рядом ;-)
    
    riv9231
    09.06.2025 15:26
    #28423222
    Возьмите в дешевую аренду на vast.ai или clore.ai заодно докер изучите.
    
    apcs660
    09.06.2025 15:26
    #28423758
    Смотрел эти варианты - задач под ai у меня реальных нет, просто обучение.
    
    Если делать что то нормальное, конечно нужно арендовать подходящее железо а не городить дома ферму. Отказался от 25гб карты - она ничего не решает в плане обучения, 16+4 карт достаточно вполне.
    
    С докером знаком несколько лет, выпускал сборки своих продуктов на нем, так как вел 3 достаточно больших проекта на java, интеграционные тесты тоже на нем же, и просто разработка, к примеру базы не нем часто гонял (ставить замаешься). С начальством по поводу докера шла позиционная война, в итоге продавили, но тут "меня ушли".
    
    K8s подзабыл, да и не был девопсом - lens пользовался пару лет назад когда разбирали 3 монолита на набор микросервисов, но в прод это не пошло - почти два года работы в унитаз. Собрал минимальный кластер на 3 ноды (не люблю виртуалки для этого), поиграюсь с одним пет проектом (security in lucene), встряхнуть, а там и работу надо будет искать к началу сезона (август)
1. Shannon
  09.06.2025 15:26
  #28418960
  А есть какие нить адекватные настройки чтоб на 16 GB VRAM попробовать запустить? Хочется попробовать, но с удивлением обнаружил что все ориентированы на 24 GB VRAM, а 16 уже типа видимо "прошлый век", хотя из потребительски доступных кажется достаточно всё ещё редким...
  
  На 16гб без проблема запускается на тех же настройках, что и для 24гб. Вообще, для запуска нужно всего 9гб VRAM, так что у вас приличный запас, если обычной памяти хватает.
  
  Вот только запустил DeepSeek-R1-0528-UD-IQ1_S (под рукой другой нет) на 4060 ti 16гб с дефолтным запуском через:
  .\llama-server -m "D:\models\DeepSeek-R1-0528-UD-IQ1_S-00001-of-00004.gguf" -ngl 99 -ot exps=CPU -fa
  
  4.5 t/s под Windows, под Linux обычно на 20% быстрее
  Память на 4060 медленная, всего 288 гб/с против 1000 гб/с у 3090/4090 + ddr5 192gb 4800Mhz скорость 70 гб/с (на двухканале DDR5 можно получать и 100 гб/с), поэтому если у вас скорости выше, то и t/s будет выше.
  
  Но если памяти не хватает, то запускать можно прям с nvme, и тогда лучше сразу пробовать R1-0528-IQ1_S_R4 на ik_llama, она весит 136гб против 180гб, то есть считывать данных с диска на каждому шагу нужно будет меньше. Параметры запуска там приведены.
  1. apcs660
    09.06.2025 15:26
    #28423766
    Raid на ssd?
    
    Shannon
    09.06.2025 15:26
    #28425046
    Raid не поможет, нужно линейное чтение в 1 потоке. raid0/raid1 - в обоих случаях в 1 потоке будет просто поочередное чтение с разных дисков и скорость останется той же. Раид это обычно про увеличение iops, то есть про многопоток.
    
    Вот HighPoint SSD7540 Raid0 из 8 nvme дисков. В CrystalDiskMark первая строка этого многопоточное чтение, вторая однопоточное.
    
    apcs660
    09.06.2025 15:26
    #28425788
    Печаль, печаль. Получается контроллер работает с одним диском в потоке, распараллеливания на уровне одного потока нет.
    
    Отмасштабировали горизонтально а не вертикально контроллер.
    
    А если сделать костыль программным путем - загрузка порезанного gguf из кусков в разных mount points?
    
    У меня был проект кастомного серчера Lucene ( довольно извращенного, по наследству), где нужно было выжимать максимум в вертикальном масштабировании, использовали в нем композитный индекс на нескольких дисках. Поиск в шардах был многопоточный. Этакий сплющенный в одном процессе кластер

Advisory
09.06.2025 15:26
#28418256
Видеокарта появилась не сразу, а была куплена чуть позже для эксперимента с улучшением скорости работы. Как оказалось в дальнейшем, прирост был значительным.

Произошли ли изменения в использовании ОЗУ после переходя на GPU? Если да, то как.
1. Banakhovich Автор
  09.06.2025 15:26
  #28418684
  О да на памяти отразилось очень сильно!
  CPU - 486GB
  CPU+GPU - 352GB

Antra
09.06.2025 15:26
#28418542
Отличный комп. Прямо как я хотел в свое время, чтобы и достаточно компактный, и с кучей памяти, и с видюхой хорошей.

Может прозевал, но какая итоговая цена вышла (примерно)? Просто ориентировочно сравнить с Mac Studio, на которых якобы вполно комфортно можно Deepseek запускать даже неквантованный.

Хотя при таком объеме памяти и цена будет космическая. Быстрый поиск по Авито:
- 349 990 ₽ - MAC Studio (M3 Ultra/ 28 CPU/ 60 GPU/ 96GB/ 1TB)
- 1 199 900 ₽ Mac Studio M3 Ultra 32CPU 80GPU 512GB RAM 4TB SSD
1. Banakhovich Автор
  09.06.2025 15:26
  #28418624
  общая сборка вышла в районе 230 т.р.
  когда планировал сборку смотрел разные обзоры в том числе и на Mac Studio M3 Ultra 32CPU 80GPU 512GB RAM 4TB SSD а точнее на то с какой скоростью там работает DeepSeek есть на ютубе пара роликов так там получалось всего в районе 6t/s, это меньше чем на том что я собрал.
  1. Antra
    09.06.2025 15:26
    #28418874
    Для такого сетапа весьма оправданная цена.
1. Banakhovich Автор
  09.06.2025 15:26
  #28418630
  Не квантованный DeepSeek требует почти 1,5 ТБ памяти....
  1. Antra
    09.06.2025 15:26
    #28418872
    Да, действительно квантованный. Видимо я попутал, в связи с тем, что ЭDeepSeek’s approach activates only about 37 billion of its 685 billion parameters during specific tasks"
    
    Reddit
    
    M3 Ultra Mac Studio 512GB prompt and write speeds for Deepseek V3 671b gguf q4_K_M, for those curious
    
    Deepseek V3 0324 Q4_K_M w/Flash Attention
    
    4800 token context, responding 552 tokens
    
    CtxLimit:4744/8192,
    
    Amt:552/4000, Init:0.07s,
    
    Process:65.46s (64.02T/s),
    
    Generate:50.69s (10.89T/s),
    
    Total:116.15s
    
    12700 token context, responding 342 tokens
    
    CtxLimit:12726/16384,
    
    Amt:342/4000, Init:0.07s,
    
    Process:210.53s (58.82T/s),
    
    Generate:51.30s (6.67T/s),
    
    Total:261.83s
    
    Honestly, very usable for me. Very much so.
  1. Shannon
    09.06.2025 15:26
    #28419054
    Не квантованный DeepSeek требует почти 1,5 ТБ памяти...
    
    DeepSeek обучен в fp8, а не fp16, поэтому не квантованный весит 700гб.
    
    Banakhovich Автор
    09.06.2025 15:26
    #28419160
    Может тогда странно, почему указан формат BF16. и вот на страничке unsloth тоже есть формат BF16 и размер совсем не 700.
    
    Shannon
    09.06.2025 15:26
    #28419280
    Если в оригинале нажать на Files Info со стрелочкой, то будет видно, что BF16 и F32 там совсем немного, они нужны только для динамической активации и масштабирования.
    И если посмотреть в оригинальном репозитории размер модели, то не квантованный оригинал в safetensors занимает 163 файла весящие в среднем по 4.3гб, итого 700гб.
    
    У gguf нет поддержки квантования из fp8, поэтому чтобы квантовать модель, её сначала нужно апскейлить до bf16, и только после этого можно получить Q8 и так далее.
    
    Banakhovich Автор
    09.06.2025 15:26
    #28419316
    Спасибо, почитаю по подробнее.

alexhu
09.06.2025 15:26
#28418586
Есть вопрос, может кто знает ответы - что если использовать карты типа Tesla k80 - у них тоже 24 Гб памяти или ТЕСЛА М10 32 ГБ. Насколько просядет производительность?
1. Banakhovich Автор
  09.06.2025 15:26
  #28418674
  Это уже очень старые архитектуры Kepler и Maxwell видел сравнение както но цифры не запомнил. А вот на сравнение RTX3090 и P40 посроенной на более современной архитектуре Pascal сравнений достаточно много на ютубе. не в пользу последней P40. P40 проигрывает по скорости генерации токенов в 5-6 раз.
  1. alexhu
    09.06.2025 15:26
    #28418856
    Бенчмарки я видел, tesla 10 - летней давности проигрывают в 2,5 раза по производительности игровым картам сопоставимым по памяти. Только их сравнивают с игровыми картами на запусках игр, а в серверной тесле многих чипов важных для игр просто нет, но есть архитектура gpu ускорителя с упором именно на расчёты.
    
    Сейчас меня интересует только gpu ускорение, может у кого есть реальный опыт.
    
    Banakhovich Автор
    09.06.2025 15:26
    #28418864
    Ну так я смотрел именно тесты на инференс llm а не на игры.
1. ShadF0x
  09.06.2025 15:26
  #28420112
  K80 - это бутерброд из двух ГПУ на 12ГБ, больно геморройно на ней модели запускать.
  1. alexhu
    09.06.2025 15:26
    #28420580
    Два чипа должны работать как одна память - так я читал на форумах. Хотя там такие карты обсуждались под игры.

alexhu
09.06.2025 15:26
#28418854
Бенчмарки я видел, tesla 10 - летней давности проигрывают в 2,5 раза по производительности игровым картам сопоставимым по памяти

suwakomoria
09.06.2025 15:26
#28419042
Вставлю свои 5 копеек.

Держу на 2 Intel Arc A770 16Gb (третью не всунул в pci-e 3.0x16 слот, хех), часто использую нейросетки для поиска информации и краткого саммари текстов, плюс по коду быстро подсказывает.

По токенам:
Deepseek-R1:14b на запрос "Напиши мне план для поездки в Киото на 10 дней - достопримечательности, туристические улицы и места для прогулок" выдал ответ с 16.78 t/s. Использовал 4719 Мб и 5212 Мб, 82W на видеокарточку.

По результату: норм, ответ на английском (запрос на русском), в целом похоже на правду, но я по карте не чекал.

По усилиям: всё сейчас сильно проще с Интеловыми видеокартами, нежели полтора года назад. Поставил драйвера по инструкции, скачал ollama-ipex portable package с оф. гит репозитория, и играйся дальше. Я лично подключил Open Web UI + Searxng, довольно урчу.

По деньгам: 30 тысяч рублей/карточка + 35 тысяч за Threadripper 1950X с материнкой + 17 тысяч за блок питания и 10 тысяч на корпус, охлаждение и прочее.

В общем, не нвидией единой, хотя токенов наверняка побольше будет именно на Nvidia. Ну и gemma3 запускать я не могу, так как Ollama-IPEX для Интела отстаёт на несколько версий от Ollama.
1. puchuu
  09.06.2025 15:26
  #28420320
  Запустите ipex llm с помощью docker compose из мастера. Там оллама последней версии.
  1. suwakomoria
    09.06.2025 15:26
    #28425442
    Огромное спасибо за совет, я не знал. Поиграюсь в выходные июньские. :)
1. Vedomir
  09.06.2025 15:26
  #28420358
  14b - это же не оригинальный DeepSeek, это дистилированные маленькие модели, или я чего-то не понял?
  1. Banakhovich Автор
    09.06.2025 15:26
    #28420810
    Правильно, просто часто путают их.

Antra
09.06.2025 15:26
#28419448
Интересно было бы узнать мнения, какие модели рекомендованы в таких сетапах именно для кодинга (в основном, python).

К примеру:
```
> ollama ps
NAME                                               ID              SIZE     PROCESSOR    UNTIL
fomenks/devstral-small_cline_roocode-64k:latest    aeb226743332    45 GB    100% CPU     4 minutes from now
> ollama ls
NAME                                               ID              SIZE      MODIFIED
fomenks/devstral-small_cline_roocode-64k:latest    aeb226743332    14 GB     46 minutes ago
```
Выдает для небольшого запроса (ollama run --verbose)
```
total duration:       1m55.197684067s
load duration:        32.888283ms
prompt eval count:    6332 token(s)
prompt eval duration: 2.576663468s
prompt eval rate:     2457.44 tokens/s
eval count:           499 token(s)
eval duration:        1m52.129634959s
eval rate:            4.45 tokens/s
```
Жить можно.

Но почему такая огромная разница в объеме 14GB / 45GB?

Есть ли смысл выбирать модели с суффиксом roocode? Оптимизированы под CPU? (конкретно эту не гонял на машине с GPU 16GB RAM, но glm4*roocode очень сильно на GPU оффлоадилась). Или их надо спрашивать не вручную или через OpenWebUI, а именно через RooCode?

По ощущениям показалось, что на сильно квантованных моделях на слабом сервере с GPU работает намного быстрее, чем на мощном сервере только с CPU (и это ожидаемо). А если не так сильно квантовать, в VRAM уже не влезает, и вроде CPU с кучей RAM должно себя лучше показывать, но там такие тормоза начитаются, что все равно не юзабельно... Да и Ollama вроде только 16 потоков пускает, не все CPU задействует.

Если платные API использовать - даже тут не очень понял, что лучше. Как бы DeepSeek пишет не хуже, чем какие-то coding модели с OpenRouter. При этом DeepSeek дешев, особенно в скидочные часы.
1. puchuu
  09.06.2025 15:26
  #28420334
  Модели devstral, qwen3 и qwen2.5-coder. Есть еще cogito, но она очень плохо слушается промпта. В идеале купить 2 карты по 24 гб каждая.
  1. Antra
    09.06.2025 15:26
    #28420574
    Ага, ОК. qwen2.5-coder юзал. Маленькие фрагменты (а-ля "напиши функцию, сортирующую словарь; сначала ключи из списка, остальные в алфавитном порядке") хорошо подсказывала. Devstral смотрю - вроде норм.
    
    Qwen3 - там ведь нет "coder". Я в таких вопросах очень слабо понимаю, сразу настораживаюсь. "сердцем чувствую", что сама модель, понятно, лучше, чем ее предшественница 2.5. Но вдруг без тренировки на coder вполне может в этой части оказаться и хуже по качеству, и гораздо требовательнее к ресурсам за счет кучи "ненужных для кодинга знаний".
    
    puchuu
    09.06.2025 15:26
    #28421596
    Для квин 3 все зависит от языка. Тайпскрипт она у меня пишет очень хорошо. А вот баш скрипт лучше пишет квин 2.5 кодер. Еще у квин 3 более высокая температура. Но в целом иногда квин 3 дает очень интересный результат и я его использую.
    
    Antra
    09.06.2025 15:26
    #28422112
    Прямо локальный qwen3:32b используете для всяких плагинов деволоперских (а-ля roocode VSCode) и довольны (не драматически слабее того же chan.qwen.ai)? Или что-то более навороченное?
    
    puchuu
    09.06.2025 15:26
    #28423408
    Да, обычный qwen3:32b без наворотов.
    
    puchuu
    09.06.2025 15:26
    #28427222
    ЗЫ вчера выложили рассуждающую модель magistral, начал также использовать ее. Получил очень положительные результаты. Модель немного умнее, чем devstral. Но с этой моделью надо быть аккуратным т.к. у нее есть системный промпт, если нужно кастомизировать системный промпт, то надо сначала скопировать оригинальный.
    
    Antra
    09.06.2025 15:26
    #28427514
    Интересно, спасибо, попробую. Увидел нового зверька, но решил сперва подождать отзывов от понимающих людей.
    
    Еще вопрос - когда вы с roocode (ну или еще чем) с этими моделями работает, вы их через что запускаете?
    
    У меня почему-то через Ollama (на другой машине) обычный кодинг работает, а, к примеру, memory bank не создает. Тужится, пыжится, и облом. То кнопку запроса не выдаст, то просто ошибка...
    
    При этом бесплатный Deepseek через OpenRouter моментально это делает.
    
    Может это особенности (скажем, ограничения на выполнение действий) не модели, а "оболочки", и, к примеру, с LM Studio, лучше получится?
    
    Antra
    09.06.2025 15:26
    #28427618
    Собственно, все докачалось, проверил devstral на LM Studio 0.3.16.
    
    Отлично создала memory bank, наполнила его информацией из подсунутых ей CONVENTIONS.md и т.п.
    
    Так что, видимо, причина моих страданий - Ollama. Хотя просто код через нее писало хорошо. Вплоть до извращений типа "выполни на Ansible сложную задачу с иерархией и рекурсией". И она для этого предложила custom filter (ну который на python пишется).

puchuu
09.06.2025 15:26
#28420314
Использовать сервер с DeepSeek-R1-0528 для обычных бытовых запросов наверное нет смысла из-за скорости ответа. Для этого стоит либо использовать модели попроще, например Llama 4 Maverick. Она хоть и туповата по сравнению с DeepSeek R1 на сложных запросах, зато даёт фантастическую скорость в 30 t/s для модели в 400 миллиардов параметров.

Читайте пожалуйста внимательно, что написано на странице модели: 16x17b, 128x17b. Лама 4 - это так называемая неплотная модель. Она представляет из себя 16 либо 128 экспертов по 17b каждый. Поэтому она тупее, чем плотный дипсик, но она может работать быстрее т.к. эксперт может разместиться и работать в рамках видеопамяти даже карты на 16 гб.

programania
09.06.2025 15:26
#28420344
А что может "DeepSeek-R1-0528-UD-Q4_K_XL занимает 384GB на диске"
чего не может, например, gemma-3-27b-it-Q4_K_M занимает 16GB на диске?
По промпту из статьи о Хабр выдала примерно тоже около 7кб и еще
добавила личное мнение о своём ответе и вопросы для обратной связи.
1. Banakhovich Автор
  09.06.2025 15:26
  #28420534
  Здравствуйте! Статья была не про сравнения разных моделей. а про запуск большой модели на достаточно скромном железе. Промпт был не для оценки качества работы модели а для оценки скорости. gemma маленькая модель её можно целиком поместить в видеокарточку и получать думаю порядка 40t/s. Если её хватает для задач то вполне можно и её использовать. А иногда кому-то хочется запустить большую модель и не потому что она лучше или хуже чем модель поменьше размером а просто потому что хочется поэксперементировать.

SabMakc
09.06.2025 15:26
#28420786
Хм... А двух процессорная сборка приведет к удвоению скорости?
В 2 раза больше каналов памяти будет... А по деньгам, насколько я понимаю, сравнимо.
1. Banakhovich Автор
  09.06.2025 15:26
  #28420804
  Нет, наоборот будет медленнее, llama.cpp пока не умеет корректно работать с двумя процессорами. Есть статьи где с более мощьными двумя процесслрвми получали куда более низкие скорости. Я думал над двумя процессорами но прочитав результаты таких сборок отказался от идеи.
1. SlavikF
  09.06.2025 15:26
  #28421564
  Инференция на двух процессорах может быть медленнее.
  
  Вот тут я пробовал запускать на двух Intel Xeon Gold 5218:
  
  https://github.com/Mozilla-Ocho/llamafile/issues/765
  
  Получилось около 4 токенов в секунду.
  
  На одном процессоре - около 8 токенов в секунду.
  
  Насколько я смог разобраться, это потому что один процессор работает с памятью на полной скорости (~120GB/s в моём случае), а если процессора два - то работа с памятью идёт через NUMA, а это - около 20GB/s для памяти на "чужом" процессоре.
  1. litalen
    09.06.2025 15:26
    #28422868
    Не знаю как у llamafile, но у llama.cpp есть ключик "numa". Не пробовали с --numa distribute? Более того там есть как раз --numa numactl.

evgeniy_kudinov
09.06.2025 15:26
#28420944
Спасибо, что поделились своей сборкой и экспериментами. Уже почти под бюджеты большинства людей подходит. Думаю, что скоро у каждого появится возможность установить под столом своего собственного «Домового», учитывая тенденции и стоимость железа.
1. Banakhovich Автор
  09.06.2025 15:26
  #28421028
  Год назад о моделях открытых с таким количеством параметров да ещë на железе которому уже 5 лет (почти) даже и подумать было нельзя.
  1. molnij
    09.06.2025 15:26
    #28423762
    llama 405B примерно год назад вышла :D
1. vikarti
  09.06.2025 15:26
  #28424230
  Ждем еще годик когда появится возможность не думать подходит ли под бюджет для экспериментов а брать оставить если оно может потребоваться хоть в теории? :)

xuz
09.06.2025 15:26
#28421138
Интересная статья, спасибо.

Вопрос: На AMD Ryzen AI Max+ 395 с 128Gb оперативки можно будет запустить DeepSeek-R1?
1. Banakhovich Автор
  09.06.2025 15:26
  #28421150
  Нет, слишком мало даже для самой крошечной квантизацией.
1. Brenwen
  09.06.2025 15:26
  #28423540
  Я DeepSeek рассуждающий (не помню какая конкретно модель, на 12-13 Гб) запускал на ROG Ally с 16 Гб памяти (причем 5 из них выделено под видео), работает достаточно шустро и рассуждает здраво. Я аж удивился. Если надо - могу глянуть какая конкретно модель.
  1. Banakhovich Автор
    09.06.2025 15:26
    #28423862
    Это дистилировпнные версии, это переобучение другие модели либо qwen либо llama
    
    Brenwen
    09.06.2025 15:26
    #28424750
    Посмотрел - действительно, Deepseek R1 0528 Qwen3 8B. Еще из отлично работает gemma3 12В от google. Я вообще удивлен, что можно в принципе запустить LLM на такой слабой платформе и она будет настолько шустро крутиться и генерировать не бред.
    
    Banakhovich Автор
    09.06.2025 15:26
    #28424770
    8 миллиардов параметров это не очень маленькая модель))) вполне подходит для быстрых и простых запросов. Конечно с огромными с размерос около 700 миллиардов не сравнить но тем не менее имеет своë применение.
    
    Brenwen
    09.06.2025 15:26
    #28424892
    Извиняюсь за нубский вопрос, можешь в общих чертах сравнить возможности таких легковесных моделей с полноценным DeepSeek? Только ли разница в объеме данных для обучения? У меня та же gemma работает шустро (5.3 токена в секунду)отвечает на вопросы правильно, может переводить с разных языков, единственное что - падает при попытке проанализировать картинку. Где предел ее возможностей?
    
    Banakhovich Автор
    09.06.2025 15:26
    #28424966
    Вся разница появляется при работе со сложными логическими задачами. Или с написанием кода. В принципе попробуй сам по тестировать возьми свой deepseek маленький и чат дипсика он бесплатен. По задавай одни и теже вопросы по нарастающей увеличивая сложность. Разницу сам увидеть сможешь. Только итак можно понять разницу, цифры в тестах они не дают понимания реальных возможностей. Тот де deepseek у меня в одном из тестов писал с одного запроса код на Python больше 1000 строк такой что он запустился сразу.

kibiman
09.06.2025 15:26
#28422284
У меня сборка из китайской мат платы x99-f8 + xeon 2699v3 + 512Гбайт оперативы
Результаты: DeepSeek R1
2.2 т/с в начале
2~1.8 т/с в середине
и до 1.1 т/с в конце на длинных ответах
Топ модели доступны)
По стоимости: матплата 10тр + проц 10тр + оператива 50тр + ssd по вкусу

Модель используется DeepSeek-R1-0528-UD-Q4_K_XL-00001-of-00008.gguf
1. SlavikF
  09.06.2025 15:26
  #28422686
  Если у вас всё сконфигурировано оптимально, то максимально возможная скорость памяти - 68GB/s. Практически - меньше.
  
  С этим особо не разгонишься.
  1. kibiman
    09.06.2025 15:26
    #28422732
    Это да)))
    
    Пытался поставить 2699v4, тогда память завелась бы на 2400, но не взлетело, похоже питание на материнке не вывозит, просто виснет или перезагружается
    
    Но факт то, что это минимальная конфигурация по цене которая позволяет запустить подобную топовую llm, пускай медленно)
    
    Banakhovich Автор
    09.06.2025 15:26
    #28422794
    Удивительно что 512 завелись, у материнки в спецификации 256 максимум, во всяком случае так на Али написано.
1. Banakhovich Автор
  09.06.2025 15:26
  #28422782
  Круто что работает, но это сверх медленно. Хотя наверное есть практическое применение, качественный промпт написал,на ночь поставил, спиш под шелест кулера как под шум дождя, к утру 32000 токенов готовы.

MaxFoton
09.06.2025 15:26
#28422288
Уважаемые знатоки! помогите пожалуйста, мне новичку определиться с несколькими моделями для создания персонального AI агента на своем сервере с возможностью дальнейшего обучения.
Рассматриваю такую связку: DSPy + Playwright + Subprocess + Autogen / CrewAI
характеристики моего сервера:
Ubuntu 22.04.4 LTS.
CPU:
Info: 2x 22-core model: Intel Xeon E5-2696 v4 bits: 64 type: MT MCP SMP
RAM: 512
Graphics:
NVIDIA GeForce RTX 4070 Ti/PCIe/SSE2 12 VRAM
RAID:
Device-1: md0 type: mdraid level: raid-0 status: active size: 3.64 TiB
p.s. возможности купить сейчас более мощную видяху - нет(

Локальный DeepSeek-R1: Когда скорость улитки – не приговор, а точка старта +70

Зачем?

Где?

Процессор

Материнская плата

Память

Твердотельный накопитель

Видеокарта

Блок питания

Корпус

Железяка

Настройка среды выполнения

Как и что?

Используемая модель

Тест производительности

CPU

CPU+GPU

Оно точно надо?

Комментарии (109)

Banakhovich Автор

Banakhovich Автор

Banakhovich Автор

Banakhovich Автор

Banakhovich Автор

Banakhovich Автор

Banakhovich Автор

Banakhovich Автор

Banakhovich Автор

Banakhovich Автор

Banakhovich Автор

Banakhovich Автор

Banakhovich Автор

Banakhovich Автор

Banakhovich Автор

Banakhovich Автор

Banakhovich Автор

Banakhovich Автор

Banakhovich Автор

Banakhovich Автор

Banakhovich Автор

Banakhovich Автор

Banakhovich Автор

Banakhovich Автор