
Представляю вашему вниманию курс, который я недавно опубликовал на Степике - Разработка LLM с нуля.
В курсе вам предстоит с нуля разработать современную LLM и все необходимые для ее работы компоненты:
Токенизатор (BPE)
Эмбеддинги (Токенов и Позиционные)
-
Блок Декодера:
Multi-Head Attention
FeedForward-слои
Остаточные связи
Вероятностная генерация
После того, как основной код будет готов, мы соберем необходимый для pre-train'а датасет и обучим свою LLM.
Разработка будет вестись на Python и низкоуровневых компонентах PyTorch.
Курс платный. Следующие две недели по промокоду FIRST предоставляется скидка 50%.

MaximusPrimie
Только один нюанс. Обучение LLM и даже дообучение готовой модели требует весьма немаленьких затрат, т.к. всё упирается в дорогие вычислительные мощности и не просто в CPU, а GPU. При чем даже самая мощная видеокарта годится для этого.
slivka_83 Автор
Все так :) Новый Qwen и DeepSeek мы конечно не изобретем, а вот примитивный GPT-1 попробуем собрать :)