Публикации с тегом RLHF / forpes.ru

Публикации с тегом RLHF

RLHF. История становления идеи — 4. HHH: helpful, honest, harmless, Instruct LLM, Constitutional AI

RLHF. История становления идеи — 3. Supervised finetune, Протокольный сбор обратной связи, Batch RL

RLHF. История становления идеи — 2

Обучение с подкреплением на основе обратной связи от человека (RLHF). История становления идеи

Новый «ИИгрок»: что мы знаем о Grok?

Reinforcement Learning from Human Feedback: когда одной математики мало +6

Тварь дрожащая или право имею: как мы лепили виртуального юриста из русскоязычных нейросетей +24

Алгоритм, сделавший ChatGPT таким «человечным» — Reinforcement Learning from Human Feedback +13

ChatGPT — лучший помощник программиста. Примеры реальных задач. Плагины и инструменты +47

«
1
2
»

Страница 2 из 2