Динамическая адаптация награды с помощью Pydantic +4 12.12.2024 04:26 techevangelist 1 Машинное обучение Блог компании OTUS
RLHF. История становления идеи — 4. HHH: helpful, honest, harmless, Instruct LLM, Constitutional AI 10.08.2024 06:00 MrsWallbreaker 0 Машинное обучение Искусственный интеллект Natural Language Processing
RLHF. История становления идеи — 3. Supervised finetune, Протокольный сбор обратной связи, Batch RL 03.08.2024 06:00 MrsWallbreaker 0 Машинное обучение Искусственный интеллект Natural Language Processing
RLHF. История становления идеи — 2 26.07.2024 06:00 MrsWallbreaker 0 Машинное обучение Искусственный интеллект Natural Language Processing
Обучение с подкреплением на основе обратной связи от человека (RLHF). История становления идеи 19.07.2024 20:11 MrsWallbreaker 0 Машинное обучение Искусственный интеллект Natural Language Processing
Создание масштабируемых RL систем с Ape-X 01.06.2024 08:56 badcasedaily1 1 Программирование Python Машинное обучение Блог компании OTUS
Как мы готовим RL для Alignment в больших языковых моделях: опыт команды YandexGPT +91 28.05.2024 09:00 cydoroga 2 Алгоритмы Блог компании Яндекс Машинное обучение Искусственный интеллект Natural Language Processing
Глаза боятся, а ИИ делает: как эмоции помогают ИИ лучше управлять автомобилем 25.12.2023 12:31 Lithium_vn 2 Машинное обучение Искусственный интеллект Блог компании BotHub
Нейросеть, генерирующая нейросети. Часть 2. RL агент создаёт свои первые нейросети 03.10.2023 06:49 SimsiGenerativeBot 0 Open source Машинное обучение Искусственный интеллект
Нейросеть, генерирующая нейросети. Часть 1. Генерация случайной свёрточной нейронной сети +2 27.09.2023 06:51 SimsiGenerativeBot 3 Python Open source Машинное обучение Занимательные задачки Искусственный интеллект
Синтез обучения с подкреплением и классического планирования: как выиграть соревнование CVPR Habitat Challenge 2023 +6 14.07.2023 14:11 alstar82 6 Обработка изображений Алгоритмы Машинное обучение Робототехника Блог компании AIRI
Обучение с подкреплением: практические рекомендации по обучению сетей Deep Q +13 27.06.2022 12:07 mr-pickles 1 Программирование Алгоритмы Машинное обучение Блог компании Wunder Fund
Обучение с подкреплением: сети Deep Q +16 21.06.2022 11:05 mr-pickles 0 Программирование Алгоритмы Машинное обучение Блог компании Wunder Fund
Обучение с подкреплением: математический аппарат +13 14.06.2022 12:24 mr-pickles 0 Программирование Алгоритмы Машинное обучение Блог компании Wunder Fund
Обучение с подкреплением: неформальное знакомство +14 30.05.2022 13:05 mr-pickles 0 Программирование Алгоритмы Машинное обучение Искусственный интеллект Блог компании Wunder Fund