RL RecSys в проде: хайп или игра вдолгую +8 14.02.2025 10:50 fotol 1 Машинное обучение Блог компании Т-Банк
Динамическая адаптация награды с помощью Pydantic +4 12.12.2024 04:26 techevangelist 1 Машинное обучение Блог компании OTUS
RLHF. История становления идеи — 4. HHH: helpful, honest, harmless, Instruct LLM, Constitutional AI 10.08.2024 06:00 MrsWallbreaker 0 Машинное обучение Искусственный интеллект Natural Language Processing
RLHF. История становления идеи — 3. Supervised finetune, Протокольный сбор обратной связи, Batch RL 03.08.2024 06:00 MrsWallbreaker 0 Машинное обучение Искусственный интеллект Natural Language Processing
RLHF. История становления идеи — 2 26.07.2024 06:00 MrsWallbreaker 0 Машинное обучение Искусственный интеллект Natural Language Processing
Обучение с подкреплением на основе обратной связи от человека (RLHF). История становления идеи 19.07.2024 20:11 MrsWallbreaker 0 Машинное обучение Искусственный интеллект Natural Language Processing
Создание масштабируемых RL систем с Ape-X 01.06.2024 08:56 badcasedaily1 1 Блог компании OTUS Python Программирование Машинное обучение
Как мы готовим RL для Alignment в больших языковых моделях: опыт команды YandexGPT +91 28.05.2024 09:00 cydoroga 2 Блог компании Яндекс Алгоритмы Машинное обучение Искусственный интеллект Natural Language Processing
Глаза боятся, а ИИ делает: как эмоции помогают ИИ лучше управлять автомобилем 25.12.2023 12:31 Lithium_vn 2 Блог компании BotHub Машинное обучение Искусственный интеллект
Нейросеть, генерирующая нейросети. Часть 2. RL агент создаёт свои первые нейросети 03.10.2023 06:49 SimsiGenerativeBot 0 Open source Машинное обучение Искусственный интеллект
Нейросеть, генерирующая нейросети. Часть 1. Генерация случайной свёрточной нейронной сети +2 27.09.2023 06:51 SimsiGenerativeBot 3 Open source Занимательные задачки Python Машинное обучение Искусственный интеллект
Синтез обучения с подкреплением и классического планирования: как выиграть соревнование CVPR Habitat Challenge 2023 +6 14.07.2023 14:11 alstar82 6 Блог компании AIRI Алгоритмы Обработка изображений Машинное обучение Робототехника
Обучение с подкреплением: практические рекомендации по обучению сетей Deep Q +13 27.06.2022 12:07 mr-pickles 1 Блог компании Wunder Fund Программирование Алгоритмы Машинное обучение
Обучение с подкреплением: сети Deep Q +16 21.06.2022 11:05 mr-pickles 0 Блог компании Wunder Fund Программирование Алгоритмы Машинное обучение
Обучение с подкреплением: математический аппарат +13 14.06.2022 12:24 mr-pickles 0 Блог компании Wunder Fund Программирование Алгоритмы Машинное обучение