• Главная
  • Контакты
Подписаться:
  • Twitter
  • Facebook
  • RSS
  • VK
  • PushAll

logo

  • Все
    • Положительные
    • Отрицательные
  • За сегодня
    • Положительные
    • Отрицательные
  • За вчера
    • Положительные
    • Отрицательные
  • За 3 дня
    • Положительные
    • Отрицательные
  • За неделю
    • Положительные
    • Отрицательные
  • За месяц
    • Положительные
    • Отрицательные
  • За год
    • Положительные
    • Отрицательные
  • Сортировка
    • По дате (возр)
    • По дате (убыв)
    • По рейтингу (возр)
    • По рейтингу (убыв)
    • По комментам (возр)
    • По комментам (убыв)
    • По просмотрам (возр)
    • По просмотрам (убыв)
Главная
  • Все
    • Положительные
    • Отрицательные
  • За сегодня
    • Положительные
    • Отрицательные
  • За вчера
    • Положительные
    • Отрицательные
  • За 3 дня
    • Положительные
    • Отрицательные
  • За неделю
    • Положительные
    • Отрицательные
  • За месяц
    • Положительные
    • Отрицательные

Публикации с тегом RL

RL RecSys в проде: хайп или игра вдолгую +8

  • 14.02.2025 10:50
  • fotol
  • 1
  • Машинное обучение
  • Блог компании Т-Банк

Динамическая адаптация награды с помощью Pydantic +4

  • 12.12.2024 04:26
  • techevangelist
  • 1
  • Машинное обучение
  • Блог компании OTUS

RLHF. История становления идеи — 4. HHH: helpful, honest, harmless, Instruct LLM, Constitutional AI

  • 10.08.2024 06:00
  • MrsWallbreaker
  • 0
  • Машинное обучение
  • Искусственный интеллект
  • Natural Language Processing

RLHF. История становления идеи — 3. Supervised finetune, Протокольный сбор обратной связи, Batch RL

  • 03.08.2024 06:00
  • MrsWallbreaker
  • 0
  • Машинное обучение
  • Искусственный интеллект
  • Natural Language Processing

RLHF. История становления идеи — 2

  • 26.07.2024 06:00
  • MrsWallbreaker
  • 0
  • Машинное обучение
  • Искусственный интеллект
  • Natural Language Processing

Обучение с подкреплением на основе обратной связи от человека (RLHF). История становления идеи

  • 19.07.2024 20:11
  • MrsWallbreaker
  • 0
  • Машинное обучение
  • Искусственный интеллект
  • Natural Language Processing

Создание масштабируемых RL систем с Ape-X

  • 01.06.2024 08:56
  • badcasedaily1
  • 1
  • Блог компании OTUS
  • Python
  • Программирование
  • Машинное обучение

Как мы готовим RL для Alignment в больших языковых моделях: опыт команды YandexGPT +91

  • 28.05.2024 09:00
  • cydoroga
  • 2
  • Блог компании Яндекс
  • Алгоритмы
  • Машинное обучение
  • Искусственный интеллект
  • Natural Language Processing

Глаза боятся, а ИИ делает: как эмоции помогают ИИ лучше управлять автомобилем

  • 25.12.2023 12:31
  • Lithium_vn
  • 2
  • Блог компании BotHub
  • Машинное обучение
  • Искусственный интеллект

Нейросеть, генерирующая нейросети. Часть 2. RL агент создаёт свои первые нейросети

  • 03.10.2023 06:49
  • SimsiGenerativeBot
  • 0
  • Open source
  • Машинное обучение
  • Искусственный интеллект

Нейросеть, генерирующая нейросети. Часть 1. Генерация случайной свёрточной нейронной сети +2

  • 27.09.2023 06:51
  • SimsiGenerativeBot
  • 3
  • Open source
  • Занимательные задачки
  • Python
  • Машинное обучение
  • Искусственный интеллект

Синтез обучения с подкреплением и классического планирования: как выиграть соревнование CVPR Habitat Challenge 2023 +6

  • 14.07.2023 14:11
  • alstar82
  • 6
  • Блог компании AIRI
  • Алгоритмы
  • Обработка изображений
  • Машинное обучение
  • Робототехника

Обучение с подкреплением: практические рекомендации по обучению сетей Deep Q +13

  • 27.06.2022 12:07
  • mr-pickles
  • 1
  • Блог компании Wunder Fund
  • Программирование
  • Алгоритмы
  • Машинное обучение

Обучение с подкреплением: сети Deep Q +16

  • 21.06.2022 11:05
  • mr-pickles
  • 0
  • Блог компании Wunder Fund
  • Программирование
  • Алгоритмы
  • Машинное обучение

Обучение с подкреплением: математический аппарат +13

  • 14.06.2022 12:24
  • mr-pickles
  • 0
  • Блог компании Wunder Fund
  • Программирование
  • Алгоритмы
  • Машинное обучение
  • «
  • 1
  • 2
  • »
Страница 1 из 2
ЛУЧШЕЕ

  • Сегодня
  • Вчера
  • Позавчера
03:45

JSON в Unity за 10 минут +2

14:05

Пишем один «exe», который работает на 3-х разных ОС без перекомпиляции +76

19:18

Конституция против цензуры: история одного иска в суд +54

09:01

Спидометр для электромопеда на микроконтроллере PIC16F628A +48

11:02

Низкоуровневое программирование под 8086 для любопытных, часть 2 +45

13:01

Про человека и свободу — реально главный вопрос жизни, вселенной и всего такого +31

14:12

Оцифровка показаний стрелочного манометра в Home Assistant +27

08:00

Архитекторы чипов: как Китай строит инфраструктуру по производству современных процессоров +26

09:49

Не смотрите наверх +21

06:47

Размышления об интервью +20

11:52

Python, Java, C++ и Go — как появились популярные языки программирования +19

16:46

Творческая утилизация клавиатур +18

08:24

Huawei и HarmonyOS PC: китайский десктоп с собственной ОС появится уже в этом месяце. Что это будет? +17

08:02

Задачи на собеседованиях. Денежные переводы в SQL. Обновление счетов и уровни изоляций +12

09:00

Фронтенд — новый легаси: Как мы проспали event-driven революцию +11

17:24

Инженерия — не наука +9

19:18

Проводим слепой тест переводов прямо на Хабре +8

13:01

Промпт-инжиниринг на основе здравого смысла: как понимать LLM и получать от них предсказуемый результат +8

15:14

Почему нужно знать историю фронтенда, даже если просто пишешь на React +7

11:19

Аркадий Стругацкий против Deepseek и ChatGPT: как ИИ повлияет на художественный перевод +7

07:51

Путь самурая к заветной 1К на LeetCode [личный опыт] +7

СЕРВИСЫ
  • logo

    CloudLogs.ru - Облачное логирование

    • Храните логи вашего сервиса или приложения в облаке. Удобно просматривайте и анализируйте их.
ОБСУЖДАЕМОЕ

  • Аркадий Стругацкий против Deepseek и ChatGPT: как ИИ повлияет на художественный перевод +7

    • 61

    Задачи на собеседованиях. Денежные переводы в SQL. Обновление счетов и уровни изоляций +12

    • 59

    Конституция против цензуры: история одного иска в суд +54

    • 49

    Не смотрите наверх +21

    • 45

    Фронтенд — новый легаси: Как мы проспали event-driven революцию +11

    • 43

    Инженерия — не наука +9

    • 26

    Проводим слепой тест переводов прямо на Хабре +8

    • 23

Подписка


  • Главная
  • Контакты
© 2025. Все публикации принадлежат авторам.