• Главная
  • Контакты
Подписаться:
  • Twitter
  • Facebook
  • RSS
  • VK
  • PushAll
logo

logo

  • Все
    • Положительные
    • Отрицательные
  • За сегодня
    • Положительные
    • Отрицательные
  • За вчера
    • Положительные
    • Отрицательные
  • За 3 дня
    • Положительные
    • Отрицательные
  • За неделю
    • Положительные
    • Отрицательные
  • За месяц
    • Положительные
    • Отрицательные
  • За год
    • Положительные
    • Отрицательные
  • Сортировка
    • По дате (возр)
    • По дате (убыв)
    • По рейтингу (возр)
    • По рейтингу (убыв)
    • По комментам (возр)
    • По комментам (убыв)
    • По просмотрам (возр)
    • По просмотрам (убыв)
Главная
  • Все
    • Положительные
    • Отрицательные
  • За сегодня
    • Положительные
    • Отрицательные
  • За вчера
    • Положительные
    • Отрицательные
  • За 3 дня
    • Положительные
    • Отрицательные
  • За неделю
    • Положительные
    • Отрицательные
  • За месяц
    • Положительные
    • Отрицательные

Публикации с тегом RL

Как мы обеспечили +33% к точности на сложных SQL-запросах +15

  • 08.10.2025 11:19
  • Safreliy
  • 7
  • Блог компании Postgres Professional
  • Искусственный интеллект
  • Машинное обучение
  • SQL
  • PostgreSQL

Reflect, Retry, Reward: как RL учит LLM рефлексировать и становиться лучше +4

  • 11.08.2025 09:30
  • ai-talent
  • 1
  • Машинное обучение
  • Искусственный интеллект
  • Natural Language Processing

Разработка LLM моделей для обновления кода приложений на более высокие версии фреймворков или языков программирования +5

  • 20.06.2025 19:01
  • inigomontoya722
  • 2
  • JavaScript
  • Python
  • Машинное обучение
  • Искусственный интеллект

Обыгрываем казино, с блэкджеком и стратегиями +7

  • 12.06.2025 14:45
  • monkey_llm
  • 4
  • Python
  • Машинное обучение

Действительно ли у ИИ-агента есть внутренняя картина мира и представление о себе? +2

  • 12.05.2025 12:55
  • andre_dataist
  • 6
  • Машинное обучение
  • Искусственный интеллект

RL RecSys в проде: хайп или игра вдолгую +8

  • 14.02.2025 10:50
  • fotol
  • 1
  • Машинное обучение
  • Блог компании Т-Банк

Динамическая адаптация награды с помощью Pydantic +4

  • 12.12.2024 04:26
  • techevangelist
  • 1
  • Машинное обучение
  • Блог компании OTUS

RLHF. История становления идеи — 4. HHH: helpful, honest, harmless, Instruct LLM, Constitutional AI

  • 10.08.2024 06:00
  • MrsWallbreaker
  • 0
  • Машинное обучение
  • Искусственный интеллект
  • Natural Language Processing

RLHF. История становления идеи — 3. Supervised finetune, Протокольный сбор обратной связи, Batch RL

  • 03.08.2024 06:00
  • MrsWallbreaker
  • 0
  • Машинное обучение
  • Искусственный интеллект
  • Natural Language Processing

RLHF. История становления идеи — 2

  • 26.07.2024 06:00
  • MrsWallbreaker
  • 0
  • Машинное обучение
  • Искусственный интеллект
  • Natural Language Processing

Обучение с подкреплением на основе обратной связи от человека (RLHF). История становления идеи

  • 19.07.2024 20:11
  • MrsWallbreaker
  • 0
  • Машинное обучение
  • Искусственный интеллект
  • Natural Language Processing

Создание масштабируемых RL систем с Ape-X

  • 01.06.2024 08:56
  • badcasedaily1
  • 1
  • Блог компании OTUS
  • Python
  • Программирование
  • Машинное обучение

Как мы готовим RL для Alignment в больших языковых моделях: опыт команды YandexGPT +91

  • 28.05.2024 09:00
  • cydoroga
  • 2
  • Блог компании Яндекс
  • Алгоритмы
  • Машинное обучение
  • Искусственный интеллект
  • Natural Language Processing

Глаза боятся, а ИИ делает: как эмоции помогают ИИ лучше управлять автомобилем

  • 25.12.2023 12:31
  • Lithium_vn
  • 2
  • Блог компании BotHub
  • Машинное обучение
  • Искусственный интеллект

Нейросеть, генерирующая нейросети. Часть 2. RL агент создаёт свои первые нейросети

  • 03.10.2023 06:49
  • SimsiGenerativeBot
  • 0
  • Open source
  • Машинное обучение
  • Искусственный интеллект
  • «
  • 1
  • 2
  • »
Страница 1 из 2
ЛУЧШЕЕ

  • Вчера
  • Позавчера
09:49

Российская инфраструктура стала тихой гаванью для киберпреступников. Причем тут Руцентр, Рег.Ру и DDoS-Guard? +98

13:01

Морковка «пассивного дохода» отравила целое поколение предпринимателей +43

09:01

Взрыв чёрной дыры ожидается в ближайшие 10 лет +35

07:05

Каким был мобильный телефон до появления сотовой связи. Часть 1 +27

06:15

SSH по требованию: что умеет socket activation и почему я перестал держать туннели открытыми +25

08:50

Тайна Motorola StarTAC: полный анализ схемотехники телефона из 90-х +24

08:00

Строим самолеты в Minecraft: результаты конкурса на сервере Selectel +22

05:01

Облава на инсайдеров с Polymarket, а также уход Тима Кука на почетную пенсию +21

09:00

Pragmata взломали за два дня до релиза. Шесть слоёв защиты Denuvo и как их обходят через гипервизор +20

12:00

Android, iOS и немного Python: подходит ли Kivy для реальных кроссплатформенных задач? +15

11:10

Интерславик. Он же  Interslavic  или Medžuslovjansky. Искусственный «Усредненный» между славянский язык общения +14

07:01

Redis для QA +14

16:20

Claude Code это инициативный junior с памятью золотой рыбки. 5 правил контроля для production +13

15:18

Что происходит с QA в 2026 году: результаты опроса 800+ специалистов +12

13:56

Я думал, что государство это идеальный клиент, и теперь отдаю долг 50 млн +11

13:25

Миллион в месяц за блокировки интернета, или чем отличается капитализм от социализма +11

10:38

Рерайт текстов в 2026: большой разбор сервисов для редакций от SEO-помоек начала 10-х до мультиагентных систем +11

07:42

Человек-команда в роли Эйса Вентуры: как с помощью no-code и ИИ собрать простую заявочную систему +11

07:29

Безопасность умных устройств изнутри: от Secure Boot и TrustZone до отчётов внешних исследователей +11

13:16

Модели мира после LLM: что именно строит AMI Labs и почему практический выход может лежать через VLA +10

10:46

Фирма из 14 человек vs завод с 93-летней историей: Наглядный пример того, как убивают заводы +232

09:55

far2l 2.8.0 в Ubuntu 26.04: новые классные фичи +69

09:01

Как поставить точку на беспорядке +69

13:01

Как фотографируют в космосе +68

08:45

Маленькие секреты детского фонографа +65

00:00

Gemini перестал работать с VPN. Что делать? +25

08:00

Кислород из лунного грунта и новая космическая гонка: кто собрался строить инфраструктуру на Луне +24

11:30

Эстонская сланцевая энергетика: от революции к контрреволюции +23

08:00

Linux 7.1: отказ от прошлого и подготовка к новому железу +22

19:15

Модель термогенеза пчелы +16

10:50

Потоковая запись ADC семплов на STM32 +16

14:17

Почему Йеллоустоун может работать совсем не так, как считалось ранее +14

17:10

Как мы продавали компьютеры в 90-х. Новые хлопоты +13

13:10

Знакомство с одним прогоном Mythos применительно к Firefox: а разговоров-то было? +12

09:53

Применение платы Arduino Due для измерения параметров вибрации при балансировке роторов +12

08:37

Вышел DeepSeek V4. Почему это очень плохо для США? +12

04:34

Наглядный пример, зачем нужны агенты +12

18:31

Zigbee датчик контроля дверного замка v2 +10

16:08

Ищи меня в клубе: как за 200+ лет книжные клубы превратились из хобби для богачей в рабочий способ «прокачаться» в ИТ +10

06:15

История изобретения гусеницы (гусеничного хода) +10

СЕРВИСЫ
  • logo

    CloudLogs.ru - Облачное логирование

    • Храните логи вашего сервиса или приложения в облаке. Удобно просматривайте и анализируйте их.
ОБСУЖДАЕМОЕ

  • Фирма из 14 человек vs завод с 93-летней историей: Наглядный пример того, как убивают заводы +232

    • 725

    Gemini перестал работать с VPN. Что делать? +25

    • 98

    С чего начинается Родина для ИИ? Мы строим российскую когнитивную архитектуру -2

    • 84

    Кислород из лунного грунта и новая космическая гонка: кто собрался строить инфраструктуру на Луне +24

    • 77

    hh выкатил фичу, которая убьет ваши отклики и найм окончательно +8

    • 73

    «Очевидный вопрос»: годовой эксперимент по изучению семантического табу +9

    • 49

    Наглядная эволюция человека, на коротком отрезке времени +6

    • 47

    far2l 2.8.0 в Ubuntu 26.04: новые классные фичи +69

    • 46

    Российская инфраструктура стала тихой гаванью для киберпреступников. Причем тут Руцентр, Рег.Ру и DDoS-Guard? +98

    • 43

    Как возникает реальность? Новая математическая модель. Сравнение с другими теориями -5

    • 43

    Я работал по 12 часов в день и через месяц понял, что проблема была не в часах +2

    • 39

    Pragmata взломали за два дня до релиза. Шесть слоёв защиты Denuvo и как их обходят через гипервизор +20

    • 36

    Потоковая запись ADC семплов на STM32 +16

    • 36

    Cursor — всё? Почему отдельный ИИ-редактор перестаёт быть нужен +7

    • 34

    Как Cursor с Claude Opus снёс продакшен базу данных за 9 секунд +9

    • 32

Подписка


  • Главная
  • Контакты
© 2026. Все публикации принадлежат авторам.