• Главная
  • Контакты
Подписаться:
  • Twitter
  • Facebook
  • RSS
  • VK
  • PushAll
logo

logo

  • Все
    • Положительные
    • Отрицательные
  • За сегодня
    • Положительные
    • Отрицательные
  • За вчера
    • Положительные
    • Отрицательные
  • За 3 дня
    • Положительные
    • Отрицательные
  • За неделю
    • Положительные
    • Отрицательные
  • За месяц
    • Положительные
    • Отрицательные
  • За год
    • Положительные
    • Отрицательные
  • Сортировка
    • По дате (возр)
    • По дате (убыв)
    • По рейтингу (возр)
    • По рейтингу (убыв)
    • По комментам (возр)
    • По комментам (убыв)
    • По просмотрам (возр)
    • По просмотрам (убыв)
Главная
  • Все
    • Положительные
    • Отрицательные
  • За сегодня
    • Положительные
    • Отрицательные
  • За вчера
    • Положительные
    • Отрицательные
  • За 3 дня
    • Положительные
    • Отрицательные
  • За неделю
    • Положительные
    • Отрицательные
  • За месяц
    • Положительные
    • Отрицательные

Публикации с тегом RL

Reflect, Retry, Reward: как RL учит LLM рефлексировать и становиться лучше +4

  • 11.08.2025 09:30
  • ai-talent
  • 1
  • Машинное обучение
  • Искусственный интеллект
  • Natural Language Processing

Разработка LLM моделей для обновления кода приложений на более высокие версии фреймворков или языков программирования +5

  • 20.06.2025 19:01
  • inigomontoya722
  • 2
  • JavaScript
  • Python
  • Машинное обучение
  • Искусственный интеллект

Обыгрываем казино, с блэкджеком и стратегиями +7

  • 12.06.2025 14:45
  • monkey_llm
  • 4
  • Python
  • Машинное обучение

Действительно ли у ИИ-агента есть внутренняя картина мира и представление о себе? +2

  • 12.05.2025 12:55
  • andre_dataist
  • 6
  • Машинное обучение
  • Искусственный интеллект

RL RecSys в проде: хайп или игра вдолгую +8

  • 14.02.2025 10:50
  • fotol
  • 1
  • Машинное обучение
  • Блог компании Т-Банк

Динамическая адаптация награды с помощью Pydantic +4

  • 12.12.2024 04:26
  • techevangelist
  • 1
  • Машинное обучение
  • Блог компании OTUS

RLHF. История становления идеи — 4. HHH: helpful, honest, harmless, Instruct LLM, Constitutional AI

  • 10.08.2024 06:00
  • MrsWallbreaker
  • 0
  • Машинное обучение
  • Искусственный интеллект
  • Natural Language Processing

RLHF. История становления идеи — 3. Supervised finetune, Протокольный сбор обратной связи, Batch RL

  • 03.08.2024 06:00
  • MrsWallbreaker
  • 0
  • Машинное обучение
  • Искусственный интеллект
  • Natural Language Processing

RLHF. История становления идеи — 2

  • 26.07.2024 06:00
  • MrsWallbreaker
  • 0
  • Машинное обучение
  • Искусственный интеллект
  • Natural Language Processing

Обучение с подкреплением на основе обратной связи от человека (RLHF). История становления идеи

  • 19.07.2024 20:11
  • MrsWallbreaker
  • 0
  • Машинное обучение
  • Искусственный интеллект
  • Natural Language Processing

Создание масштабируемых RL систем с Ape-X

  • 01.06.2024 08:56
  • badcasedaily1
  • 1
  • Блог компании OTUS
  • Python
  • Программирование
  • Машинное обучение

Как мы готовим RL для Alignment в больших языковых моделях: опыт команды YandexGPT +91

  • 28.05.2024 09:00
  • cydoroga
  • 2
  • Блог компании Яндекс
  • Алгоритмы
  • Машинное обучение
  • Искусственный интеллект
  • Natural Language Processing

Глаза боятся, а ИИ делает: как эмоции помогают ИИ лучше управлять автомобилем

  • 25.12.2023 12:31
  • Lithium_vn
  • 2
  • Блог компании BotHub
  • Машинное обучение
  • Искусственный интеллект

Нейросеть, генерирующая нейросети. Часть 2. RL агент создаёт свои первые нейросети

  • 03.10.2023 06:49
  • SimsiGenerativeBot
  • 0
  • Open source
  • Машинное обучение
  • Искусственный интеллект

Нейросеть, генерирующая нейросети. Часть 1. Генерация случайной свёрточной нейронной сети +2

  • 27.09.2023 06:51
  • SimsiGenerativeBot
  • 3
  • Open source
  • Занимательные задачки
  • Python
  • Машинное обучение
  • Искусственный интеллект
  • «
  • 1
  • 2
  • »
Страница 1 из 2
ЛУЧШЕЕ

  • Сегодня
  • Вчера
  • Позавчера
08:00

Индюк Мелового периода: что не так с образом велоцираптора +60

06:33

Ёмкость батареек через четыре года хранения +52

12:01

Строим межцодовую трассу с ТЗ и расчетами +28

07:02

Можно ли шаговый двигатель — заменить коллекторным? +25

08:05

Санпросвет о плавающей точке, статья первая: компьютеры и числа +24

07:01

Как дорожные знаки попадают на карты Яндекса: применяем ML в картографии +19

07:00

Клиенты натирали ляжки на жаре и просили крем — как мы его разрабатывали +19

14:03

Как я обнаружил в ноутбуке Dell Inspiron баг ACPI, одолевавший меня восемь лет +17

08:25

Чем хорош Postgres 18? +17

07:25

Использование файберов в PHP: разбор от команды СберЗдоровье +17

11:06

Показываю арсенал инквизиции из своего стоматологического кабинета +16

10:43

Как математика тасовки карт едва не разрушила империю онлайн-покера +16

09:01

Установка бриджевого хамбакера на дешёвый стратокастер +15

10:06

Как проектировать интерфейсы по азиатски: холистически и беспощадно +14

09:47

Слишком стар для этого…? Полувековая ОС, текстовый браузер и программа-корректор — ретрософт с многолетней поддержкой +14

08:57

История статической и динамической типизации +11

07:17

Vivaldi 7.6 — Раздвигая границы возможного +11

04:28

Памятка менеджеру: запрещённые фразы в IT. Часть 3, финальная +10

13:16

Процессорный модуль Corgi SoM v1 на базе Xilinx Zynq-7000 +9

13:01

«Хоть шерсти клок»: про электроспиннинг и не только +9

06:16

Почему я больше никогда не буду Team-Lead и тебе не советую +146

07:05

Китайский интернет куда-то исчезает +135

15:32

Я отклоняю комиты с использованием кучи и прошу коллег переписать такую логику +114

09:56

Структурки для ошкурки от ВТБ: как потерять 14 млн руб. на «сверхнадежных облигациях» всего за неделю +83

13:01

3D-моделирование из бумаги +63

09:01

Легендарные костыли в продакшене +38

08:01

Полный айсберг Android. Часть 1 +33

09:10

Главный эффект Манделы в мире программистов — сколько байт в мегабайте +32

19:50

Не просто RAG: Строим MCP-сервер на Node.js, чтобы дать LLM «архитектурное зрение» +31

13:30

Часть 1. Rsync: подробное руководство для админов +30

00:48

«Очумелые ручки» или собираем держатель для смартфона с клавиатурой и тачпадом из доступных средств +28

14:43

PHP: Общая память +20

07:00

Как мы делаем ВКС в Яндексе, часть 2: это волшебное слово — эксплуатация +19

12:18

История создания Tarantool DB: реальные проблемы, удачные решения и превращение проекта в продукт +18

12:18

История создания Tarantool DB: реальные проблемы, удачные решения и превращение проекта в продукт +18

12:14

Топ-12 бесплатных нейросетей для создания видео и оживления картинок +18

08:00

Искусственный интеллект в разработке: изучаем тренды и реальное применение +16

18:00

Прячемся в «пещере кода» +15

16:50

Покраска Cтека (Stack Painting) +15

13:34

Хороший, плохой, злой. О чём мы забываем, работая с клиентами? +15

05:41

Одноразовый вейп в качестве веб-сервера +189

03:25

Что если представить habr в виде obsidian-графа? +87

14:01

Коллекция полезных HTML и CSS фич, которые редко используются +56

13:45

Ростелеком обнаружил переплаты за свет на сотни миллионов рублей +52

09:05

7 SQL-запросов, которые решают 90% всех задач на работе +47

07:01

Что происходило с новым законом про ЦОДы — мы нашли, кто смог подробно всё это объяснить +40

08:00

GPU, диски, серверы — что ещё анонсировали вендоры в августе. Железный дайджест Selectel +39

00:08

Не XP единой — почему Windows 2000 была настоящим шедевром Microsoft +37

11:28

Как мы видеокарту AMD на ПЛИС с RISC-V и Linux запускали +36

09:02

Как взломать и разрушить АЭС за 49 минут: разбор кибератаки на ядерный реактор +36

10:30

Оценка сроков выполнения задач: покоряем закон Хофштадтера +33

19:50

Что выяснили про ChatGPT: первые реальные данные несколько удивляют +32

06:59

Как я научил Jetpack Compose показывать рекомпозиции в реальном времени +30

12:24

Я хотел пошпионить за своим псом, а в результате проследил за TP-Link +29

12:00

Полный гайд по экономии в облаке Selectel: 3 инструмента, 5 практических сценариев, шпаргалка +29

09:06

Гений Пифагора: почему в рекурсивно-вычисляемом клеточном автомате Вселенной наше сознание бессмертно? +26

14:17

У нас было 10k метрик, 500 А/В-экспериментов и 500kk p-value каждый день… +21

12:00

2 причины смертельной болезни проекта: устаревшие технологии и монополия на знания. Рассказываем, как это лечить +21

13:24

Распродажа в издательстве «Питер» +20

09:32

Как избавиться от проприетарных ETL: кейс миграции на dbt +20

СЕРВИСЫ
  • logo

    CloudLogs.ru - Облачное логирование

    • Храните логи вашего сервиса или приложения в облаке. Удобно просматривайте и анализируйте их.

Подписка


  • Главная
  • Контакты
© 2025. Все публикации принадлежат авторам.