Пчелин К.К. Машинное обучение с подкреплением 6. ActorCritic и Proximal Policy Optimization

Канал на RUTUBE: Teach-In | Тема: Разное | 20.04.2026 | Смотрят: 6

ActorCritic и Proximal Policy Optimization Пчелин Константин Константинович 00:17 Вступление 02:21 REINFORCE: краткое повторение 08:00 Advantageфункция и TDошибка 16:21 ActorCritic 37:20 Trust Region: основы 51:55 Proximal Policy Optimization PPO 01:12:30 PPO для языковых моделей RLHF 01:18:03 Практические советы для PPO и RLHF Ссылка на плейлист TeachIn: Ссылка на плейлист YouTube: Ссылка на плейлист VK: Ссылка на плейлист RuTube:

Источник: rutube.ru

Похожее видео

Сообщение от Commenton: Необходимо стартовать сессию

Пчелин К.К. Машинное обучение с подкреплением 6. ActorCritic и Proximal Policy Optimization

Похожее видео

ИСТИННЫЙ размер монстров ЛАВКРАФТА Сравнение размеров Ктулху

Death Stranding UI Sound Redesign

Скул бой рановай пытаюсь снова пройти

Генриетта2

Апрель дружище

Футажи! Комплект Футажей Индийские Узоры 5 от Киностудии Мудрого Кота Тимофея!