ActorCritic и Proximal Policy Optimization Пчелин Константин Константинович 00:17 Вступление 02:21 REINFORCE: краткое повторение 08:00 Advantageфункция и TDошибка 16:21 ActorCritic 37:20 Trust Region: основы 51:55 Proximal Policy Optimization PPO 01:12:30 PPO для языковых моделей RLHF 01:18:03 Практические советы для PPO и RLHF Ссылка на плейлист TeachIn: Ссылка на плейлист YouTube: Ссылка на плейлист VK: Ссылка на плейлист RuTube:
Источник: rutube.ru