Пчелин К.К. Машинное обучение с подкреплением 6. ActorCritic и Proximal Policy Optimization


ActorCritic и Proximal Policy Optimization Пчелин Константин Константинович 00:17 Вступление 02:21 REINFORCE: краткое повторение 08:00 Advantageфункция и TDошибка 16:21 ActorCritic 37:20 Trust Region: основы 51:55 Proximal Policy Optimization PPO 01:12:30 PPO для языковых моделей RLHF 01:18:03 Практические советы для PPO и RLHF Ссылка на плейлист TeachIn: Ссылка на плейлист YouTube: Ссылка на плейлист VK: Ссылка на плейлист RuTube:

Источник: rutube.ru

Похожее видео

Сообщение от Commenton: Необходимо стартовать сессию