Ce module est la suite du module intitulé problèmes de décision de Markov (PDI). Dans le module PDI, on suppose que l'incertitude est connue. Dans le cadre de l'apprentissage par renforcement, on lève cette hypothèse. L'agent doit désormais découvrir par l'expérience (= apprendre) comment son environnement réagit à ses actions afin de déterminer une politique optimale.
Il existe de nombreux algorithmes pour résoudre ce type de problèmes.
On étudiera les principales idées et les principaux algorithmes qui permettent de résoudre les problèmes d'apprentissage par renforcement.
Les séances se déroulent les lundis matins de 8h à midi.
Le contrôle de connaissances est continu. Les contrôles sont annoncés.
Dates :
Notes de cours, poly et TP autorisés pendant les épreuves.
Faute de temps, nous n'avons pas traité des méthodes d'apprentissage direct de politique et les acteurs-critiques. Celles-ci sont décrites dans mon polycopié. Il faut comencer par l'apprentissage direct de politique et l'algorithme REINFORCE. Ensuite, on continue avec les acteurs-critiques, en particulier DDPG, TD3 mais surtout PPO et SAC qui sont actuellement, avec DQN, les meilleurs algorithmes d'apprentissage par renforcement. On pourra aussi consulter :