Apprentissage par renforcement
M2 Informatique
Université de Lille
2024-2025

Objectifs de ce module

Ce module est la suite du module intitulé problèmes de décision de Markov (PDI). Dans le module PDI, on suppose que l'incertitude est connue. Dans le cadre de l'apprentissage par renforcement, on lève cette hypothèse. L'agent doit désormais découvrir par l'expérience (= apprendre) comment son environnement réagit à ses actions afin de déterminer une politique optimale.
Il existe de nombreux algorithmes pour résoudre ce type de problèmes. On étudiera les principales idées et les principaux algorithmes qui permettent de résoudre les problèmes d'apprentissage par renforcement.

Calendrier

Les séances se déroulent les lundis matins de 8h à midi.

Mise en pratique

Contrôle de connaissances

Le contrôle de connaissances est continu. Les contrôles sont annoncés.
Dates :

Notes de cours, poly et TP autorisés pendant les épreuves.

Pré-requis

Biblio

Faute de temps, nous n'avons pas traité des méthodes d'apprentissage direct de politique et les acteurs-critiques. Celles-ci sont décrites dans mon polycopié. Il faut comencer par l'apprentissage direct de politique et l'algorithme REINFORCE. Ensuite, on continue avec les acteurs-critiques, en particulier DDPG, TD3 mais surtout PPO et SAC qui sont actuellement, avec DQN, les meilleurs algorithmes d'apprentissage par renforcement. On pourra aussi consulter :