Les méthodes de valeur d’action (action-value methods) sont utilisées pour estimer la valeur attendue des différentes actions. L’estimation de la valeur d’une action a est notée Q(a) et est mise à jour au fur et à mesure que l’agent accumule des expériences.

Dans des problèmes non stationnaires, les distributions de récompenses peuvent changer au fil du temps. Une méthode pour suivre ces changements est d’utiliser une moyenne mobile exponentielle pour mettre à jour Q(a).

où α est un facteur de taux d’apprentissage constant (0 < α ≤ 1).
La sélection d’actions par borne supérieure de confiance (Upper-Confidence-Bound, UCB) est une méthode qui équilibre l’exploration et l’exploitation en prenant en compte l’incertitude de l’estimation des valeurs d’action.

où At est l’action choisie à l’instant t, Q(a) est la valeur estimée de l’action a, N(a) est le nombre de fois que l’action a a été choisie, et ccc est un paramètre qui contrôle le degré d’exploration.
Le Chapitre 2 introduit les concepts de base des problèmes de bandits manchots à plusieurs bras, les méthodes d’estimation des valeurs d’action, le suivi des problèmes non stationnaires et les techniques pour équilibrer exploration et exploitation comme UCB.
Ces concepts sont essentiels pour comprendre les mécanismes de prise de décision dans des environnements incertains et constituent une base importante pour les algorithmes d’apprentissage par renforcement plus complexes.
Lisez de la page 47 a la page 64
Faites l‘Exercice Pratique 02