CHAPITRE 01 - INTRODUCTION
CHAPITRE 02 - LE PROBLEM DU BANDIT MANCHOT A PLUSIEURS BRAS
CHAPITRE 03 - LES PROCESSUS DE DECISION MARKOVIENS (PDM)
CHAPITRE 04 - LA PROGRAMMATION DYNAMIQUE
CHAPITRE 05 - Méthodes de Monte Carlo
CHAPITRE 06 - APPENTISSAGE PAR DIFFERENCE TEMPORELLE
CHAPITRE 07 - APPRENTISSAGE BASEES SUR LE BOOTSTRAPPING N-STEP
CHAPITRE 08 - Planification et Apprentissage avec des Méthodes Tabulaires
PARTIE 02 - METHODES DE SOLUTION APPROXIMATIVE
CHAPITRE 09 - PREDICTION EN POLITIQUE AVEC APPROXIMATION
CHAPITRE 10 - CONTROLE EN POLITIQUE AVEC APPROXIMATION
CHAPITRE 11 - METHODES HORS-POLITIQUE AVEC APPROXIMATION
CHAPITRE 12 - TRACES D'ELIGIBILITE
CHAPITRE 13 - METHODES DE GRADIENT DE POLITIQUE
PARTIE 03 - EXPLORATION APPROFONDIE
CHAPITRE 14 - LES CONCEPTS PSYCHOLOGIQUES
CHAPITRE 15 - LA NEUROSCIENCE
CHAPITRE 16 - DIVERSES APPLICATIONS PRATIQUES
CHAPITRE 17 - LES FRONTIERES

Etude 01

Action-value Methods

Les méthodes de valeur d’action (action-value methods) sont utilisées pour estimer la valeur attendue des différentes actions. L’estimation de la valeur d’une action a est notée Q(a) et est mise à jour au fur et à mesure que l’agent accumule des expériences.

Exemple de méthode :
  • Moyenne échantillonnée : Q(a) est mis à jour en prenant la moyenne des récompenses reçues pour cette action.
  • où nnn est le nombre de fois où l’action aaa a été choisie, et RRR est la récompense reçue.
Tracking a Nonstationary Problem

Dans des problèmes non stationnaires, les distributions de récompenses peuvent changer au fil du temps. Une méthode pour suivre ces changements est d’utiliser une moyenne mobile exponentielle pour mettre à jour Q(a).

Exemple :

où α est un facteur de taux d’apprentissage constant (0 < α ≤ 1).

Upper-Confidence-Bound Action Selection

La sélection d’actions par borne supérieure de confiance (Upper-Confidence-Bound, UCB) est une méthode qui équilibre l’exploration et l’exploitation en prenant en compte l’incertitude de l’estimation des valeurs d’action.

Formule :

où At​ est l’action choisie à l’instant t, Q(a) est la valeur estimée de l’action a, N(a) est le nombre de fois que l’action a a été choisie, et ccc est un paramètre qui contrôle le degré d’exploration.

Résumé

Le Chapitre 2 introduit les concepts de base des problèmes de bandits manchots à plusieurs bras, les méthodes d’estimation des valeurs d’action, le suivi des problèmes non stationnaires et les techniques pour équilibrer exploration et exploitation comme UCB.

Ces concepts sont essentiels pour comprendre les mécanismes de prise de décision dans des environnements incertains et constituent une base importante pour les algorithmes d’apprentissage par renforcement plus complexes.

Lisez de la page 47 a la page 64

Faites l‘Exercice Pratique 02

Scroll to Top