Le Chapitre 2 du module “Reinforcement, traite des problèmes de bandits manchots à plusieurs bras et introduit des concepts fondamentaux pour résoudre ces problèmes.
Le problème du bandit manchot à plusieurs bras (ou multi-armed bandit) est une situation où un agent doit choisir parmi k options (ou bras), chacune ayant une distribution de récompense inconnue. Le but est de maximiser la récompense totale sur une série d’essais.