Méthode policy-gradient

En apprentissage par renforcement, une méthode policy-gradient est un algorithme qui apprend une politique directement en s'intéressant directement à la politique (voir chapitre 13 dans [1]).

Cette algorithme permet l'optimisation de la politique paramétrée par rapport au rendement attendu avec la méthode de descente des gradients. À la fin d'un certain nombre d'itérations, l'objectif est d'obtenir une maximisation de la performance de la politique pour un modèle étudié.

Les méthodes policy-gradients s'opposent donc aux méthodes value-based, qui elles, optimisent des valeurs puis définissent la politique solution selon ces valeurs.

Notes et références

  1. (en) Richard S. Sutton et Andrew G. Barto, Reinforcement Learning: An Introduction, A Bradford Book, coll. « Adaptive Computation and Machine Learning series », (ISBN 978-0-262-03924-6, lire en ligne)
  • Portail de l'informatique théorique
Cet article est issu de Wikipedia. Le texte est sous licence Creative Commons - Attribution - Partage dans les Mêmes. Des conditions supplémentaires peuvent s'appliquer aux fichiers multimédias.