Multigrid methods for zero-sum two player stochastic games

Sylvie Detournay

Résumé

In this thesis, we present some algorithms and numerical results for the solution of large scale zero-sum two player repeated stochastic games. In particular, we consider the class of games with perfect information and infinite horizon. In this class, we consider the games with discounted payoff and the games with mean payoff. Our algorithms are mainly based on policy iteration type algorithms and multigrid methods, and are implemented in C. These algorithms are applied either to the dynamic programming equation of a true finite state space zero-sum two player game or to the discretization of an Isaacs PDE of a zero-sum stochastic differential game. In a first part, we propose an algorithm which combines policy iterations for discounted games and algebraic multigrid methods to solve the linear systems involved in the policy iterations. We present numerical tests on discretizations of Isaacs equations or variational inequalities. We also present a full multilevel policy iteration, similar to FMG, which allows one to improve substantially the computation time for solving some variational inequalities. For the games with mean payoff, we develop a policy iteration algorithm to solve zero-sum stochastic games with finite state and action spaces, perfect information and in the general multichain case (i.e. without irreducibility assumption on the Markov chains determined by the strategies of the players), following an idea of Cochet-Terrasson and Gaubert (2006). This algorithm relies on a notion of nonlinear spectral projection of dynamic programming operators of a one player games (which are monotone and convex). We show that the sequence of values and relative values satisfies a lexicographical monotonicity property, which implies that the algorithm does terminate. We present numerical results on a variant of Richman games and on pursuit-evasion games. We propose new algebraic multigrid algorithms to solve particular singular linear systems that arise for instance in the above policy iteration algorithm for zero-sum two player stochastic games with mean payoff. Furthermore, we introduce a new method to find the stationary probability of an irreducible Markov chain using a stochastic control approach and present an algorithm which combines the Howard policy iterations and algebraic multigrid iterations for singular systems.

Dans cette thèse, nous proposons des algorithmes et présentons des résultats numériques pour la résolution de jeux répétés stochastiques, à deux joueurs et somme nulle dont l'espace d'état est de grande taille. En particulier, nous considérons la classe de jeux en information complète et en horizon infini. Dans cette classe, nous distinguons d'une part le cas des jeux avec gain actualisé et d'autre part le cas des jeux avec gain moyen. Nos algorithmes, implémentés en C, sont principalement basés sur des algorithmes de type itérations sur les politiques et des méthodes multigrilles. Ces algorithmes sont appliqués soit à des équations de la programmation dynamique provenant de problèmes de jeux à deux joueurs à espace d'états fini, soit à des discrétisations d'équations de type Isaacs associées à des jeux stochastiques différentiels. Dans la première partie de cette thèse, nous proposons un algorithme qui combine l'algorithme des itérations sur les politiques pour les jeux avec gain actualisé à des méthodes de multigrilles algébriques utilisées pour la résolution des systèmes linéaires. Nous présentons des résultats numériques pour des équations d'Isaacs et des inéquations variationnelles. Nous présentons également un algorithme d'itérations sur les politiques avec raffinement de grilles dans le style de la méthode FMG. Des exemples sur des inéquations variationnelles montrent que cet algorithme améliore de façon non négligeable le temps de résolution de ces inéquations. Pour le cas des jeux avec gain moyen, nous proposons un algorithme d'itération sur les politiques pour les jeux à deux joueurs avec espaces d'états et d'actions finis, dans le cas général multichaine (c'est-à-dire sans hypothèse d'irréductibilité sur les chaînes de Markov associées aux stratégies des deux joueurs). Cet algorithme utilise une idée développée dans Cochet-Terrasson et Gaubert (2006). Cet algorithme est basé sur la notion de projecteur spectral non-linéaire d'opérateurs de la programmation dynamique de jeux à un joueur (lequel est monotone et convexe). Nous montrons que la suite des valeurs et valeurs relatives satisfont une propriété de monotonie lexicographique qui implique que l'algorithme termine en temps fini. Nous présentons des résultats numériques pour des jeux discrets provenant d'une variante des jeux de Richman et sur des problèmes de jeux de poursuite. Finalement, nous présentons de nouveaux algorithmes de multigrilles algébriques pour la résolution de systèmes linéaires singuliers particuliers. Ceux-ci apparaissent, par exemple, dans l'algorithme d'itérations sur les politiques pour les jeux stochastiques à deux joueurs et somme nulle avec gain moyen, décrit ci-dessus. Nous introduisons également une nouvelle méthode pour la recherche de mesures invariantes de chaînes de Markov irréductibles basée sur une approche de contrôle stochastique. Nous présentons un algorithme qui combine les itérations sur les politiques d'Howard et des itérations de multigrilles algébriques pour les systèmes linéaires singuliers.

Multigrid methods for zero-sum two player stochastic games

Méthodes multigrilles pour les jeux stochastiques à deux joueurs et somme nulle, en horizon infini

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager