Nonlinear Perron-Frobenius theory and mean-payoff zero-sum stochastic games

Résumé : Les jeux stochastiques à somme nulle possèdent une structure récursive qui s'exprime dans leur opérateur de programmation dynamique, appelé opérateur de Shapley. Ce dernier permet d'étudier le comportement asymptotique de la moyenne des paiements par unité de temps. En particulier, le paiement moyen existe et ne dépend pas de l'état initial si l'équation ergodique - une équation non-linéaire aux valeurs propres faisant intervenir l'opérateur de Shapley - admet une solution. Comprendre sous quelles conditions cette équation admet une solution est un problème central de la théorie de Perron-Frobenius non-linéaire, et constitue le principal thème d'étude de cette thèse. Diverses classes connues d'opérateur de Shapley peuvent être caractérisées par des propriétés basées entièrement sur la relation d'ordre ou la structure métrique de l'espace. Nous étendons tout d'abord cette caractérisation aux opérateurs de Shapley "sans paiements", qui proviennent de jeux sans paiements instantanés. Pour cela, nous établissons une expression sous forme minimax des fonctions homogènes de degré un et non-expansives par rapport à une norme faible de Minkowski. Nous nous intéressons ensuite au problème de savoir si l'équation ergodique a une solution pour toute perturbation additive des paiements, problème qui étend la notion d'ergodicité des chaînes de Markov. Quand les paiements sont bornés, cette propriété d'"ergodicité" est caractérisée par l'unicité, à une constante additive près, du point fixe d'un opérateur de Shapley sans paiement. Nous donnons une solution combinatoire s'exprimant au moyen d'hypergraphes à ce problème, ainsi qu'à des problèmes voisins d'existence de points fixes. Puis, nous en déduisons des résultats de complexité. En utilisant la théorie des opérateurs accrétifs, nous généralisons ensuite la condition d'hypergraphes à tous types d'opérateurs de Shapley, y compris ceux provenant de jeux dont les paiements ne sont pas bornés. Dans un troisième temps, nous considérons le problème de l'unicité, à une constante additive près, du vecteur propre. Nous montrons d'abord que l'unicité a lieu pour une perturbation générique des paiements. Puis, dans le cadre des jeux à information parfaite avec un nombre fini d'actions, nous précisons la nature géométrique de l'ensemble des perturbations où se produit l'unicité. Nous en déduisons un schéma de perturbations qui permet de résoudre les instances dégénérées pour l'itération sur les politiques.
Type de document :
Thèse
Optimization and Control [math.OC]. Université Paris-Saclay, 2016. English. 〈NNT : 2016SACLX079〉
Liste complète des métadonnées

Littérature citée [125 références]  Voir  Masquer  Télécharger

https://pastel.archives-ouvertes.fr/tel-01423953
Contributeur : Abes Star <>
Soumis le : mercredi 29 mars 2017 - 21:13:09
Dernière modification le : jeudi 10 mai 2018 - 02:04:44
Document(s) archivé(s) le : vendredi 30 juin 2017 - 17:05:52

Fichier

58418_HOCHART_2016_archivage.p...
Version validée par le jury (STAR)

Identifiants

  • HAL Id : tel-01423953, version 2

Citation

Antoine Hochart. Nonlinear Perron-Frobenius theory and mean-payoff zero-sum stochastic games. Optimization and Control [math.OC]. Université Paris-Saclay, 2016. English. 〈NNT : 2016SACLX079〉. 〈tel-01423953v2〉

Partager

Métriques

Consultations de la notice

443

Téléchargements de fichiers

149