Imputation multiple par analyse factorielle : Une nouvelle méthodologie pour traiter les données manquantes

Résumé : Cette thèse est centrée sur le développement de nouvelles méthodes d'imputation multiples, basées sur des techniques d'analyse factorielle. L'étude des méthodes factorielles, ici en tant que méthodes d'imputation, offre de grandes perspectives en termes de diversité du type de données imputées d'une part, et en termes de dimensions de jeux de données imputés d'autre part. Leur propriété de réduction de la dimension limite en effet le nombre de paramètres estimés.Dans un premier temps, une méthode d'imputation simple par analyse factorielle de données mixtes est détaillée. Ses propriétés sont étudiées, en particulier sa capacité à gérer la diversité des liaisons mises en jeu et à prendre en compte les modalités rares. Sa qualité de prédiction est éprouvée en la comparant à l'imputation par forêts aléatoires.Ensuite, une méthode d'imputation multiple pour des données quantitatives basée sur une approche Bayésienne du modèle d'analyse en composantes principales est proposée. Elle permet d'inférer en présence de données manquantes y compris quand le nombre d'individus est petit devant le nombre de variables, ou quand les corrélations entre variables sont fortes.Enfin, une méthode d'imputation multiple pour des données qualitatives par analyse des correspondances multiples (ACM) est proposée. La variabilité de prédiction des données manquantes est reflétée via un bootstrap non-paramétrique. L'imputation multiple par ACM offre une réponse au problème de l'explosion combinatoire limitant les méthodes concurrentes dès lors que le nombre de variables ou de modalités est élev
Type de document :
Thèse
Analyse numérique [math.NA]. Agrocampus Ouest, 2015. Français. 〈NNT : 2015NSARG015〉
Liste complète des métadonnées

https://pastel.archives-ouvertes.fr/tel-01336206
Contributeur : Abes Star <>
Soumis le : mercredi 22 juin 2016 - 16:58:34
Dernière modification le : mercredi 21 mars 2018 - 16:08:05

Fichier

pdf2star-1466604887-These_audi...
Version validée par le jury (STAR)

Identifiants

  • HAL Id : tel-01336206, version 1

Collections

Citation

Vincent Audigier. Imputation multiple par analyse factorielle : Une nouvelle méthodologie pour traiter les données manquantes. Analyse numérique [math.NA]. Agrocampus Ouest, 2015. Français. 〈NNT : 2015NSARG015〉. 〈tel-01336206〉

Partager

Métriques

Consultations de la notice

227

Téléchargements de fichiers

363