Classification automatique de textes dans des catégories non thématiques - PASTEL - Thèses en ligne de ParisTech Accéder directement au contenu
Thèse Année : 2004

Classification automatique de textes dans des catégories non thématiques

Résumé

La classification automatique de textes était jusqu'à présent employée pour l'indexation documentaire. À travers quatre exemples, nous présentons quelques caractéristiques de nouveaux contextes applicatifs ainsi que leurs conséquences pour les algorithmes existants. Nous mettons en évidence le fait que Rocchio, d'ordinaire peu performant, est particulièrement adapté aux corpus bruités et à une utilisation semi-automatique mais très désavantagé avec des classes définies par plusieurs thèmes. Nous proposons une extension de Rocchio, Rocchio Multi-Prototypes, pour gérer les classes multi-thématiques en adaptant la complexité de son modèle d'apprentissage. RMP utilise un algorithme de classification faiblement supervisée qui détecte des sous-classes et sélectionne les plus utiles pour la catégorisation. Nous proposons aussi un algorithme de détection de changements de concepts dans des corpus à flux temporel à partir du calcul du taux d'activité des sous-classes.

Domaines

Fichier principal
Vignette du fichier
these_Romain_Vinot.pdf (1.67 Mo) Télécharger le fichier

Dates et versions

pastel-00000812 , version 1 (06-09-2004)

Identifiants

  • HAL Id : pastel-00000812 , version 1

Citer

Romain Vinot. Classification automatique de textes dans des catégories non thématiques. domain_other. Télécom ParisTech, 2004. English. ⟨NNT : ⟩. ⟨pastel-00000812⟩
495 Consultations
1435 Téléchargements

Partager

Gmail Facebook X LinkedIn More