Skip to Main content Skip to Navigation
Theses

Contribution au classement statistique mutualisé de messages électroniques (spam)

Résumé : Depuis la fin des années 90, les différentes méthodes issues de l'apprentissage artificiel ont été étudiées et appliquées au problème de classement de messages électroniques (filtrage de spam), avec des résultats très bons, mais pas parfaits. Il a toujours été considéré que ces méthodes étaient adaptées aux solutions de filtrage orientées vers un seul destinataire et non pas au classement des messages d'une communauté entière. Dans cette thèse notre démarche a été, d'abord, de chercher à mieux comprendre les caractéristiques des données manipulées, à l'aide de corpus réels de messages, avant de proposer des nouveaux algorithmes. Puis, nous avons utilisé un classificateur à régression logistique avec de l'apprentissage actif en ligne - pour démontrer empiriquement qu'avec un algorithme simple et une configuration d'apprentissage mieux adaptée au contexte réel de classement, on peut obtenir des résultats aussi bons que ceux que l'on obtient avec des algorithmes plus complexes. Nous avons aussi démontré, avec des ensembles de messages d'un petit groupe d'utilisateurs, que la perte d'efficacité peut ne pas être significative dans un contexte de classement mutualisé.
Document type :
Theses
Complete list of metadatas

https://pastel.archives-ouvertes.fr/pastel-00637173
Contributor : Bibliothèque Mines Paristech <>
Submitted on : Monday, October 31, 2011 - 9:36:24 AM
Last modification on : Thursday, April 9, 2020 - 5:08:12 PM
Document(s) archivé(s) le : Wednesday, February 1, 2012 - 2:20:46 AM

Identifiers

  • HAL Id : pastel-00637173, version 1

Citation

José Márcio Martins da Cruz. Contribution au classement statistique mutualisé de messages électroniques (spam). Autre [cs.OH]. École Nationale Supérieure des Mines de Paris, 2011. Français. ⟨NNT : 2011ENMP0027⟩. ⟨pastel-00637173⟩

Share

Metrics

Record views

909

Files downloads

2715