Contribution au classement statistique mutualisé de messages électroniques (spam)

José Márcio Martins da Cruz

Thèse Année : 2011

A contribution to shared classification of electronic messages (spam)

Contribution au classement statistique mutualisé de messages électroniques (spam)

(1)

José Márcio Martins da Cruz

Fonction : Auteur
PersonId : 19153
IdHAL : jose-marcio-martins-da-cruz
ORCID : 0000-0002-2981-7028

Centre de Robotique

Résumé

Since the 90's, different machine learning methods were investigated and applied to the email classification problem (spam filtering), with very good but not perfect results. It was always considered that these methods are well adapted to filter messages to a single user and not filter to messages of a large set of users, like a community. Our approach was, at first, look for a better understanding of handled data, with the help of a corpus of real messages, before studying new algorithms. With the help of a logistic regression classifier with online active learning, we could show, empirically, that with a simple classification algorithm coupled with a learning strategy well adapted to the real context it's possible to get results which are as good as those we can get with more complex algorithms. We also show, empirically, with the help of messages from a small group of users, that the efficiency loss is not very high when the classifier is shared by a group of users.

Depuis la fin des années 90, les différentes méthodes issues de l'apprentissage artificiel ont été étudiées et appliquées au problème de classement de messages électroniques (filtrage de spam), avec des résultats très bons, mais pas parfaits. Il a toujours été considéré que ces méthodes étaient adaptées aux solutions de filtrage orientées vers un seul destinataire et non pas au classement des messages d'une communauté entière. Dans cette thèse notre démarche a été, d'abord, de chercher à mieux comprendre les caractéristiques des données manipulées, à l'aide de corpus réels de messages, avant de proposer des nouveaux algorithmes. Puis, nous avons utilisé un classificateur à régression logistique avec de l'apprentissage actif en ligne - pour démontrer empiriquement qu'avec un algorithme simple et une configuration d'apprentissage mieux adaptée au contexte réel de classement, on peut obtenir des résultats aussi bons que ceux que l'on obtient avec des algorithmes plus complexes. Nous avons aussi démontré, avec des ensembles de messages d'un petit groupe d'utilisateurs, que la perte d'efficacité peut ne pas être significative dans un contexte de classement mutualisé.

Mots clés

email classification spam filtering shared filtering active learning online learning

spam classement de messages électroniques filtrage spam filtrage mutualisé apprentissage actif apprentissage en ligne

Domaines

Autre [cs.OH]

Fichier principal

Martins.pdf (2.15 Mo)

Bibliothèque MINES ParisTech : Connectez-vous pour contacter le contributeur

https://pastel.hal.science/pastel-00637173

Soumis le : lundi 31 octobre 2011-09:36:24

Dernière modification le : vendredi 19 avril 2024-16:18:56

Archivage à long terme le : mercredi 1 février 2012-02:20:46

Dates et versions

pastel-00637173 , version 1 (31-10-2011)

Identifiants

HAL Id : pastel-00637173 , version 1

Citer

José Márcio Martins da Cruz. Contribution au classement statistique mutualisé de messages électroniques (spam). Autre [cs.OH]. École Nationale Supérieure des Mines de Paris, 2011. Français. ⟨NNT : 2011ENMP0027⟩. ⟨pastel-00637173⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

INSTITUT-TELECOM ENSMP PASTEL ENSMP_CAOR PARISTECH PSL ENSMP_DR

529 Consultations

2296 Téléchargements

A contribution to shared classification of electronic messages (spam)

Contribution au classement statistique mutualisé de messages électroniques (spam)

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager