Les ressources logicielles et matérielles sur le cloud, tout comme les enjeux technologiques de Lokad, sont en constante évolution. À ce titre, il est crucial de ne pas dissocier les résultats présentés dans cette thèse, ainsi que les questions qui les ont engendrés, du contexte historique où ces questions et réponses ont été exprimées. Par exemple, le choix d'utiliser le système de stockage persistent d'Azure comme moyen de communication est le fruit du manque d'environnements logiciels comme MPI ou MapReduce lorsque ce travail de thèse a été réalisé. Ces environnements logiciels devraient cependant sans doute être disponibles dans un futur proche pour Azure. Lorsqu'ils le seront, de nouvelles possibilités s'ouvriront pour paralléliser nos algorithmes.\\

Au delà de cette adaptation à l'évolution technologique, il serait également intéressant de réfléchir à une adaptation de nos travaux dans le cas d'une métrique différente de classification. Comme nous l'avons déjà évoqué, l'utilisation du critère présenté dans les chapitres \ref{chap:KMeans} et \ref{chap:practicalDALVQ} présente en effet deux lacunes. La première est d'ordre numérique: sa non-convexité entraine des difficultés supplémentaires importantes lorsque nous cherchons un minimum à ce critère. En second lieu, le critère précédent n'est peut être pas le plus pertinent eu égard à l'utilisation qui en est faite ensuite par Lokad: il faudrait effectivement choisir un critère qui tienne compte de la technique de régression utilisée à la suite de la classification. Ces questions sont abordées dans la littérature sous le terme de \og clusterwise regression\fg, et pourraient permettre de proposer des critères de classification plus adéquats dans notre cas.\\

Les techniques de minimisation de notre critère présentées dans les chapitres \ref{chap:practicalDALVQ} et \ref{chap:cloudDALVQ} sont appliquées à un problème de classification mais peuvent s'adapter sans difficulté majeure à de nombreux autres problèmes de descente de gradient parallèle. Il serait intéressant de les comparer en pratique, dans le cas d'autres fonctions à minimiser, aux techniques de moyennage des résultats proposées par exemple dans \cite{DekelShamir}, pour lesquelles des vitesses optimales de convergence sont démontrées. Dans le cadre de notre algorithme de VQ réparti, nous pourrions également tester des techniques d'accélération de descente de gradient, par exemple la méthode de Nesterov (nous renvoyons le lecteur à \cite{Nesterov}).\\

De manière plus générale, nous observons à la lumière des expériences que nous avons réalisées que la parallélisation d'algorithmes d'apprentissage statistique ou de fouille de données n'est pas encore un domaine mûr. En effet, l'offre actuelle des environnements logiciels disponibles propose deux alternatives souvent insatisfaisantes: l'alternative MapReduce d'une part, simple d'utilisation mais limitée dans l'expressivité et peu adaptée à des algorithmes asynchrones, ou avec de nombreuses communications, ou encore à des algorithmes itératifs. La seconde alternative est actuellement représentée par des environnements logiciels plus riches, comme Dryad ou Graphlab, qui ne sont pas encore réellement disponibles sur le cloud, et dont la complexité nous semble restreindre très fortement leur public respectif. Des environnements logiciels à la fois simples et puissants dans leur expressivité restent donc à imaginer et concevoir.\\