contribution à la définition d'une méthodologie couplant le traitement automatique du langage naturel et l'apprentissage automatique pour réagir aux perturbations de production

Juan Pablo Usuga Cadavid

Résumé

In the age of Industry 4.0 (I4.0), exploiting data stored in information systems offers an opportunity to improve production systems. Datasets stored in these systems may contain patterns that machine learning (ML) models can recognise to react more effectively to future production disturbances. In the case of industrial maintenance, data are frequently collected through reports provided by operators. However, such reports are often provided using free-form text fields, resulting in complex unstructured data; therefore, they may contain irregularities such as acronyms, jargon, and typos. Furthermore, maintenance data often present asymmetrical distributions, where certain events occur more frequently than others. This phenomenon is known as class imbalance, and it can hinder the training of ML models as they tend to recognise the more frequent events better, ignoring rarer incidents. Finally, when implementing I4.0 technologies, the inclusion of humans in the decision-making process must be ensured. Otherwise, companies may be reluctant to adopt new technologies.The work presented in this thesis aims to tackle the general objective of harnessing maintenance data to react more effectively to production disturbances. To achieve this, we employed two strategies. First, we performed a systematic literature review to identify the research trends and perspectives regarding the use of ML in production planning and control. This literature analysis allowed us to understand that predictive maintenance may benefit from the unstructured data provided by operators. Additionally, their usage can contribute to the inclusion of humans in the implementation of new technologies. Second, we addressed some of the identified research gaps through case studies that employed data from real production systems. These studies harnessed the free-form text data provided by operators and presented class imbalance. Hence, the proposed case studies explored techniques to mitigate the effect of imbalanced data; moreover, we also suggested the use of a recent architecture for natural language processing called transformer.

Dans l’ère de l’industrie 4.0, exploiter les données stockées dans les systèmes d’information est un axe d’amélioration des systèmes de production. En effet, ces bases de données contiennent des informations pouvant être utilisées par des modèles d’apprentissage automatique (AA) permettant de mieux réagir aux futures perturbations de la production. Dans le cas de la maintenance, les données sont fréquemment récupérées au moyen de rapports établis par les opérateurs. Ces rapports sont souvent rédigés en utilisant des champs de saisie en textes libres avec comme résultats des données non structurées et complexes : elles contiennent des irrégularités comme des acronymes, des jargons, des fautes de frappe, etc. De plus, les données de maintenance présentent souvent des distributions statistiques asymétriques : quelques évènements arrivent plus souvent que d’autres. Ce phénomène est connu sous le nom de « déséquilibre de classes » et peut entraver l’entraînement des modèles d’AA, car ils ont tendance à mieux apprendre les évènements les plus fréquents, en ignorant les plus rares. Enfin, la mise en place de technologies de l’industrie 4.0 doit assurer que l’être humain reste inclus dans la boucle de prise de décision. Si cela n’est pas respecté, les entreprises peuvent être réticentes à adopter ces nouvelles technologies.Cette thèse se structure autour de l’objectif général d’exploiter des données de maintenance pour mieux réagir aux perturbations de la production. Afin de répondre à cet objectif, nous avons utilisé deux stratégies. D’une part, nous avons mené une revue systématique de la littérature pour identifier des tendances et des perspectives de recherche concernant l’AA appliqué à la planification et au contrôle de la production. Cette étude de la littérature nous a permis de comprendre que la maintenance prédictive peut bénéficier de données non structurées provenant des opérateurs. Leur utilisation peut contribuer à l’inclusion de l’humain dans l’application de nouvelles technologies. D’autre part, nous avons abordé certaines perspectives identifiées au moyen d’études de cas utilisant des données issues de systèmes de productions réels. Ces études de cas ont exploité des données textuelles fournies par les opérateurs qui présentaient des déséquilibres de classes. Nous avons exploré l’utilisation de techniques pour mitiger l’effet des données déséquilibrées et nous avons proposé d’utiliser une architecture récente appelée « transformer » pour le traitement automatique du langage naturel.

contribution to the development of a methodology coupling natural language processing and machine learning to react to production disturbances

contribution à la définition d'une méthodologie couplant le traitement automatique du langage naturel et l'apprentissage automatique pour réagir aux perturbations de production

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager