Comprendre l’exploration des données
(le « data mining »)

Data mining is everywhere. Learn what it is, how it’s used, benefits, and current trends. This article will also cover leading data mining tools and common questions.

Qu’est-ce que l’exploration des données ?

L’exploration des données, également « fouille de données », « forage de données » ou « data mining », consiste à explorer et à analyser des données volumineuses afin de découvrir des règles et des modèles pertinents. Il est considéré comme une discipline dans le domaine d’études de la science des données et se distingue de l’analyse prédictive, qui décrit des données historiques, tandis que l’exploration des données vise à prédire des résultats futurs. De plus, les techniques d’exploration des données sont utilisées pour créer des modèles d’apprentissage automatique (Machine Learning, ML) qui alimentent les applications d’intelligence artificielle (IA) modernes, telles que les algorithmes de moteur de recherche et les systèmes de recommandation.

Applications du Data Mining

Data Mining Applications

Marketing prédictif et ciblage

Les commerçants utilisent l’exploration des données pour mieux comprendre leurs clients. L’exploration des données leur permet de mieux segmenter les groupes de marché et d’adapter les promotions afin de procéder à des analyses détaillées efficacement et d’offrir des promotions personnalisées à différents consommateurs.

Gestion des risques de crédit et évaluation des risques-clients

Les banques déploient des modèles d’exploration des données afin de prédire la capacité d’un emprunteur à contracter et à rembourser ses dettes. À l’aide de diverses informations démographiques et personnelles, ces modèles sélectionnent automatiquement un taux d’intérêt en fonction du niveau de risque attribué au client. Les candidats dont les notes de crédit sont meilleures bénéficient généralement de taux d’intérêt plus bas, car le modèle utilise ce score comme facteur d’évaluation.

Détection et prévention des fraudes

Les institutions financières mettent en œuvre des modèles d’exploration des données afin de détecter et d’arrêter automatiquement les transactions frauduleuses. Cette forme d’informatique légale se produit en coulisse pour chaque transaction et parfois sans que le consommateur ne le sache. En suivant les habitudes de dépense, ces modèles signalent les transactions aberrantes et retiennent instantanément les paiements jusqu’à ce que les clients vérifient l’achat. Les algorithmes d’exploration des données peuvent fonctionner de manière autonome pour protéger les consommateurs des transactions frauduleuses via un message e-mail ou une notification texte pour confirmer un achat.

Bioinformatique des services de santé

Les professionnels de santé utilisent des modèles statistiques afin de prédire la probabilité qu’un patient soit atteint de différents problèmes de santé en fonction de facteurs de risque. Les données démographiques, familiales et génétiques peuvent être modélisées pour aider les patients à apporter des modifications visant à prévenir ou à atténuer l’apparition de conditions de santé négatives. Ces modèles ont récemment été déployés dans les pays en développement pour aider à diagnostiquer et hiérarchiser les patients avant que les médecins n’arrivent sur place pour administrer le traitement.

Filtrage anti-spam

L’exploration des données permet également de lutter contre l’afflux de courrier indésirable et de programmes malveillants. Les systèmes peuvent analyser les caractéristiques communes de millions de messages malveillants pour informer le développement des logiciels de sécurité. Au-delà de la détection, ce logiciel spécialisé peut aller encore plus loin et supprimer ces messages avant même qu’ils n’atteignent la boîte de réception de l’utilisateur.

Systèmes de recommandation

Les systèmes de recommandation sont désormais largement utilisés par les commerçants en ligne. La modélisation prédictive du comportement des consommateurs fait désormais partie des priorités de nombreuses entreprises et est considérée comme essentielle pour demeurer compétitif. Des sociétés comme Amazon et Macy’s ont créé leurs propres modèles d’exploration des données exclusifs afin de prévoir la demande et d’améliorer l’expérience client pour l’ensemble des points de contact. Netflix a offert un prix d’un million de dollars pour un algorithme qui augmenterait de manière significative la précision de son système de recommandation. Le modèle gagnant a amélioré la précision des recommandations de plus de 8 %.

Analyse des sentiments

L’analyse des sentiments à partir de données issues des médias sociaux est une application courante du data mining, utilisant une technique appelée exploration de texte. Il s’agit d’une méthode utilisée pour comprendre le sentiment d’un groupe de personnes concernant un sujet. L’exploration de texte implique l’utilisation d’une entrée provenant de canaux de médias sociaux ou d’une autre forme de contenu public afin d’obtenir des informations clés résultant de la reconnaissance de modèles statistiques. Allant plus loin, les techniques de traitement automatique du langage naturel (TALN) peuvent être utilisées pour déterminer la signification contextuelle du langage humain utilisé.

L’exploration des données qualitative (Qualitative Data Mining, QDM)

La recherche qualitative peut être structurée puis analysée à l’aide de techniques d’exploration de texte afin de comprendre des ensembles importants de données non structurées. Un examen approfondi de la manière dont cela a été utilisé pour étudier le bien-être des enfants a été publié par des chercheurs de Berkeley.

Comment procéder à l’exploration des données

La procédure d’exploration des données accepté comporte six étapes :

  1. Compréhension des activités

    La première étape consiste à définir les objectifs du projet et à déterminer comment l’exploration des données peut vous aider à atteindre cet objectif. Un plan doit être élaboré à cette étape afin d’inclure les échéances, les actions ainsi que les attributions de rôles.

  2. Compréhension des données

    Les données sont collectées à partir de toutes les sources de données applicables à cette étape. Des outils de visualisation des données sont souvent utilisés à cette étape afin d’explorer les propriétés des données pour s’assurer qu’elles contribueront à la réalisation des objectifs de l’entreprise.

  3. Préparation des données

    Les données sont ensuite nettoyées et les données manquantes sont incluses pour assurer qu’elles sont prêtes à être extraites. Le traitement des données peut prendre énormément de temps en fonction de la quantité de données analysées et du nombre de sources de données. Par conséquent, des systèmes distribués sont utilisés dans les systèmes de gestion de base de données (SGBD) modernes afin d’accélérer le processus d’exploration des données plutôt que de surcharger un système unique. Ils s’avèrent également plus sûrs que d’avoir toutes les données d’une entreprise conservées dans un seul entrepôt de données. Il est important d’inclure des mesures de sécurité lors de la manipulation de données afin qu’elles ne soient pas définitivement perdues.

  4. Modélisation des données

    Des modèles mathématiques sont ensuite utilisés pour découvrir des modèles dans les données à l’aide d’outils de données sophistiqués.

  5. Évaluation

    Les conclusions sont évaluées et comparées aux objectifs de l’entreprise pour déterminer si elles doivent être déployées à travers l’ensemble de l’entreprise.

  6. Déploiement

    En dernière étape, les résultats de l’exploration des données sont partagés entre les opérations commerciales quotidiennes. Une plateforme d’informatique décisionnelle (business intelligence) peut être utilisée pour fournir une source unique de vérité pour une exploration des données en libre-service.

Data Mining Process

Avantages de l’exploration des données

  • Prise de décision automatisée

    L’exploration des données permet aux entreprises d’analyser en permanence les données et d’automatiser les décisions de routine ainsi que les décisions critiques, et cela sans délai. Les banques peuvent instantanément détecter des transactions frauduleuses, demander une vérification et même sécuriser des informations personnelles pour protéger leurs clients contre le vol d’identité. Déployés au sein des algorithmes opérationnels d’une entreprise, ces modèles peuvent collecter, analyser et exploiter des données indépendamment afin de rationaliser la prise de décision et d’améliorer les processus quotidiens d’une entreprise.

  • Prédictions et prévisions précises

    La planification est un processus critique dans chaque entreprise. L’exploration des données facilite la planification et fournit aux gestionnaires des prévisions fiables basées sur les tendances passées et les conditions actuelles. Macy’s applique des modèles de prévision de la demande pour prévoir la demande de chaque catégorie de vêtements dans chaque magasin et acheminer l’inventaire approprié afin de répondre efficacement aux besoins du marché.

  • Réduction des coûts

    L’exploration des données permet une utilisation et une allocation plus efficaces des ressources. Les entreprises peuvent planifier et prendre des décisions automatisées avec des prévisions précises qui entraîneront une réduction maximale des coûts. Delta a intégré des puces RFID dans les bagages des passagers et a déployé des modèles d’exploration des données pour identifier les failles de son processus et réduire le nombre de bagages mal acheminés. Cette amélioration du processus accroît la satisfaction des passagers et diminue les coûts de recherche et de ré-acheminement des bagages perdus.

  • Informations sur les clients

    Les entreprises déploient des modèles d’exploration des données à partir de données clients pour découvrir des caractéristiques clés et des différences entre leurs clients. L’exploration des données peut être utilisée pour créer des personas et personnaliser chaque point de contact afin d’améliorer l’expérience client globale. En 2017, Disney a investi plus d’un milliard de dollars pour créer et mettre en œuvre « Magic Bands ». Ces bracelets entretiennent une relation symbiotique avec les consommateurs, cherchant à améliorer leur expérience globale au sein du complexe tout en collectant simultanément des données sur leurs activités, afin que Disney puisse les analyser en vue d’améliorer davantage l’expérience de ses clients.

Défis de l’exploration des données

Bien qu’il s’agisse d’un processus puissant, l’exploration des données est entravé par la quantité et la complexité croissantes des mégadonnées (Big Data). Lorsque les entreprises collectent chaque jour des exaoctets de données, les décideurs ont besoin de moyens pour extraire, analyser et obtenir des informations à partir de leur référentiel de données abondant.

  • Big Data

    Les défis du big data sont nombreux et affectent tous les domaines relevant de la collecte, du stockage et de l’analyse des données. Les mégadonnées (Big Data) sont caractérisées par quatre défis majeurs : volume, variété, véracité et vitesse. L’exploration des données a pour objectif de résoudre ces défis et de dégager la valeur des données.

    Le volume décrit le défi que représente le stockage et le traitement de l’énorme quantité de données collectées par les entreprises. Cette énorme quantité de données présente deux défis majeurs : premièrement, il est plus difficile de trouver les données correctes et deuxièmement, cela ralentit la vitesse de traitement des outils de data mining.

    La variété englobe les nombreux types de données collectées et stockées. Les outils d’exploration des données doivent être équipés pour traiter simultanément un large éventail de formats de données. Ne pas centrer une analyse sur les données structurées et non structurées inhibe la valeur ajoutée par le data mining.

    La vitesse détaille la vitesse croissante à laquelle de nouvelles données sont créées, collectées et stockées. Alors que le volume fait référence aux besoins croissants de stockage et que la variété fait référence aux types de données en augmentation, la vitesse est le défi associé au taux croissant de génération de données.

    Enfin, la véracité reconnaît que toutes les données ne sont pas égales en matière de précision. Les données peuvent être désordonnées, incomplètes, mal collectées et même biaisées. De fait, plus les données sont collectées rapidement, plus nombreuses sont les erreurs qui se manifesteront. Le défi de la véracité consiste à équilibrer la quantité et la qualité des données.

  • Modèles sur-ajustés

    Un sur-ajustement se produit lorsqu’un modèle explique les erreurs naturelles dans l’échantillon au lieu des tendances sous-jacentes de la population. Les modèles sur-ajustés sont souvent trop complexes et utilisent un excès de variables indépendantes pour générer une prédiction. Par conséquent, le risque de sur-ajustement est accru par l’augmentation du volume et de la variété des données. Trop peu de variables rendent le modèle non pertinent, alors que trop de variables limitent le modèle aux données échantillons connues. Le défi consiste à modérer le nombre de variables utilisées dans les modèles d’exploration des données et à équilibrer son pouvoir prédictif avec précision.

Data Mining Challenges
  • Coût d’échelle

    Alors que la vitesse des données continue d’augmenter le volume et la variété des données, les entreprises doivent redimensionner ces modèles et les appliquer à l’ensemble de l’organisation. Pour tirer pleinement parti de l’exploration des données à l’aide de ces modèles, un investissement important en infrastructure informatique et en puissance de traitement est nécessaire. Pour atteindre l’échelle requise, les entreprises doivent acheter et entretenir des ordinateurs, des serveurs et des logiciels puissants conçus pour gérer la grande quantité et l’importante variété de données de l’entreprise.

  • Confidentialité et sécurité

    L’augmentation des besoins en stockage de données a obligé de nombreuses entreprises à se tourner vers le cloud computing et le stockage cloud. Bien que le cloud ait permis de nombreuses avancées modernes en matière de data mining, la nature du service crée d’importantes menaces pour la sécurité et la confidentialité. Les entreprises doivent protéger leurs données contre les personnalités malveillantes afin de préserver la confiance de leurs partenaires et clients.

    La confidentialité des données impose aux entreprises de définir des règles et des contraintes internes relatives à l’utilisation et à l’exploitation des données d’un client. L’exploration des données est un outil puissant fournissant aux entreprises des informations convaincantes sur leurs clients. Cependant, la question qui se pose est : à quel moment ces informations empiètent-elles sur la vie privée d’un individu ? Les entreprises doivent soupeser cette relation avec leurs clients, élaborer des politiques favorables aux clients et les leur communiquer afin de maintenir une relation de confiance.

Types d’exploration des données

L’exploration des données connaît deux processus principaux : l’apprentissage supervisé et l’apprentissage non supervisé.

  • Apprentissage supervisé

    L’objectif de l’apprentissage supervisé est la prédiction ou la classification. Le moyen le plus simple de conceptualiser ce processus consiste à rechercher une seule variable de sortie. Un processus est considéré comme un apprentissage supervisé si l’objectif du modèle est de prédire la valeur d’une observation. Les filtres anti-spam, par exemple, utilisent l’apprentissage supervisé pour classer les messages e-mail entrants en tant que contenu indésirable et suppriment automatiquement ces messages de votre boîte de réception.

    Les modèles analytiques couramment utilisés dans les approches d’exploration des données supervisé sont :

    • Régressions linéaires

      Les régressions linéaires prédisent la valeur d’une variable continue à l’aide d’une ou de plusieurs entrées indépendantes. Les agents immobiliers utilisent des régressions linéaires pour prédire la valeur d’une maison en fonction de la superficie, du rapport lit/salle de bain, de l’année de construction et du code postal.

    • Régressions logistiques

      Les régressions logistiques prédisent la probabilité d’une variable catégorielle à l’aide d’une ou plusieurs entrées indépendantes. Les banques utilisent des régressions logistiques pour prédire la probabilité de défaut d’un demandeur de prêt en fonction de sa cote de crédit, du revenu du ménage, de son âge et d’autres facteurs personnels.

    • Séries chronologiques

      Les modèles de séries chronologiques sont des outils de prévision utilisant le temps comme variable indépendante principale. Les détaillants, tels que Macy’s, déploient des modèles de séries chronologiques afin de prévoir la demande de produits en fonction de la période et utilisent les prévisions pour planifier et stocker avec précision les magasins avec le niveau de stock requis.

    • Arbres de classification ou de régression

      Les arbres de classification constituent une technique de modélisation prédictive permettant de prédire la valeur de variables cibles catégorielles et continues. En s’appuyant sur la base des données, le modèle créera des ensembles de règles binaires pour fractionner et regrouper la plus grande proportion de variables cibles similaires. En suivant ces règles, le groupe dans lequel une nouvelle observation tombe deviendra sa valeur prédite.

    • Réseaux de neurones

      Un réseau de neurones est un modèle analytique inspiré de la structure du cerveau, de ses neurones et de leurs connexions. Ces modèles ont été créés dans les années 1940 mais viennent juste de gagner en popularité auprès des statisticiens et des scientifiques de données. Les réseaux de neurones utilisent des entrées et, selon leur grandeur, « déclenchent » ou « ne déclenchent pas » leur nœud en fonction de leurs exigences de seuil. Ce signal, ou son absence, est ensuite combiné aux autres signaux « déclenchés » dans les couches cachées du réseau, où le processus se répète jusqu’à ce qu’une sortie soit créée. L’un des avantages des réseaux de neurones étant une sortie quasi instantanée, les voitures autonomes déploient ces modèles pour traiter les données avec précision et efficacité afin de prendre de manière autonome des décisions critiques.

    • K plus proches voisins

      La méthode des k plus proches voisins permet de catégoriser une nouvelle observation en fonction d’observations passées. Contrairement aux méthodes précédentes, la méthode des k plus proches voisins est dirigée par les données et non par les modèles. Cette méthode ne fait aucune hypothèse sous-jacente concernant les données et n’emploie pas de processus complexes pour interpréter ses données. L’idée de base du modèle k plus proches voisins est qu’il classe les nouvelles observations en identifiant ses k plus proches voisins et en lui attribuant la valeur de la majorité. De nombreux systèmes de recommandation imbriquent cette méthode pour identifier et classer un contenu similaire qui sera extrait ultérieurement par le plus grand algorithme.

Types of Data Mining
  • Apprentissage non supervisé

    Les tâches non supervisées se concentrent sur la compréhension et la description de données afin de révéler des tendances sous-jacentes. Les systèmes de recommandation utilisent un apprentissage non supervisé pour suivre les tendances des utilisateurs et leur fournir des recommandations personnalisées afin d’améliorer l’expérience client.

    Les modèles analytiques couramment utilisés dans les approches d’exploration des données non supervisé sont :

    • Clustering

      Les modèles de clustering regroupent des données similaires. Ils sont mieux utilisés avec des ensembles de données complexes décrivant une seule entité. Un exemple est la modélisation par ressemblance, pour regrouper les similitudes entre les segments, identifier les clusters et cibler de nouveaux groupes ressemblant à un groupe existant.

    • Analyse d’association

      L’analyse d’association est également connue sous le nom d’analyse du panier de la ménagère et est utilisée pour identifier les éléments apparaissant fréquemment ensemble. Les supermarchés utilisent couramment cet outil pour identifier les produits appariés et les répartir dans le magasin afin d’encourager les clients à acheter plus de marchandises et à accroître leurs achats.

    • Analyse en composantes principales

      L’analyse en composantes principales est utilisée pour illustrer les corrélations cachées entre les variables d’entrée et créer de nouvelles variables, appelées composantes principales, qui capturent les mêmes informations que celles contenues dans les données d’origine, mais avec moins de variables. En réduisant le nombre de variables utilisées pour transmettre le même niveau d’informations, les analystes peuvent accroître l’utilité et la précision des modèles d’exploration des données supervisé.

  • Approches supervisées et non supervisées en pratique

    Bien que vous puissiez utiliser chaque approche indépendamment, il est assez courant d’utiliser les deux lors d’une analyse. Chaque approche présente des avantages uniques et se combine pour augmenter la robustesse, la stabilité et l’utilité globale des modèles de data mining. Les modèles supervisés peuvent tirer parti de l’imbrication des variables dérivées de méthodes non supervisées. Par exemple, une variable de cluster dans un modèle de régression permet aux analystes d’éliminer les variables redondantes du modèle et d’améliorer sa précision. Du fait que les approches non supervisées révèlent les relations sous-jacentes dans les données, les analystes doivent utiliser les informations tirées de l’apprentissage non supervisé pour lancer leur analyse supervisée.

Data Mining Tools

Data mining solutions have proliferated, so it’s important to thoroughly understand your specific goals and match these with the right tools and platforms.

RapidMiner

RapidMiner is an open source software written in Java. RapidMiner is one of the best platforms to conduct predictive analyses and offers integrated environments for deep learning, text mining, and machine learning. The platform can utilize either on-premise or cloud-based servers and has been implemented across a diverse array of organizations. RapidMiner offers a great balance of custom coding features and a user-friendly interface, which allow the platform to be leveraged most effectively by those with a solid foundation in coding and data mining.

Orange

Orange is an open source component-based software written in Python. Orange boasts painless data pre-processing features and is one of the best platforms for basic data mining analyses. Orange takes a user-oriented approach to data mining with a unique and user-friendly interface. However, one of the major drawbacks is its limited set of external data connectors. Orange is perfect for organizations looking for user-friendly data mining and who use on-premise storage.

Mahout

Developed by the Apache Foundation, Mahout is an open source platform which focuses on the unsupervised learning process. The software excels at creating machine learning algorithms for clustering, classification, and collaborative filtering. Mahout is catered toward individuals with more advanced backgrounds. The program allows mathematicians, statisticians, and data scientists to create, test, and implement their own algorithms. While Mahout does include several turn-key algorithms, such as a recommender, which organizations can deploy with minimal effort, the larger platform does require a more specialized background to leverage its full capabilities.

Microstrategy

MicroStrategy is business intelligence and data analytics software that complements all data mining models. With a wide array of native gateways and drivers, the platform can connect to any enterprise resource and analyze its data. MicroStrategy excels at transforming complex data into accessible visualizations to be distributed across an organization. The software can track and analyze the performance of all data mining models in real time and clearly display these insights for decision-makers. Pairing MicroStrategy with a data mining tool enables users to create advanced data mining models, deploy them across the organization, and make decisions from its insights and performance in the market.

FAQ

Quelle est la définition de l’exploration des données ?
Pour quelle raison utiliser l’exploration des données en premier lieu ?
Quels sont quelques exemples d’exploration des données ?
Quel est le processus de l’exploration des données ?
Quelles sont les techniques utilisées en data mining ?
Quels sont les avantages de l’exploration des données ?
Quels sont les défis posés par l’exploration des données ?
Quelle est la différence entre l’exploration des données et l’exploration des données ?
Quelles sont les tendances futures en data mining ?
Qu’est-ce que la fouille du Web ?
Quels sont des exemples d’excellents outils d’exploration des données ?
Comment puis-je évaluer les modèles d’exploration des données ?
Qu’est-ce que l’exploration des données relationnel ?