Spiegazione del data mining
(estrazione dei dati)

Data mining is everywhere. Learn what it is, how it’s used, benefits, and current trends. This article will also cover leading data mining tools and common questions.

Che cos’è il data mining?

Il data mining è l’esplorazione e l’analisi di grandi quantità di dati per scoprire schemi e regole significativi. Questa disciplina rientra nel campo di studio della scienza dei dati e si discosta dall’analisi predittiva poiché essa descrive dati storici, mentre il data mining aspira a prevedere risultati futuri. Inoltre, le tecniche del data mining vengono impiegate per la creazione di modelli di apprendimento automatico (machine learning, ML) che alimentano le applicazioni dotate di intelligenza artificiale (IA) moderne come gli algoritmi dei motori di ricerca e i sistemi di raccomandazione.

Applicazioni del data mining

Data Mining Applications

Database marketing e targeting

I rivenditori utilizzano il data mining per comprendere meglio i propri clienti. Il Data mining consente loro di segmentare meglio i gruppi di mercato, personalizzare le promozioni per aumentare efficacemente il livello di dettaglio e offrire promozioni personalizzate a clienti diversi.

Gestione del rischio di credito e credit scoring

Le banche impiegano i modelli di data mining per prevedere la capacità di un mutuatario di assumere e ripagare un debito. Utilizzando varie informazioni demografiche e personali, questi modelli selezionano automaticamente un tasso di interesse in base al livello di rischio assegnato al cliente. I richiedenti con i credit score (punteggi sull’affidabilità creditizia) migliori solitamente ricevono tassi di interesse più bassi, dal momento che il modello utilizza questo punteggio per effettuare la valutazione.

Rilevamento e prevenzione delle frodi

Gli enti finanziari applicano i modelli di data mining per rilevare e bloccare automaticamente le transazioni fraudolente. Questa forma di polizia scientifica informatica agisce dietro le quinte per ciascuna transazione e, talvolta, senza che il cliente se ne accorga. Attraverso la tracciatura delle abitudini di spesa, questi modelli segnaleranno le transazioni insolite e tratterranno immediatamente i pagamenti, fino a quando i clienti non abbiano verificato l’acquisto. Gli algoritmi di data mining possono lavorare in autonomia per proteggere i clienti dalle transazioni fraudolente attraverso una notifica tramite e-mail o sms per confermare un acquisto.

Bioinformatica dell’assistenza sanitaria

I professionisti del settore sanitario utilizzano modelli statistici per prevedere la probabilità che un paziente sviluppi alcune malattie in base ai fattori di rischio. I dati demografici, familiari e genetici possono essere modellati per aiutare i pazienti ad apportare modifiche per prevenire o mediare le condizioni di salute negative al loro stato iniziale. Questi modelli sono stati recentemente impiegati nei paesi in via di sviluppo, per aiutare a diagnosticare e assegnare le priorità ai pazienti prima che i dottori arrivassero in loco per somministrare i trattamenti.

Filtrazione dello spam

Il data mining viene inoltre utilizzato per contrastare un flusso di spam e malware via e-mail. I sistemi sono in grado di analizzare le caratteristiche comuni di milioni di messaggi nocivi per informare lo sviluppo di software di sicurezza. Oltre al rilevamento, questo software specializzato può fare un altro passo in avanti e rimuovere questi messaggi prima che possano addirittura raggiungere la Posta in arrivo dell’utente.

Sistemi di raccomandazione

I sistemi di raccomandazione sono oggi largamente utilizzati tra i rivenditori online. La modellazione predittiva del comportamento dell’utente costituisce oggi un obiettivo fondamentale di molte organizzazioni e viene vista come essenziale per poter competere. Società come Amazon e Macy’s hanno costruito i propri modelli di data mining proprietari per prevedere la domanda e migliorare l’esperienza del cliente su tutti i punti di contatto. Come è noto, Netflix ha offerto un premio di un milione di dollari per un algoritmo che avrebbe aumentato significativamente la precisione del proprio sistema di raccomandazione. Il modello vincente ha migliorato la precisione della raccomandazione di oltre l’8%.

Analisi della fiducia

L’Analisi della fiducia dai dati dei social media è un’applicazione comune di data mining che utilizza una tecnica chiamata text mining. Si tratta di un metodo utilizzato per comprendere come si sente un gruppo aggregato di persone relativamente a un argomento. Il text mining comporta l’impiego di un input dai canali di social media o da altra forma di contenuti pubblici per ottenere insight chiave, frutto del riconoscimento di uno schema statistico. Compiendo un ulteriore passo in avanti, le tecniche di Natural Language Processing (NLP, elaborazione del linguaggio naturale) possono essere utilizzate per trovare il significato contestuale dietro al linguaggio umano utilizzato.

Data mining qualitativo (QDM)

La ricerca qualitativa può essere strutturata e poi analizzata utilizzando le tecniche di text mining per dare un senso a grandi insiemi di dati non strutturati. I ricercatori di Berkley hanno pubblicato un’analisi approfondita riguardo a come questa sia stata utilizzata per studiare il benessere dei bambini.

Come effettuare il Data mining

Il processo di Data mining accettato include sei passaggi:

  1. Comprensione del business

    Il primo passo è stabilire gli obiettivi del progetto e come il data mining possa aiutare a raggiungere tali obiettivi. In questa fase, è necessario sviluppare un piano che includa tempistiche, azioni e assegnazioni dei ruoli.

  2. Comprensione dei dati

    In questa fase, i dati vengono raccolti da tutte le fonti di dati applicabili. Gli strumenti per la visualizzazione dei dati vengono spesso utilizzati in questa fase per esplorare le proprietà dei dati, per garantire che saranno d’aiuto per raggiungere gli obiettivi del business.

  3. Preparazione dei dati analitici

    I dati vengono quindi “puliti”, e i dati mancanti vengono inclusi per garantire che siano pronti all’estrazione. L’elaborazione dei dati può richiedere moltissimo tempo, in base alla quantità di dati analizzati e al numero di fonti di dati. Pertanto, nei moderni sistemi di gestione dei database (DBMS) si utilizzano più sistemi di distribuzione per migliorare la velocità del processo di estrazione dei dati, piuttosto di caricare un solo sistema. Essi sono inoltre più sicuri che avere tutti i dati di un’organizzazione su un singolo magazzino dati. Nella fase di manipolazione dei dati, è importante includere misure precauzionali affinché i dati non vengano persi definitivamente.

  4. Modellazione dei dati

    Spesso si utilizzano modelli matematici per trovare schemi nei dati, utilizzando strumenti di dati sofisticati.

  5. Valutazione

    I risultati vengono valutati e comparati con gli obiettivi del business, per determinare se debbano essere distribuiti nell’organizzazione.

  6. Distribuzione

    Nella fase finale, i risultati del data mining vengono condivisi nel business quotidiano. È possibile utilizzare una piattaforma di enterprise business intelligence per fornire una fonte singola della verità per il data discovery in modo privato.

Data Mining Process

Benefici del data mining

  • Processo decisionale automatico

    Il data mining permette alle organizzazioni di analizzare dati in modo costante e rendere automatico il processo decisionale sia di routine che critico senza il ritardo del giudizio umano. Le banche possono rilevare le transazioni fraudolente, richiedere verifiche e perfino difendere le informazioni personali immediatamente per proteggere i clienti dal furto d’identità. Questi modelli, impiegati all’interno degli algoritmi operativi di un’azienda, possono raccogliere, analizzare e agire sui dati in modo indipendente, per rendere snello il processo decisionale e migliorare i processi quotidiani di un’organizzazione.

  • Predizione e previsione accurate

    La pianificazione è un processo critico all’interno di ogni organizzazione. Il data mining facilita la pianificazione e fornisce ai manager previsioni affidabili in base alle tendenze passate e alle condizioni attuali. Macy’s implementa modelli di previsione della domanda per prevedere la domanda per ciascuna categoria di abbigliamento in ogni negozio e invia le scorte appropriate per soddisfare le necessità del mercato in modo efficiente.

  • Riduzione dei costi

    Il data mining permette un uso e un’allocazione delle risorse più efficiente. Le organizzazioni possono pianificare e prendere decisioni automatiche con previsioni accurate che risulteranno in un’ottimizzata riduzione dei costi. Delta ha inserito dei chip RFID nei bagagli soggetti a verifica dei passeggeri e ha impiegato modelli di data mining per identificare i gap nei propri processi e ridurre il numero di bagagli mal gestiti. Il miglioramento di questo processo produce un aumento della soddisfazione dei passeggeri e una diminuzione del costo di ricerca e re-indirizzamento dei bagagli persi.

  • Insight sui clienti

    Le aziende utilizzano i modelli di data mining derivati dai dati dei clienti per scoprire le caratteristiche e differenze chiave tra i propri clienti. Il data mining può essere utilizzato per creare dei profili e personalizzare ogni punto di contatto per migliorare l’esperienza generale del cliente. Nel 2017, Disney ha investito oltre un miliardo di dollari per creare e implementare le “Magic Bands.” Queste fasce hanno una relazione simbiotica con i clienti e lavorano per migliorare la loro esperienza generale presso il resort, raccogliendo al contempo i dati relativi alle loro attività, affinché Disney possa analizzarli per migliorare ulteriormente la loro esperienza cliente.

Sfide del data mining

Pur essendo un processo potente, il data mining viene ostacolato dalla sempre maggiore quantità e complessità dei big data. Laddove le aziende raccolgono Exabyte di dati ogni giorno, i decisori necessitano di modi per estrarre, analizzare e ottenere insight dal proprio ampio archivio di dati.

  • Big Data

    Le sfide dei big data sono prolifiche e penetrano ogni campo che raccoglie, archivia e analizza dati. I big data presentano quattro sfide principali: volume, varietà, veridicità e velocità. L’obiettivo del data mining è mediare queste sfide e sbloccare il valore dei dati.

    Volume descrive la sfida di conservare ed elaborare l’enorme quantità di dati raccolti dalle organizzazioni. Questa enorme quantità di dati presenta due sfide principali: in primo luogo, è più difficile trovare i dati corretti, e in seconda battuta, rallenta la velocità di elaborazione degli strumenti di data mining.

    Varietà include i molti diversi tipi di dati raccolti e archiviati. Gli strumenti di data mining devono essere predisposti in modo da elaborare simultaneamente una vasta gamma di formati di dati. Un’attenzione insufficiente all’analisi di dati sia strutturati che non strutturati inibisce il valore aggiunto del data mining.

    Velocità esprime in dettaglio la velocità crescente a cui i nuovi dati vengono creati, raccolti e archiviati. Se volume si riferisce ai crescenti requisiti di storage e varietà si riferisce ai crescenti tipi di dati, velocità è la sfida associata al tasso rapidamente crescente della generazione di dati.

    Infine, veridicità riconosce che non tutti i dati sono ugualmente precisi. I dati possono essere disordinati, incompleti, raccolti in modo inappropriato e perfino parziali. Con tutto ciò, più rapidamente si raccolgono i dati, maggiori errori si riscontreranno al loro interno. La sfida della veridicità è bilanciare la quantità dei dati con la sua qualità.

  • Modelli sovraparametrizzati

    La sovraparametrizzazione si verifica quando un modello spiega gli errori naturali in un campione invece che le relative tendenze della popolazione. I modelli sovraparametrizzati sono spesso troppo complessi e per generare una previsione utilizzano troppe variabili indipendenti. Pertanto, il rischio della sovraparametrizzazione viene acuito dall’aumento del volume e della varietà dei dati. Un numero troppo scarso di variabili rende il modello irrilevante, mentre troppe variabili limitano il modello ai dati del campione noto. La sfida consiste nel contenere il numero di variabili utilizzate nei modelli di data mining e bilanciare il suo potere predittivo con la precisione.

Data Mining Challenges
  • Costo del ridimensionamento

    Dal momento che la velocità dei dati continua ad aumentarne il volume e la varietà, le aziende devono ridimensionare questi modelli e applicarli all’intera organizzazione. Per liberare i pieni benefici del data mining con questi modelli, è necessario un investimento significativo nell’infrastruttura informatica e nella potenza di elaborazione. Per effettuare il ridimensionamento, le organizzazioni devono acquistare e mantenere computer, server e software potenti, progettati per gestire la grande quantità e varietà di dati dell’azienda.

  • Privacy e sicurezza

    La crescente esigenza di storage dei dati ha obbligato molte aziende a rivolgersi a memorizzazione e cloud computing. Anche se il cloud ha incoraggiato molti sviluppi moderni nel data mining, la natura del servizio crea minacce significative in termini di privacy e sicurezza. Le organizzazioni devono proteggere i propri dati da figure nocive per mantenere la fiducia dei propri partner e clienti.

    Con la privacy dei dati, per le organizzazioni sorge anche la necessità di sviluppare regole e vincoli interni sull’uso e l’implementazione dei dati di un cliente. Il data mining è uno strumento potente che fornisce al business insight interessanti sui propri clienti. Tuttavia, quand’è che questi insight violano la privacy di un individuo? Le organizzazioni devono soppesare questa relazione con i propri clienti, sviluppare politiche a vantaggio della clientela e comunicare queste politiche ai clienti, per mantenere con loro un rapporto di fiducia.

Tipi di data mining

Il data mining presenta due processi primari: l’apprendimento supervisionato e non supervisionato.

  • Apprendimento supervisionato

    L’obiettivo dell’apprendimento supervisionato è la previsione o classificazione. Il modo più semplice per concettualizzare questo processo è guardare una singola variabile di output. Un processo viene considerato un apprendimento supervisionato se l’obiettivo del modello è prevedere il valore di un’osservazione. Un esempio sono i filtri anti-spam, che utilizzano l’apprendimento supervisionato per classificare le e-mail in arrivo come contenuto indesiderato e le rimuovono automaticamente dalla Posta in arrivo dell’utente.

    I comuni modelli analitici utilizzati negli approcci supervisionati del data mining sono:

    • Regressioni lineari

      le regressioni lineari predicono il valore di una variabile continua utilizzando uno o più input indipendenti. Gli agenti immobiliari utilizzano le regressioni lineari per prevedere il valore di un’abitazione in base a metratura, rapporto stanze da letto/bagni, anno di costruzione e codice postale.

    • Regressioni logistiche

      le regressioni logistiche prevedono la probabilità di una variabile categorica utilizzando uno o più input indipendenti. Le banche utilizzano le regressioni logistiche per prevedere la probabilità che il richiedente di un prestito si renda inadempiente in base al credit score, al reddito familiare, all’età e ad altri fattori personali.

    • Serie temporali

      i modelli di serie temporali sono strumenti di previsione che utilizzano il tempo quale principale variabile indipendente. I rivenditori, come Macy’s, impiegano i modelli di serie temporali per prevedere la domanda di prodotti in funzione del tempo e utilizzano la previsione per pianificare con precisione e rifornire i negozi con il livello di scorta richiesto.

    • Alberi di classificazione o regressione

      gli alberi di classificazione costituiscono una tecnica di modellazione predittiva che può essere utilizzata per prevedere il valore di entrambe le variabili target categoriche e continue. In base ai dati, il modello creerà serie di regole binarie per suddividere e raggruppare la più elevata proporzione di variabili target simili. In seguito a queste regole, il gruppo in cui ricade una nuova osservazione diventerà il suo valore previsto.

    • Reti neurali

      una rete neurale è un modello analitico ispirato dalla struttura del cervello, dai suoi neuroni e dalle loro connessioni. Questi modelli furono originariamente creati negli anni ‘40, ma solo recentemente hanno acquisito popolarità grazie a statistici e scienziati di dati. Le reti neurali utilizzano input e, in base alla propria grandezza, “accenderanno” o “non accenderanno” il proprio nodo in base alla propria soglia richiesta. Questo segnale, o la sua mancanza, viene quindi combinato con gli altri segnali “accesi” negli strati nascosti della rete, dove il processo si ripete fino alla creazione di un output. Dal momento che uno dei benefici delle reti neurali è un output praticamente immediato, le automobili senza conducente stanno impiegando questi modelli per processare dati in modo efficiente e preciso, per prendere decisioni critiche in autonomia.

    • k-nearest neighbor:

      il metodo k-nearest neighbor viene utilizzato per categorizzare una nuova osservazione in base a osservazioni passate. A differenza dei metodi precedentemente illustrati, k-nearest neighbor è un metodo guidato dai dati, non da un modello. Questo metodo non produce presupposti riguardo ai dati né utilizza processi complessi per interpretare i propri input. L’idea alla base del modello k-nearest neighbor è che le nuove osservazioni vengono classificate attraverso l’identificazione dei k neighbor più vicini e l’assegnazione del valore di maggioranza. Molti sistemi recommender contengono questo metodo per identificare e classificare contenuti simili che verranno successivamente tirati dall’algoritmo più grande.

Types of Data Mining
  • Apprendimento non supervisionato

    I compiti non supervisionati si concentrano sul comprendere e descrivere dati per rivelare schemi sottostanti all’interno di essi. I sistemi di raccomandazione usano l’apprendimento non supervisionato per tracciare schemi degli utenti e fornire loro consigli personalizzati per migliorare la loro esperienza cliente.

    I comuni modelli analitici utilizzati negli approcci non supervisionati del data mining sono:

    • Clustering

      I modelli di clustering raggruppano dati simili. La loro migliore applicazione è con set di dati complessi che descrivono una singola entità. Un esempio è la modellazione somigliante, per raggruppare similitudini tra segmenti, identificare cluster e per prendere di mira nuovi gruppi che somigliano a gruppi esistenti.

    • Analisi delle associazioni

      L’analisi delle associazioni, nota anche come “analisi del paniere” (market basket analysis), viene utilizzata per identificare voci che spesso appaiono insieme. I supermercati solitamente utilizzano questo strumento per identificare prodotti accoppiati e diffonderli nel negozio, per incoraggiare i clienti a passare di fianco a più merce e aumentare i loro acquisti.

    • Analisi del componente principale

      L’analisi del componente principale viene utilizzata per illustrare correlazioni nascoste tra variabili di input e creare nuove variabili, definite componenti principali, che catturano le medesime informazioni contenute nei dati originali, ma con un numero inferiore di variabili. Riducendo il numero di variabili utilizzate per comunicare il medesimo livello di informazioni, gli analisti possono aumentare l’utilità e la precisione dei modelli supervisionati di data mining.

  • Approcci supervisionati e non supervisionati in pratica

    Pur essendo possibile utilizzare ciascun approccio in modo indipendente, è molto comune utilizzarli entrambi durante un’analisi. Ciascun approccio possiede vantaggi unici e viene combinato per aumentare la solidità, la stabilità e l’utilità generale dei modelli di data mining. I modelli supervisionati possono trarre vantaggio dalle variabili di nesting derivate da modelli non supervisionati. Ad esempio, una variabile cluster all’interno di un modello di regressione permette agli analisti di eliminare le variabili ridondanti dal modello e migliorare la sua precisione. Poiché gli approcci non supervisionati rivelano le relazioni sottostanti all’interno dei dati, gli analisti devono utilizzare gli insight dall’apprendimento non supervisionato per lanciare la propria analisi supervisionata.

Strumenti del data mining

Le soluzioni di data mining si sono moltiplicate, quindi è importante comprendere in modo approfondito i propri obiettivi specifici e abbinarli agli strumenti e alle piattaforme corretti.

RapidMiner

RapidMiner è un software open source scritto in Java. RapidMiner è una delle migliori piattaforme per effettuare analisi predittive e offre ambienti integrati per apprendimento approfondito, mining di testo e apprendimento automatico. La piattaforma può utilizzare server in loco o basati su cloud ed è stata implementata in un ampio gruppo di organizzazioni.RapidMiner offre un grande equilibrio di funzioni di codifica personalizzate e un’interfaccia semplice, che permette lo sfruttamento più efficace della piattaforma da parte di quelli in possesso di solide basi di codifica e data mining.

Orange

Orange è un software open source basato su componenti scritto in Python. Orange dispone di facili funzioni di pre-elaborazione dei dati ed è una delle migliori piattaforme per analisi di data mining di base. Orange adotta un approccio orientato all’utente per effettuare il data mining con un’interfaccia semplice e unica. Tuttavia, uno dei suoi principali inconvenienti è la serie limitata di connettori ai dati esterni. Orange è perfetto per le organizzazioni alla ricerca di un data mining semplice e che si servono di storage all’interno dei locali.

Mahout

Sviluppata da Apache Foundation, Mahout è una piattaforma open source che si concentra sul processo di apprendimento non supervisionato. Il software eccelle nella creazione di algoritmi di apprendimento automatico per clustering, classificazione e filtri collaborativi. Mahout è garantito per gli individui con background più avanzati. Il programma permette a matematici, statistici e scienziati di dati, di creare, verificare e attuare i propri algoritmi. Anche se Mahout non include molti algoritmi “chiavi in mano”, come un recommender, che le organizzazioni possono utilizzare con un minimo sforzo, la piattaforma più grande richiede un background più specializzato per sfruttare appieno le proprie capacità.

Microstrategy

MicroStrategy è un software di business intelligence e analisi dei dati complementare a tutti i modelli di data mining. Con una vasta gamma di gateway e driver nativi, la piattaforma può connettersi a qualsiasi risorsa aziendale e analizzare i suoi dati. MicroStrategy eccelle nella trasformazione di dati complessi in visualizzazioni accessibili, che possono essere distribuite in tutta l’organizzazione. Il software è in grado di tracciare e analizzare la performance di tutti i modelli di data mining in tempo reale e mostrare chiaramente questi insight ai decisori. L’associazione di MicroStrategy con uno strumento di data mining permette agli utenti di creare modelli di data mining avanzati, utilizzarli nell’organizzazione e prendere decisioni a partire dai suoi insight e dalla performance nel mercato.

FAQ

Qual è la definizione di data mining?
Innanzitutto, perché utilizzare il data mining?
Quali di questi sono esempi di data mining?
Che cos’è il processo di data mining?
Quali sono le tecniche del data mining?
Quali sono i vantaggi del data mining?
Quali sono le sfide del data mining?
Qual è la differenza tra data mining e data discovery?
Quali sono le tendenze future del data mining?
Che cos’è il web mining?
Quali sono degli ottimi strumenti di data mining?
Come posso valutare i modelli di data mining?
Che cos’è il data mining relazionale?