Il data mining non è una nuova invenzione arrivata con l’era digitale. Il concetto esiste da più di un secolo, ma è diventato di pubblico dominio negli anni ’30. Uno dei primi casi di data mining si è verificato nel 1936, quando Alan Turing ha introdotto l’idea di una macchina universale in grado di eseguire calcoli simili a quelli dei computer moderni.
Abbiamo fatto molta strada da allora. Le aziende stanno ora sfruttando il data mining e il machine learning per migliorare tutto, dai processi di vendita all’interpretazione dei dati finanziari per gli investimenti. Di conseguenza, i data scientist sono diventati vitali per le organizzazioni di tutto il mondo, dato che le aziende cercano di raggiungere obiettivi più grandi con la scienza dei dati rispetto al passato.
Il data mining è il processo di analisi di enormi volumi di dati per scoprire la business intelligence che aiuta le aziende a risolvere problemi, mitigare i rischi e cogliere nuove opportunità. Questo ramo della scienza dei dati deriva il suo nome dalle somiglianze tra la ricerca di informazioni preziose in un grande database e l’estrazione di una montagna per trovare il minerale. Entrambi i processi richiedono di setacciare enormi quantità di materiale per trovare il valore nascosto.
Il data mining può rispondere a domande di business che tradizionalmente richiedevano troppo tempo per essere risolte manualmente. Usando una serie di tecniche statistiche per analizzare i dati in modi diversi, gli utenti possono identificare schemi, tendenze e relazioni che altrimenti potrebbero perdere. Possono applicare questi risultati per prevedere ciò che probabilmente accadrà in futuro e agire per influenzare i risultati del business.
Il data mining è usato in molte aree del business e della ricerca, comprese le vendite e il marketing, lo sviluppo dei prodotti, la sanità e l’istruzione. Se usato correttamente, il data mining può fornire un profondo vantaggio sui concorrenti, consentendo di imparare di più sui clienti, sviluppare strategie di marketing efficaci, aumentare le entrate e diminuire i costi.
Concetti chiave del data mining
Per ottenere i migliori risultati dal data mining occorre una serie di strumenti e tecniche. Alcune delle funzioni più comunemente usate includono:
-
Pulizia e preparazione dei dati – Una fase in cui i dati vengono trasformati in una forma adatta per ulteriori analisi ed elaborazioni, come identificare e rimuovere errori e dati mancanti.
-
Intelligenza artificiale (AI) – Questi sistemi eseguono attività analitiche associate all’intelligenza umana come la pianificazione, l’apprendimento, il ragionamento e il problem solving.
-
Apprendimento delle regole di associazione – Questi strumenti, noti anche come analisi del paniere di mercato, cercano relazioni tra le variabili in un set di dati, come determinare quali prodotti sono tipicamente acquistati insieme.
-
Clustering – Un processo di partizione di un set di dati in un insieme di sottoclassi significative, chiamate cluster, per aiutare gli utenti a capire il raggruppamento naturale o la struttura nei dati.
-
Classificazione – Questa tecnica assegna gli elementi in un set di dati a categorie o classi target con l’obiettivo di prevedere accuratamente la classe target per ogni caso nei dati.
-
Data analytics – Il processo di valutazione delle informazioni digitali in utile business intelligence.
-
Data warehousing – Una grande collezione di dati aziendali usati per aiutare un’organizzazione a prendere decisioni. È il componente fondamentale della maggior parte degli sforzi di data mining su larga scala.
-
Machine learning – Una tecnica di programmazione del computer che usa probabilità statistiche per dare ai computer la capacità di “imparare” senza essere esplicitamente programmati.
-
Regressione – Una tecnica usata per prevedere una serie di valori numerici, come le vendite, le temperature o i prezzi delle azioni, sulla base di un particolare set di dati.
Svantaggi del Data Mining
I dati si riversano nelle aziende in una moltitudine di formati a velocità e volumi senza precedenti. Essere un’azienda guidata dai dati non è più un’opzione; il successo dell’azienda dipende dalla velocità con cui si possono scoprire intuizioni dai big data e incorporarle nelle decisioni e nei processi aziendali, guidando azioni migliori in tutta l’impresa. Tuttavia, con così tanti dati da gestire, questo può sembrare un compito insormontabile.
Il data mining consente alle aziende di ottimizzare il futuro comprendendo il passato e il presente, e facendo previsioni accurate su ciò che probabilmente accadrà in seguito.
Per esempio, il data mining può dirvi quali prospettive hanno la probabilità di diventare clienti redditizi in base ai profili dei clienti passati, e quali hanno più probabilità di rispondere a un’offerta specifica. Con questa conoscenza, potete aumentare il vostro ritorno sull’investimento (ROI) facendo la vostra offerta solo a quelle prospettive che probabilmente risponderanno e diventeranno clienti di valore.
Potete usare il data mining per risolvere quasi tutti i problemi aziendali che coinvolgono i dati, tra cui:
- Aumentare le entrate.
- Comprendere i segmenti e le preferenze dei clienti.
- Acquisire nuovi clienti.
- Migliorare il cross-selling e l’up-selling.
- Rimanere i clienti e aumentare la fedeltà.
- Aumentare il ROI delle campagne di marketing.
- Rilevare le frodi.
- Identificare i rischi di credito.
- Monitorare le performance operative.
Attraverso l’applicazione di tecniche di data mining, le decisioni possono essere basate su una reale business intelligence – piuttosto che sull’istinto o su reazioni istintive – e fornire risultati coerenti che mantengono le aziende davanti alla concorrenza.
Come le tecnologie di elaborazione dei dati su larga scala come l’apprendimento automatico e l’intelligenza artificiale diventano più facilmente accessibili, le aziende sono ora in grado di scavare attraverso terabyte di dati in minuti o ore, piuttosto che giorni o settimane, aiutandole a innovare e crescere più velocemente.
Guarda Fundamentals of Machine Learning ora.
Guarda ora
Come funziona il Data Mining
Un tipico progetto di data mining inizia col porre la giusta domanda aziendale, raccogliere i dati giusti per rispondere e preparare i dati per l’analisi. Il successo nelle fasi successive dipende da ciò che avviene nelle fasi precedenti. Una scarsa qualità dei dati porterà a risultati scadenti, ed è per questo che i data miners devono garantire la qualità dei dati che utilizzano come input per l’analisi.
I professionisti del data mining in genere ottengono risultati tempestivi e affidabili seguendo un processo strutturato e ripetibile che coinvolge queste sei fasi:
- Comprensione del business – sviluppare una comprensione approfondita dei parametri del progetto, compresa la situazione attuale del business, l’obiettivo primario del progetto e i criteri di successo.
- Comprensione dei dati – Determinare i dati che saranno necessari per risolvere il problema e raccoglierli da tutte le fonti disponibili.
- Preparazione dei dati – Preparare i dati nel formato appropriato per rispondere alla domanda del business, correggendo qualsiasi problema di qualità dei dati come dati mancanti o duplicati.
- Modellazione – Usare algoritmi per identificare modelli all’interno dei dati.
- Valutazione – Determinare se e quanto bene i risultati forniti da un dato modello aiuteranno a raggiungere l’obiettivo di business. C’è spesso una fase iterativa per trovare l’algoritmo migliore al fine di ottenere il miglior risultato.
- Deployment – Rendere i risultati del progetto disponibili ai decision maker.
In tutto questo processo, una stretta collaborazione tra gli esperti di dominio e i data miners è essenziale per capire il significato dei risultati del data mining per la questione aziendale che si sta esplorando.
Casi ed esempi di utilizzo del data mining
Le organizzazioni di tutti i settori stanno ottenendo risultati trasformativi dal data mining:
- Groupon allinea le attività di marketing – Una delle sfide principali di Groupon è l’elaborazione dell’enorme volume di dati che utilizza per fornire il suo servizio di shopping. Ogni giorno, l’azienda elabora più di un terabyte di dati grezzi in tempo reale e memorizza queste informazioni in vari sistemi di database. Il data mining permette a Groupon di allineare più strettamente le attività di marketing alle preferenze dei clienti, analizzando 1 terabyte di dati sui clienti in tempo reale e aiutando l’azienda a identificare le tendenze non appena emergono.
- Air France KLM soddisfa le preferenze di viaggio dei clienti – La compagnia aerea utilizza tecniche di data mining per creare una visione a 360 gradi del cliente, integrando i dati delle ricerche di viaggio, delle prenotazioni e delle operazioni di volo con il web, i social media, il call center e le interazioni nelle lounge degli aeroporti. Usano questa profonda conoscenza del cliente per creare esperienze di viaggio personalizzate.
- Bayer aiuta gli agricoltori con una produzione alimentare sostenibile – Le erbacce che danneggiano le colture sono state un problema per gli agricoltori fin dalla nascita dell’agricoltura. Una soluzione adeguata è quella di applicare un erbicida a spettro ristretto che uccida efficacemente l’esatta specie di erbaccia nel campo, avendo il minor numero possibile di effetti collaterali indesiderati. Ma per farlo, gli agricoltori devono prima identificare accuratamente le erbacce nei loro campi. Utilizzando Talend Real-time Big Data, Bayer Digital Farming ha sviluppato WEEDSCOUT, una nuova applicazione che gli agricoltori possono scaricare gratuitamente. L’applicazione utilizza l’apprendimento automatico e l’intelligenza artificiale per abbinare le foto delle erbacce in un database di Bayer con le foto delle erbacce inviate dagli agricoltori. Dà al coltivatore la possibilità di prevedere con più precisione l’impatto delle sue azioni come, la scelta della varietà di sementi, il tasso di applicazione dei prodotti per la protezione delle colture, o i tempi di raccolta.
- Domino’s aiuta i clienti a costruire la pizza perfetta – La più grande azienda di pizza del mondo raccoglie 85.000 fonti di dati strutturati e non strutturati, compresi i sistemi dei punti vendita e 26 centri della supply chain, e attraverso tutti i suoi canali, compresi i messaggi di testo, i social media e Amazon Echo. Questo livello di conoscenza ha migliorato le prestazioni aziendali, consentendo esperienze di acquisto one-to-one attraverso i touchpoint.
https://player.vimeo.com/video/238075190
Questi sono solo alcuni esempi di come le capacità di data mining possono aiutare le organizzazioni guidate dai dati ad aumentare l’efficienza, ottimizzare le operazioni, ridurre i costi e migliorare la redditività.
Il futuro del data mining
Il futuro è luminoso per il data mining e la scienza dei dati, poiché la quantità di dati non potrà che aumentare. Entro il 2020, il nostro universo digitale di dati accumulati crescerà da 4,4 zettabyte a 44 zettabyte. Creeremo anche 1,7 megabyte di nuove informazioni ogni secondo per ogni essere umano sul pianeta.
Come le tecniche di estrazione si sono evolute e migliorate grazie ai miglioramenti della tecnologia, così anche le tecnologie per estrarre preziose intuizioni dai dati. Una volta, solo organizzazioni come la NASA potevano usare i loro supercomputer per analizzare i dati – il costo di memorizzazione e di calcolo dei dati era troppo grande. Ora, le aziende stanno facendo tutti i tipi di cose interessanti con l’apprendimento automatico, l’intelligenza artificiale e l’apprendimento profondo con laghi di dati basati sul cloud.
Per esempio, l’Internet of Things e la tecnologia indossabile hanno trasformato persone e dispositivi in macchine generatrici di dati che possono produrre intuizioni illimitate su persone e organizzazioni – se le aziende possono raccogliere, archiviare e analizzare i dati abbastanza velocemente.
Download O’Reilly Report: Il mercato dell’Internet delle cose ora.
Leggi ora
Ci saranno circa > 20 miliardi di dispositivi connessi sull’Internet delle cose (IoT) entro il 2020. I dati generati da questa attività saranno disponibili sul cloud, creando un bisogno urgente di strumenti di analisi flessibili e scalabili in grado di gestire masse di informazioni da insiemi di dati disparati.
Le soluzioni di analisi basate sul cloud stanno rendendo più pratico e conveniente per le organizzazioni l’accesso a dati e risorse di calcolo enormi. Il cloud computing aiuta le aziende a raccogliere rapidamente i dati dalle vendite, dal marketing, dal web, dai sistemi di produzione e di inventario e da altre fonti; compilarli e prepararli, analizzarli e agire su di essi per migliorare i risultati.
Gli strumenti di data mining open source offrono anche agli utenti nuovi livelli di potenza e agilità, soddisfacendo le richieste analitiche in modi che molte soluzioni tradizionali non possono e offrendo ampie comunità di analisti e sviluppatori dove gli utenti possono condividere e collaborare ai progetti. Inoltre, tecnologie avanzate come l’apprendimento automatico e l’IA sono ora alla portata di qualsiasi organizzazione con le persone, i dati e gli strumenti giusti.
Software e strumenti di data mining
Non c’è dubbio che il data mining abbia il potere di trasformare le imprese; tuttavia, l’implementazione di una soluzione che soddisfi le esigenze di tutte le parti interessate può spesso bloccare la selezione della piattaforma. La vasta gamma di opzioni disponibili per gli analisti, compresi i linguaggi open source come R e Python e con strumenti familiari come Excel, combinata con la diversità e la complessità degli strumenti e degli algoritmi, può complicare ulteriormente il processo.
Le aziende che ottengono il maggior valore dal data mining di solito selezionano una piattaforma che:
- incorpora le migliori pratiche per il loro settore o tipo di progetto. Le organizzazioni sanitarie, per esempio, hanno esigenze diverse dalle aziende di e-commerce.
- Gestisce l’intero ciclo di vita del data mining, dall’esplorazione dei dati alla produzione.
- Si allinea con le applicazioni aziendali, compresi i sistemi di BI, CRM, ERP, finanziari e altri software aziendali con cui deve interagire per ottenere il massimo ritorno sull’investimento.
- Si integra con i principali linguaggi open source, fornendo a sviluppatori e data scientist la flessibilità e gli strumenti di collaborazione per creare applicazioni innovative.
- Soddisfa le esigenze di IT, data scientist e analisti, e allo stesso tempo soddisfa le esigenze di reporting e visualizzazione degli utenti business<
La Talend Big Data Platform fornisce una suite completa di funzionalità di gestione e integrazione dei dati per aiutare i team di data mining a rispondere più rapidamente alle esigenze del loro business.
Basata su un’architettura aperta e scalabile e con strumenti per database relazionali, file piatti, applicazioni cloud e piattaforme, questa soluzione completa la tua piattaforma di data mining mettendo più dati al lavoro in meno tempo, il che si traduce in un tempo più rapido per l’insight e il vantaggio competitivo.
Iniziare con il Data Mining
Come le organizzazioni continuano ad essere sommerse da enormi quantità di dati interni ed esterni, hanno bisogno della capacità di distillare questo materiale grezzo in intuizioni utilizzabili alla velocità richiesta dal loro business.
Le aziende di ogni settore si affidano a Talend per accelerare le intuizioni del data mining. La nostra moderna piattaforma di integrazione dei dati consente agli utenti di lavorare in modo più intelligente e veloce in tutti i team, permettendo loro di sviluppare e distribuire lavori di integrazione dei dati end-to-end dieci volte più velocemente della codifica manuale, a 1/5 del costo di altre soluzioni.
Guarda come iniziare con gli strumenti Big Data di Talend.