dati non strutturati

I dati non strutturati sono informazioni, in molte forme diverse, che non sono conformi ai modelli di dati convenzionali e quindi non sono adatti a un database relazionale tradizionale. Grazie all’emergere di piattaforme alternative per l’archiviazione e la gestione di tali dati, essi sono sempre più diffusi nei sistemi IT e sono utilizzati dalle organizzazioni in una varietà di applicazioni di business intelligence e di analisi.

I dati strutturati tradizionali, come i dati delle transazioni nei sistemi finanziari e in altre applicazioni aziendali, sono conformi a un formato rigido per garantire la coerenza nell’elaborazione e nell’analisi. Gli insiemi di dati non strutturati, d’altra parte, possono essere mantenuti in formati che non sono uniformi, liberando i team di analisi a lavorare con tutti i dati disponibili senza doverli necessariamente consolidare e standardizzare prima. Questo permette analisi più complete di quanto sarebbe altrimenti possibile.

Tipi di dati non strutturati

Uno dei tipi più comuni di dati non strutturati è il testo. Il testo non strutturato viene generato e raccolto in una vasta gamma di forme, tra cui documenti Word, messaggi di posta elettronica, presentazioni PowerPoint, risposte a sondaggi, trascrizioni di interazioni di call center e post da blog e siti di social media.

Altri tipi di dati non strutturati includono immagini, file audio e video. I dati macchina sono un’altra categoria, che sta crescendo rapidamente in molte organizzazioni. Per esempio, i file di log da siti web, server, reti e applicazioni – in particolare quelle mobili – producono una miniera di attività e dati sulle prestazioni. Inoltre, le aziende catturano e analizzano sempre più spesso i dati provenienti da sensori su apparecchiature di produzione e altri dispositivi connessi all’Internet delle cose (IoT).

In alcuni casi, tali dati possono essere considerati semi-strutturati – per esempio, se vengono aggiunti tag di metadati per fornire informazioni e contesto sul contenuto dei dati. Il confine tra dati non strutturati e semi-strutturati non è però assoluto; alcuni consulenti di gestione dei dati sostengono che tutti i dati, anche quelli non strutturati, hanno un certo livello di struttura.

Tipi di dati non strutturati

Dati non strutturati

A causa della loro natura, i dati non strutturati non sono adatti alle applicazioni di elaborazione delle transazioni, che sono la provincia dei dati strutturati. Invece, sono usati principalmente per la BI e l’analitica. Un’applicazione popolare è l’analisi dei clienti. Rivenditori, produttori e altre aziende analizzano i dati non strutturati per migliorare i processi di gestione delle relazioni con i clienti e consentire un marketing più mirato; fanno anche l’analisi del sentiment per identificare le opinioni positive e negative sui prodotti, il servizio clienti e le entità aziendali, come espresso dai clienti sui social network e in altri forum.

La manutenzione predittiva è un caso emergente di utilizzo analitico dei dati non strutturati. Per esempio, i produttori possono analizzare i dati dei sensori per cercare di rilevare i guasti delle attrezzature prima che si verifichino nei sistemi di fabbrica o nei prodotti finiti sul campo. Anche le condutture energetiche possono essere monitorate e controllate per potenziali problemi utilizzando i dati non strutturati raccolti dai sensori IoT.

L’analisi dei dati di log dei sistemi IT evidenzia le tendenze di utilizzo, identifica i limiti di capacità e individua la causa degli errori delle applicazioni, i crash di sistema, i colli di bottiglia delle prestazioni e altri problemi. L’analisi dei dati non strutturati aiuta anche gli sforzi di conformità normativa, in particolare aiutando le organizzazioni a capire cosa contengono i documenti e le registrazioni aziendali.

Tecniche e piattaforme di dati non strutturati

Le aziende di analisi riferiscono che la maggior parte dei nuovi dati generati è non strutturata. In passato, questo tipo di informazioni era spesso rinchiuso in sistemi di gestione dei documenti isolati, dispositivi di produzione individuali e simili – rendendoli ciò che è noto come dati oscuri, non disponibili per l’analisi.

Ma le cose sono cambiate con lo sviluppo di piattaforme di big data, principalmente cluster Hadoop, database NoSQL e Amazon Simple Storage Service (S3). Esse forniscono l’infrastruttura necessaria per elaborare, archiviare e gestire grandi volumi di dati non strutturati senza l’imposizione di un modello di dati comune e di uno schema di database unico, come nei database relazionali e nei data warehouse.

Una varietà di tecniche e strumenti di analisi sono utilizzati per analizzare i dati non strutturati in ambienti big data. Gli strumenti di analisi del testo cercano modelli, parole chiave e sentimenti nei dati testuali; a un livello più avanzato, la tecnologia di elaborazione del linguaggio naturale è una forma di intelligenza artificiale che cerca di capire il significato e il contesto nel testo e nel discorso umano, sempre più con l’aiuto di algoritmi di apprendimento profondo che usano reti neurali per analizzare i dati. Altre tecniche che giocano un ruolo nell’analisi dei dati non strutturati includono il data mining, l’apprendimento automatico e l’analisi predittiva.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *