I dati non strutturati sono informazioni, in molte forme diverse, che non sono conformi ai modelli di dati convenzionali e quindi non sono adatti a un database relazionale tradizionale. Grazie all’emergere di piattaforme alternative per l’archiviazione e la gestione di tali dati, essi sono sempre più diffusi nei sistemi IT e sono utilizzati dalle organizzazioni in una varietà di applicazioni di business intelligence e di analisi.
I dati strutturati tradizionali, come i dati delle transazioni nei sistemi finanziari e in altre applicazioni aziendali, sono conformi a un formato rigido per garantire la coerenza nell’elaborazione e nell’analisi. Gli insiemi di dati non strutturati, d’altra parte, possono essere mantenuti in formati che non sono uniformi, liberando i team di analisi a lavorare con tutti i dati disponibili senza doverli necessariamente consolidare e standardizzare prima. Questo permette analisi più complete di quanto sarebbe altrimenti possibile.
Tipi di dati non strutturati
Uno dei tipi più comuni di dati non strutturati è il testo. Il testo non strutturato viene generato e raccolto in una vasta gamma di forme, tra cui documenti Word, messaggi di posta elettronica, presentazioni PowerPoint, risposte a sondaggi, trascrizioni di interazioni di call center e post da blog e siti di social media.
Altri tipi di dati non strutturati includono immagini, file audio e video. I dati macchina sono un’altra categoria, che sta crescendo rapidamente in molte organizzazioni. Per esempio, i file di log da siti web, server, reti e applicazioni – in particolare quelle mobili – producono una miniera di attività e dati sulle prestazioni. Inoltre, le aziende catturano e analizzano sempre più spesso i dati provenienti da sensori su apparecchiature di produzione e altri dispositivi connessi all’Internet delle cose (IoT).
In alcuni casi, tali dati possono essere considerati semi-strutturati – per esempio, se vengono aggiunti tag di metadati per fornire informazioni e contesto sul contenuto dei dati. Il confine tra dati non strutturati e semi-strutturati non è però assoluto; alcuni consulenti di gestione dei dati sostengono che tutti i dati, anche quelli non strutturati, hanno un certo livello di struttura.