Ongestructureerde data is informatie, in vele verschillende vormen, die zich niet houdt aan conventionele datamodellen en dus meestal niet goed past in een gangbare relationele database. Dankzij de opkomst van alternatieve platforms voor de opslag en het beheer van dergelijke gegevens, komen ze steeds vaker voor in IT-systemen en worden ze door organisaties gebruikt in een verscheidenheid van business intelligence en analytische toepassingen.
Traditioneel gestructureerde gegevens, zoals de transactiegegevens in financiële systemen en andere zakelijke toepassingen, voldoen aan een rigide formaat om de consistentie bij het verwerken en analyseren ervan te waarborgen. Ongestructureerde gegevens daarentegen kunnen worden bewaard in formats die niet uniform zijn, waardoor analyseteams kunnen werken met alle beschikbare gegevens zonder deze eerst te hoeven consolideren en standaardiseren. Dat maakt uitgebreidere analyses mogelijk dan anders mogelijk zou zijn.
Soorten ongestructureerde gegevens
Een van de meest voorkomende soorten ongestructureerde gegevens is tekst. Ongestructureerde tekst wordt in allerlei vormen gegenereerd en verzameld, zoals Word-documenten, e-mailberichten, PowerPoint-presentaties, reacties op enquêtes, transcripties van interacties met callcenters en berichten op blogs en sociale-mediasites.
Andere soorten ongestructureerde gegevens zijn afbeeldingen, audio- en videobestanden. Machinegegevens vormen een andere categorie, een die in veel organisaties snel groeit. Zo leveren logbestanden van websites, servers, netwerken en applicaties – met name mobiele – een schat aan activiteit- en prestatiegegevens op. Daarnaast leggen bedrijven in toenemende mate gegevens vast van sensoren op productieapparatuur en andere met het internet of things (IoT) verbonden apparaten en analyseren deze.
In sommige gevallen kunnen dergelijke gegevens als semigestructureerd worden beschouwd – bijvoorbeeld als er metadatatags zijn toegevoegd om informatie en context te bieden over de inhoud van de gegevens. De grens tussen ongestructureerde en semi-gestructureerde gegevens is echter niet absoluut; sommige consultants op het gebied van gegevensbeheer beweren dat alle gegevens, zelfs de ongestructureerde, een bepaalde mate van structuur hebben.
Analyse van ongestructureerde gegevens
Omwille van zijn aard, zijn ongestructureerde gegevens niet geschikt voor transactieverwerkingstoepassingen, die het domein zijn van gestructureerde gegevens. In plaats daarvan worden ze voornamelijk gebruikt voor BI en analyses. Een populaire toepassing is klantanalyse. Detailhandelaren, fabrikanten en andere bedrijven analyseren ongestructureerde gegevens om klantrelatiebeheerprocessen te verbeteren en meer gerichte marketing mogelijk te maken; ze doen ook aan sentimentanalyse om zowel positieve als negatieve meningen over producten, klantenservice en bedrijfsentiteiten te identificeren, zoals die door klanten op sociale netwerken en in andere fora worden geuit.
Predictief onderhoud is een opkomende analytische use case voor ongestructureerde gegevens. Fabrikanten kunnen bijvoorbeeld sensorgegevens analyseren om te proberen storingen in apparatuur te detecteren voordat deze zich voordoen in systemen op de fabrieksvloer of in eindproducten in het veld. Ook energiepijpleidingen kunnen worden bewaakt en gecontroleerd op potentiële problemen met behulp van ongestructureerde gegevens die zijn verzameld van IoT-sensoren.
Analyse van loggegevens van IT-systemen brengt gebruikstrends aan het licht, identificeert capaciteitsbeperkingen en achterhaalt de oorzaak van toepassingsfouten, systeemcrashes, prestatieknelpunten en andere problemen. Ongestructureerde data-analyse helpt ook bij het voldoen aan wet- en regelgeving, met name door organisaties te helpen begrijpen wat er in bedrijfsdocumenten en -records staat.
Technieken en platforms voor ongestructureerde data
Analisten melden dat het overgrote deel van de nieuwe data die wordt gegenereerd ongestructureerd is. In het verleden was dit soort informatie vaak opgesloten in silo’s van documentbeheersystemen, afzonderlijke productieapparatuur en dergelijke – waardoor het zogenaamde dark data waren, niet beschikbaar voor analyse.
Maar de zaken veranderden met de ontwikkeling van big data-platforms, voornamelijk Hadoop-clusters, NoSQL-databases en de Amazon Simple Storage Service (S3). Zij bieden de vereiste infrastructuur voor het verwerken, opslaan en beheren van grote hoeveelheden ongestructureerde gegevens zonder dat er een gemeenschappelijk datamodel en één databaseschema worden opgelegd, zoals bij relationele databases en datawarehouses het geval is.
Er worden verschillende analysetechnieken en -tools gebruikt om ongestructureerde gegevens in big data-omgevingen te analyseren. Tools voor tekstanalyse zoeken naar patronen, trefwoorden en sentimenten in tekstuele gegevens; op een meer geavanceerd niveau is natuurlijke taalverwerkingstechnologie een vorm van kunstmatige intelligentie die probeert de betekenis en context in tekst en menselijke spraak te begrijpen, in toenemende mate met behulp van deep learning-algoritmen die neurale netwerken gebruiken om gegevens te analyseren. Andere technieken die een rol spelen bij de analyse van ongestructureerde gegevens zijn datamining, machinaal leren en voorspellende analyses.