Unstrukturierte Daten sind Informationen in vielen verschiedenen Formen, die sich nicht an konventionelle Datenmodelle halten und daher typischerweise nicht in eine herkömmliche relationale Datenbank passen. Dank des Aufkommens alternativer Plattformen für die Speicherung und Verwaltung solcher Daten sind sie in IT-Systemen immer häufiger anzutreffen und werden von Unternehmen in einer Vielzahl von Business-Intelligence- und Analyseanwendungen genutzt.
Traditionelle strukturierte Daten, wie z. B. die Transaktionsdaten in Finanzsystemen und anderen Geschäftsanwendungen, entsprechen einem starren Format, um Konsistenz bei der Verarbeitung und Analyse zu gewährleisten. Unstrukturierte Datensätze hingegen können in uneinheitlichen Formaten gepflegt werden, so dass Analyseteams mit allen verfügbaren Daten arbeiten können, ohne diese zunächst konsolidieren und standardisieren zu müssen. Das ermöglicht umfassendere Analysen, als es sonst möglich wäre.
Typen von unstrukturierten Daten
Einer der häufigsten Typen von unstrukturierten Daten ist Text. Unstrukturierter Text wird in einer Vielzahl von Formen generiert und gesammelt, darunter Word-Dokumente, E-Mail-Nachrichten, PowerPoint-Präsentationen, Umfrageantworten, Transkripte von Call-Center-Interaktionen und Beiträge von Blogs und Social-Media-Seiten.
Andere Arten von unstrukturierten Daten umfassen Bilder, Audio- und Videodateien. Maschinendaten sind eine weitere Kategorie, die in vielen Unternehmen schnell wächst. Zum Beispiel liefern Logdateien von Websites, Servern, Netzwerken und Anwendungen – insbesondere mobilen – eine Fülle von Aktivitäts- und Leistungsdaten. Darüber hinaus erfassen und analysieren Unternehmen zunehmend Daten von Sensoren an Produktionsanlagen und anderen mit dem Internet der Dinge (IoT) verbundenen Geräten.
In einigen Fällen können solche Daten als halbstrukturiert betrachtet werden – zum Beispiel, wenn Metadaten-Tags hinzugefügt werden, um Informationen und Kontext über den Inhalt der Daten zu liefern. Die Grenze zwischen unstrukturierten und halbstrukturierten Daten ist jedoch nicht absolut; einige Datenmanagement-Berater behaupten, dass alle Daten, auch die unstrukturierten, ein gewisses Maß an Struktur aufweisen.
Analyse unstrukturierter Daten
Aufgrund ihrer Natur sind unstrukturierte Daten nicht für Anwendungen zur Transaktionsverarbeitung geeignet, die strukturierten Daten vorbehalten sind. Stattdessen werden sie vor allem für BI und Analytik verwendet. Eine beliebte Anwendung ist die Kundenanalyse. Einzelhändler, Hersteller und andere Unternehmen analysieren unstrukturierte Daten, um die Prozesse des Kundenbeziehungsmanagements zu verbessern und ein gezielteres Marketing zu ermöglichen. Sie führen auch Stimmungsanalysen durch, um sowohl positive als auch negative Meinungen über Produkte, Kundenservice und Unternehmen zu ermitteln, die von Kunden in sozialen Netzwerken und anderen Foren geäußert werden.
Prädiktive Wartung ist ein aufkommender Anwendungsfall für unstrukturierte Daten. So können Hersteller beispielsweise Sensordaten analysieren, um Geräteausfälle zu erkennen, bevor sie in Anlagen im Werk oder bei fertigen Produkten im Feld auftreten. Auch Energieleitungen können mithilfe von unstrukturierten Daten, die von IoT-Sensoren gesammelt wurden, überwacht und auf potenzielle Probleme überprüft werden.
Die Analyse von Protokolldaten aus IT-Systemen zeigt Nutzungstrends auf, identifiziert Kapazitätsgrenzen und ermittelt die Ursache von Anwendungsfehlern, Systemabstürzen, Leistungsengpässen und anderen Problemen. Die Analyse unstrukturierter Daten hilft auch bei der Einhaltung gesetzlicher Vorschriften, insbesondere wenn es darum geht, den Inhalt von Unternehmensdokumenten und -aufzeichnungen zu verstehen.
Techniken und Plattformen für unstrukturierte Daten
Analyseunternehmen berichten, dass die überwiegende Mehrheit der neu erzeugten Daten unstrukturiert ist. In der Vergangenheit war diese Art von Informationen oft in siloartigen Dokumenten-Management-Systemen, einzelnen Produktionsgeräten und ähnlichem eingeschlossen – was sie zu so genannten „Dark Data“ machte, die für Analysen nicht zur Verfügung standen.
Das änderte sich jedoch mit der Entwicklung von Big-Data-Plattformen, vor allem Hadoop-Clustern, NoSQL-Datenbanken und dem Amazon Simple Storage Service (S3). Sie bieten die nötige Infrastruktur für die Verarbeitung, Speicherung und Verwaltung großer Mengen unstrukturierter Daten, ohne dass ein einheitliches Datenmodell und ein einziges Datenbankschema wie bei relationalen Datenbanken und Data Warehouses vorgeschrieben ist.
Zur Analyse unstrukturierter Daten in Big-Data-Umgebungen werden verschiedene Analysetechniken und -werkzeuge eingesetzt. Textanalyse-Tools suchen nach Mustern, Schlüsselwörtern und Stimmungen in Textdaten; auf einer fortgeschritteneren Ebene ist die Technologie zur Verarbeitung natürlicher Sprache eine Form der künstlichen Intelligenz, die versucht, Bedeutung und Kontext in Text und menschlicher Sprache zu verstehen, zunehmend mit Hilfe von Deep-Learning-Algorithmen, die neuronale Netze zur Analyse von Daten verwenden. Andere Techniken, die bei der Analyse unstrukturierter Daten eine Rolle spielen, sind Data Mining, maschinelles Lernen und Predictive Analytics.