Dane nieustrukturyzowane to informacje, w wielu różnych formach, które nie są zgodne z konwencjonalnymi modelami danych i dlatego zazwyczaj nie pasują do głównych relacyjnych baz danych. Dzięki pojawieniu się alternatywnych platform do przechowywania i zarządzania takimi danymi, są one coraz częściej spotykane w systemach informatycznych i wykorzystywane przez organizacje w różnych aplikacjach analitycznych i analityki biznesowej.
Tradycyjne dane ustrukturyzowane, takie jak dane transakcyjne w systemach finansowych i innych aplikacjach biznesowych, są zgodne ze sztywnym formatem, aby zapewnić spójność podczas ich przetwarzania i analizowania. Z drugiej strony, zbiory danych nieustrukturyzowanych mogą być przechowywane w formatach, które nie są jednolite, co pozwala zespołom analitycznym pracować na wszystkich dostępnych danych bez konieczności ich wcześniejszej konsolidacji i standaryzacji. Umożliwia to bardziej wszechstronne analizy niż byłoby to możliwe w innym przypadku.
Typy danych nieustrukturyzowanych
Jednym z najbardziej powszechnych typów danych nieustrukturyzowanych jest tekst. Tekst nieustrukturyzowany jest generowany i gromadzony w szerokim zakresie form, w tym w dokumentach Word, wiadomościach e-mail, prezentacjach PowerPoint, odpowiedziach na ankiety, transkrypcjach interakcji z call center oraz postach na blogach i w serwisach społecznościowych.
Inne rodzaje danych nieustrukturyzowanych obejmują obrazy, pliki audio i wideo. Dane maszynowe to kolejna kategoria, która szybko rośnie w wielu organizacjach. Na przykład pliki logowania z witryn internetowych, serwerów, sieci i aplikacji – zwłaszcza mobilnych – są źródłem wielu danych dotyczących aktywności i wydajności. Ponadto, firmy coraz częściej przechwytują i analizują dane z czujników w sprzęcie produkcyjnym i innych urządzeniach podłączonych do Internetu rzeczy (IoT).
W niektórych przypadkach takie dane można uznać za częściowo ustrukturyzowane – na przykład, jeśli dodano znaczniki metadanych w celu zapewnienia informacji i kontekstu na temat zawartości danych. Granica między danymi nieustrukturyzowanymi a częściowo ustrukturyzowanymi nie jest jednak absolutna; niektórzy konsultanci ds. zarządzania danymi twierdzą, że wszystkie dane, nawet te nieustrukturyzowane, mają pewien poziom struktury.