Dados não estruturados é informação, em muitas formas diferentes, que não se adapta a modelos de dados convencionais e, portanto, tipicamente não é um bom ajuste para uma base de dados relacional principal. Graças ao aparecimento de plataformas alternativas para armazenar e gerir tais dados, estes são cada vez mais prevalecentes nos sistemas de TI e são utilizados por organizações numa variedade de aplicações de business intelligence e analíticas.
Dados estruturados tradicionais, tais como os dados de transacções em sistemas financeiros e outras aplicações empresariais, estão em conformidade com um formato rígido para assegurar a consistência no seu processamento e análise. Os conjuntos de dados não estruturados, por outro lado, podem ser mantidos em formatos que não são uniformes, libertando as equipas analíticas para trabalharem com todos os dados disponíveis sem terem necessariamente de os consolidar e normalizar primeiro. Isto permite análises mais completas do que seria possível de outra forma.
Tipos de dados não estruturados
Um dos tipos mais comuns de dados não estruturados é o texto. O texto não estruturado é gerado e recolhido numa vasta gama de formas, incluindo documentos Word, mensagens de correio electrónico, apresentações em PowerPoint, respostas a inquéritos, transcrições de interacções de call center, e posts de blogs e sites de redes sociais.
Outros tipos de dados não estruturados incluem imagens, ficheiros de áudio e vídeo. Os dados das máquinas são outra categoria, uma categoria que está a crescer rapidamente em muitas organizações. Por exemplo, ficheiros de registo de websites, servidores, redes e aplicações – particularmente móveis – produzem um grande volume de dados de actividade e desempenho. Além disso, as empresas capturam e analisam cada vez mais dados de sensores em equipamentos de fabrico e outros dispositivos ligados à Internet (IoT).
Em alguns casos, tais dados podem ser considerados como semi-estruturados — por exemplo, se etiquetas de metadados forem adicionadas para fornecer informação e contexto sobre o conteúdo dos dados. A linha entre dados não estruturados e semi-estruturados não é, no entanto, absoluta; alguns consultores de gestão de dados afirmam que todos os dados, mesmo os não estruturados, têm algum nível de estrutura.
Análise de dados não-estruturados
Por causa da sua natureza, Os dados não estruturados não são adequados para aplicações de processamento de transacções, que são a província dos dados estruturados. Em vez disso, são utilizados principalmente para BI e análises. Uma aplicação popular é a analítica de clientes. Retalhistas, fabricantes e outras empresas analisam dados não estruturados para melhorar os processos de gestão de relações com clientes e permitir um marketing mais direccionado; também fazem análises de sentimentos para identificar pontos de vista positivos e negativos de produtos, serviço ao cliente e entidades empresariais, tal como expresso por clientes em redes sociais e noutros fóruns.
A manutenção preditiva é um caso emergente de utilização analítica para dados não estruturados. Por exemplo, os fabricantes podem analisar dados de sensores para tentar detectar falhas de equipamento antes que ocorram em sistemas de chão vegetal ou produtos acabados no campo. As condutas de energia também podem ser monitorizadas e verificadas quanto a potenciais problemas utilizando dados não estruturados recolhidos de sensores IoT.
Os dados de registo analizadores dos sistemas de TI destacam tendências de utilização, identificam limitações de capacidade e apontam a causa de erros de aplicação, falhas de sistema, estrangulamentos de desempenho e outros problemas. A análise não estruturada de dados também ajuda os esforços de conformidade regulamentar, particularmente ao ajudar as organizações a compreender o que os documentos e registos corporativos contêm.
Técnicas e plataformas de dados não estruturadas
As empresas analistas relatam que a grande maioria dos novos dados que estão a ser gerados não está estruturada. No passado, esse tipo de informação era frequentemente trancada em sistemas de gestão de documentos em silos, dispositivos individuais de fabrico e afins — tornando-os o que é conhecido como dados escuros, indisponíveis para análise.
Mas as coisas mudaram com o desenvolvimento de grandes plataformas de dados, principalmente clusters Hadoop, bases de dados NoSQL e o Serviço de Armazenamento Simples da Amazon (S3). Fornecem a infra-estrutura necessária para o processamento, armazenamento e gestão de grandes volumes de dados não estruturados sem a imposição de um modelo de dados comum e um único esquema de base de dados, como nas bases de dados relacionais e armazéns de dados.
Uma variedade de técnicas e ferramentas analíticas são utilizadas para analisar dados não estruturados em grandes ambientes de dados. As ferramentas analíticas de texto procuram padrões, palavras-chave e sentimentos em dados textuais; a um nível mais avançado, a tecnologia de processamento de linguagem natural é uma forma de inteligência artificial que procura compreender o significado e o contexto no texto e na fala humana, cada vez mais com a ajuda de algoritmos de aprendizagem profunda que utilizam redes neuronais para analisar dados. Outras técnicas que desempenham papéis na análise de dados não estruturados incluem mineração de dados, aprendizagem de máquinas e análise preditiva.