Los datos desestructurados son información, en muchas formas diferentes, que no se ajusta a los modelos de datos convencionales y, por lo tanto, no suele encajar bien en una base de datos relacional convencional. Gracias a la aparición de plataformas alternativas para el almacenamiento y la gestión de estos datos, cada vez son más frecuentes en los sistemas informáticos y las organizaciones los utilizan en diversas aplicaciones de inteligencia y análisis empresarial.
Los datos estructurados tradicionales, como los datos de las transacciones en los sistemas financieros y otras aplicaciones empresariales, se ajustan a un formato rígido para garantizar la coherencia en su procesamiento y análisis. Los conjuntos de datos no estructurados, en cambio, pueden mantenerse en formatos que no son uniformes, lo que libera a los equipos de análisis para trabajar con todos los datos disponibles sin tener que consolidarlos y estandarizarlos necesariamente primero. Esto permite realizar análisis más completos de lo que sería posible de otro modo.
Tipos de datos no estructurados
Uno de los tipos más comunes de datos no estructurados es el texto. El texto no estructurado se genera y recoge en una amplia gama de formas, incluyendo documentos de Word, mensajes de correo electrónico, presentaciones de PowerPoint, respuestas a encuestas, transcripciones de interacciones de centros de llamadas y publicaciones de blogs y sitios de medios sociales.
Otros tipos de datos no estructurados incluyen imágenes, archivos de audio y vídeo. Los datos de máquinas son otra categoría, que está creciendo rápidamente en muchas organizaciones. Por ejemplo, los archivos de registro de los sitios web, los servidores, las redes y las aplicaciones -sobre todo las móviles- proporcionan un tesoro de datos de actividad y rendimiento. Además, las empresas capturan y analizan cada vez más los datos de los sensores de los equipos de fabricación y otros dispositivos conectados al Internet de las cosas (IoT).
En algunos casos, estos datos pueden considerarse semiestructurados, por ejemplo, si se añaden etiquetas de metadatos para proporcionar información y contexto sobre el contenido de los datos. Sin embargo, la línea entre los datos no estructurados y los semiestructurados no es absoluta; algunos consultores de gestión de datos sostienen que todos los datos, incluso los no estructurados, tienen algún nivel de estructura.
Análisis de datos no estructurados
Por su naturaleza, los datos no estructurados no son adecuados para las aplicaciones de procesamiento de transacciones, que son competencia de los datos estructurados. En cambio, se utilizan principalmente para el BI y la analítica. Una de las aplicaciones más populares es el análisis de clientes. Los minoristas, los fabricantes y otras empresas analizan los datos no estructurados para mejorar los procesos de gestión de las relaciones con los clientes y permitir un marketing más específico; también realizan análisis de sentimientos para identificar las opiniones positivas y negativas sobre los productos, el servicio al cliente y las entidades corporativas, tal y como las expresan los clientes en las redes sociales y en otros foros.
El mantenimiento predictivo es un caso de uso analítico emergente para los datos no estructurados. Por ejemplo, los fabricantes pueden analizar los datos de los sensores para intentar detectar fallos en los equipos antes de que se produzcan en los sistemas de la planta o en los productos acabados en el campo. Las tuberías de energía también pueden supervisarse y comprobarse en busca de posibles problemas utilizando los datos no estructurados recogidos de los sensores de IoT.
El análisis de los datos de registro de los sistemas de TI pone de manifiesto las tendencias de uso, identifica las limitaciones de capacidad y señala la causa de los errores de las aplicaciones, las caídas del sistema, los cuellos de botella en el rendimiento y otros problemas. El análisis de los datos no estructurados también contribuye a los esfuerzos de cumplimiento normativo, en particular para ayudar a las organizaciones a entender qué contienen los documentos y registros corporativos.
Técnicas y plataformas de datos no estructurados
Las empresas de análisis informan de que la gran mayoría de los nuevos datos que se generan son no estructurados. En el pasado, ese tipo de información solía estar encerrada en sistemas de gestión de documentos en silos, en dispositivos de fabricación individuales y similares -lo que se conoce como datos oscuros, no disponibles para el análisis.
Pero las cosas cambiaron con el desarrollo de las plataformas de big data, principalmente los clústeres Hadoop, las bases de datos NoSQL y el servicio de almacenamiento simple de Amazon (S3). Proporcionan la infraestructura necesaria para procesar, almacenar y gestionar grandes volúmenes de datos no estructurados sin la imposición de un modelo de datos común y un único esquema de base de datos, como en las bases de datos relacionales y los almacenes de datos.
Para analizar los datos no estructurados en entornos de big data se utilizan diversas técnicas y herramientas de análisis. Las herramientas de análisis de texto buscan patrones, palabras clave y sentimientos en los datos textuales; en un nivel más avanzado, la tecnología de procesamiento del lenguaje natural es una forma de inteligencia artificial que busca comprender el significado y el contexto en el texto y el habla humana, cada vez más con la ayuda de algoritmos de aprendizaje profundo que utilizan redes neuronales para analizar los datos. Otras técnicas que desempeñan funciones en el análisis de datos no estructurados son la minería de datos, el aprendizaje automático y el análisis predictivo.