El Big Data se refiere a complejos conjuntos de datos caracterizados
por su gran diversidad (las tecnologías han incorporado nuevas fuentes y
tipos de datos como los weblogs, sensores incorporados en dispositivos,
búsquedas en Internet, las redes sociales, dispositivos GPS y de
radiofrecuencia, registros de centros de llamadas, etc), con una gran proporcionalidad de datos no estructurados (los no
estructurados y los semi estructurados son el 80% de los datos), cuyo tamaño o volumen es de gigantescas
proporciones (impensables hace pocas décadas, que actualmente se le usa
como referencia el que sea a partir de los 30 terabytes) y cuya increíble velocidad de generación y de crecimiento obliga a las
herramientas y procesos utilizados a ser igualmente veloces en capturarla
(evitando perder información),
almacenarla y procesarla (lo que dejó obsoleto las técnicas y herramientas
de la tradicional Inteligencia de Negocio) facilitando
el acceso inmediato y desde distintos dispositivos y lograr detectar patrones y
proyecciones para generar información útil para la toma de decisiones.
Así pues, claramente resaltan las
características de Volumen, Variedad y Velocidad (que se convirtieron en las primeras referencias del Big
Data). En el aspecto de la Variedad de fuentes queda implícito otra
característica, la Versatilidad, que
gracias a los protocolos de comunicación permite obtener datos o proyectar
información o generar procesos automáticos en múltiples dispositivos. En el
aspecto de la Velocidad en la data también hay que considerar la data que se
caracteriza por su Volatilidad, pues
tiene una corta vigencia (el dato posee valor o genera valor por poco tiempo
debido a que cambia con rapidez)
Es complejo y se requiere de
grandes recursos para recolectar, limpiar, integrar y obtener datos de alta
calidad de forma rápida. Se necesita mucho tiempo para transformar los tipos no
estructurados en tipos estructurados y procesar esos datos. Pero la capacidad
de poder integrar y modelar tal variedad y cantidad de datos no estructurados
permitió a las empresas buscar respuestas a preguntas impensables de plantear
antes del Big Data, pudiendo detectar tendencias y hacer predicciones,
permitiendo a las empresas detectar situaciones problemáticas más realistas
(más complejas), así como conseguir vías de actuación más eficientes, además de
poder detectar nuevas oportunidades (que serían invisibles bajo las técnicas
anteriores).
Pero el manejo de grandes
cantidades de datos no implica necesariamente que la información obtenida de
ellos será confiable o adecuada para la organización; por esa razón se añaden 2
nuevas características: la Veracidad
(poder medir la calidad o veracidad de la data) y el Valor (la información obtenida debe permitir a la organización
llevarla a conseguir rendimientos).
La búsqueda por mejorar el
análisis de la data creó la característica de Variabilidad, para realizar un análisis semántico, que permitiera
poder interpretar correctamente la relevancia o significado del dato según su
contexto o entorno (un mismo comportamiento puede tener distintas causas, puede
repetirse en diferentes momentos y tener diferentes significados).
Y finalmente, la Visualización es la característica que
falta. La información debe ser adecuadamente visualizada o representada para su
fácil interpretación.
Francisco Castañé
Técnico en Informática
No hay comentarios:
Publicar un comentario