Como ya he comentado previamente, tuve la oportunidad de modificar un curso de Big Data para una carrera de Ingeniería Informática. En ese contexto me pareció útil recurrir a fuentes confiables y por eso adquirí el libro Inteligencia de Negocios y Analítica de Datos: una visión global de business Intelligence & Analytics de Luis Joyanes Aguilar.
En otros comentarios he destacado diversos temas pero en esta ocasión quiero hacer una primera revisión al concepto de Analítica Big Data a partir de lo que el autor plantea en el capítulo 10: Analítica de Datos (Big Data Analytics).
Tema 1: V de Variedad.
Lo primero que se debe destacar es el aumento de los datos no estructurados, es decir aquellos que no se almacenan y gestionan en filas y columnas. Se indica que estos pueden llegar al 80% o más de la información de la empresa. Resulta evidente que procesarlos no es tan sencillo como aquellos que si son estructurados y cuya gestión ya está resuelta hace décadas mediante las Bases de Datos Relacionales (RDBMS por su sigla en inglés).
Aquí ya es posible ver el Atributo de Variedad de Big Data.
El desafío de procesar estos datos no estructurados está en el impacto en la infraestructura de cómputo representado por los computadores y servidores. Este impacto se genera en que suelen ser difíciles de analizar y, por lo tanto, requieren mucho tiempo de procesamiento.
Tema 2: V de Volumen.
La Analítica de Big Data y sus herramientas permiten el análisis de datos masivos con tamaños de:
Terabytes (equivalente a 1.000 GB de información).
Petabytes (equivalente a 1.000 TB de información, es decir 1.000.000 GB de información).
y, cada vez más, de Exabytes (equivalente 1.000 PB, es decir 1.000.000.000 GB de información).
Y todo esto de un modo rápido y económico.
Aquí ya es posible ver el Atributo de Volumen de Big Data.
Tema 3: V de Velocidad.
Por lógica el análisis de Big Data debería permitir tomar mejores decisiones y realizar acciones de un modo eficiente y rentable.
Como se puede ver en la imagen, existen distintos tipos de análisis entre los que se puede destacar:
Analítica Descriptiva: consiste en preparar y analizar datos históricos para identificar patrones y tendencias.
El análisis descriptivo responde a la pregunta: ¿qué sucedió?
Analítica Predictiva: permite descubrir patrones ocultos en datos que para un humano, aunque sea experto en el tema, no le es posible descubrir. Para encontrar estos patrones se aplica matemáticas y estadística a los datos, logrando determinar la probabilidad asociada a eventos futuros a partir del análisis de la información disponible (presente y pasado). Estos modelos predictivos emplean, entre otras, técnicas de aprendizaje automático y de minería de datos.
Responde a la pregunta: ¿qué sucederá?
Analítica Prescriptiva: utiliza los datos para prescribir (es decir proponer) aquellas acciones que incrementan la posibilidad de obtener buenos resultados para la organización que las aplica.
Responde a las preguntas: ¿por qué va a pasar?, ¿qué hacer para que pase?
La Analítica Prescriptiva sugiere decisiones para aprovechar oportunidades de futuro, o mitigar los riesgos que existan. También muestra las consecuencias de cada decisión.
Este análisis, pese a ser de grandes volúmenes de datos, debería ser hecho en un tiempo breve. Aquí ya es posible ver el atributo de Velocidad de Big Data, el mismo que ya se insinuaba en la Variedad y el Volumen.
A modo de conclusión.
Respecto a la Analítica Big Data se puede decir que ayuda a descubrir aquellos datos que han cambiado en el negocio para saber qué acciones tomar a partir de lo sucedido. Estos datos, como ya se vio son de un gran volumen, variedad y se requiere procesarlos con mucha velocidad, idealmente en tiempo real.
La analítica, entonces, es el mejor medio para descubrir información valiosa para el negocio. Por ejemplo: nuevos segmentos de clientes, identificar a los mejores proveedores, asociar productos por afinidad y entender las ventas por la estacionalidad.
El Análisis Big Data se realiza con herramientas de software utilizadas, normalmente, como parte de la disciplina de la Analítica Avanzada. Entre estas es posible destacar:
Análisis estadístico avanzado.
Análisis y modelado predictivo.
Consultas avanzadas en SQL.
Consultas e informes (quering and reporting).
Cuadro de control y de mando (dashboard y scorecards).
Minería de datos, minería de textos, minería Web y minería social.
Optimización.
Sensibilización.
Visualización de datos.
Un tema muy interesante para abordar, especialmente dados los nichos de negocios descubiertos a raíz de análisis que se han desarrollado hasta ahora. También es un desafío importante. No es casualidad que las industrias que están más abiertas a las nuevas tecnologías han logrado desplazar a las que continúan guiándose por meros instintos, demostrando la necesidad e importancia de los analistas de datos, quienes deben tener un rol preponderante en las decisiones que se tomen para el futuro de la empresa/industria.