La idea de este espacio es recopilar información sobre Big Data e ir compartiendola en este espacio
Del libro Big Data for Dummies.
Parte I
Big data consiste de datos estructurados, semi estructurados y no estructurados. Los productos tradicionales de BI no están diseñados para gestionar Big Data. En general trabajan sobre BD relacionales, bien comprendidos, para hacer análisis aplicados a snapshots de datos en lugar de la cantidad total de datos disponibles.
Parte IV. Saber para qué
- Uno de los puntos más importantes es saber mas o menos que vamos a hacer con la información que tenemos. SAbemos que hay mucha info pero no sabemos bien para que usarla. Esto depende de la lógica del negocio. En nuestro caso sería por ejemplo predecir cuando un alumno va a dejar. Si no estoy seguro, tendré que ir revisando las distintas áreas del negocio para ver en donde puedo trabajar para detectar problemas antes de que ocurran.
Hay distintos tipos de analítica de los datos en big data:
Analítica Sencilla: para explorar los datos, cuando no se está seguro de los datos de los datos que tenemos y pero creemos que tiene algún valor. Por ejemplo:
- Slicing and Dicing: partir la información en pequeños pedazos que se puedan analizar desde diferentes vistas, con numerosas variables, por ejemplo sensores de lluvia. La diferencia con BI tradicional es que los datos son muchos y no sabemos a priori cuanto nos va a llevar. Además que podemos estar trabajando y visualizando datos en tiempo real.
- Monitoreo Básico: monitorear gran cantidad de datos en tiempo real, por ejemplo sensar el impacto de un tema en las redes sociales o la cantidad de lluvia en distintos lugares.
- Identificación de anomalías
Analitica avanzada:
Para análisis complejos sobre datos estructurados y no estrucuturados. La idea es encontrar patrones, hacer predicciones y procesamientos complejos.
Incluye modelos complejos, text-mining, machine learning y técnicas avanzadas de DM.
-Las predicciones anteriormente llevan muchísimo tiempo la corrida de los modelos. COn Big Data es posible hacer muchas corridas y trabajar con muchísimas muestras, como el caso típico de la telefonía y predecir los clientes que van a dejar de la cía.
- Text Analytic: los datos no estructurados es una gran parte de big data. Es el proceso de analizar texto no estructurado, extraer información relevante y transformarla en información estrcturada que puede ser trabajada o analizada de varias maneras. Ver capítulo 13 del libro
- Otros algoritmos estadísticos y de data-mining: analisis de afinidad, pronósticos avanzados, entre otros.
Cual es la diferencia de aplicar Big Data?
- Los datos pueden venir de varias fuentes, e incluso algunas de ellas no validadas, como un Tweet
- Los datos pueden venir sucios, incompletos, o erroneos. Esto puede ser por una palabra mal escrita, un sensor roto o no apropiadamente calibrado, o datos duplicados. La estrategia de limpieza depende de la fuente y el tipo del análisis y el objetivo el mismo.
- Obtener datos significativos de datos con mucho ruido.
- Estos datos pueden estar en tiempo real (Capítulo 16)
Es importante determinar alguna política para trabajar con este tipo de inforamción, especialmente si se puede combinar con datos validados en warehosue (Capítulo 19)
Ejemplos de estudio
Capítulo 3 – Inventario Supermercado Tema: Arquitectura de Bus – Dimensiones conformadas – Tipos Snapshot (Periódico, Transacciones, Acumulativos) – Uso de varias granularidades Capítulo 7 – Contable – Análisis Financiero Tema: Consolidación de tablas de Hechos para combinar metricas de diferentes procesos de negocios – Snapshot periódico y transaccional – Tablas de Hechos Múltiples – Dimensiones Comunes Bertino - De Marzi - 2013 Bertino - De Marzi - 2013 - PPT Capítulo 5 – Gestión de Pedidos Tema: Distintos roles entre dimensiones – Dimensiones Lentamente Cambiantes SCD Tipo 1, 2, 3 y 6 Mahl Franco - 2013 Mahl Franco - 2013 - PPT Capítulo 6 – Gestión de Clientes Tema: Dimensión Cliente – Minidimensiones – Anexos (Outtriggers) de una dimensión - Dimensiones Lentamente Cambiantes SCD Tipo 2 Wadel - Vargar - 2013 Wadel - Vargar - 2013 - PPT Capítulo 8 – RRHH Tema: Dimensión Auditoría – Dimensión “Habilidades de la Persona” (Conjunto de palabras claves) Burriel - ...