La idea de este espacio es recopilar información sobre Big Data e ir compartiendola en este espacio
Del libro Big Data for Dummies.
Parte I
Big data consiste de datos estructurados, semi estructurados y no estructurados. Los productos tradicionales de BI no están diseñados para gestionar Big Data. En general trabajan sobre BD relacionales, bien comprendidos, para hacer análisis aplicados a snapshots de datos en lugar de la cantidad total de datos disponibles.
Parte IV. Saber para qué
- Uno de los puntos más importantes es saber mas o menos que vamos a hacer con la información que tenemos. SAbemos que hay mucha info pero no sabemos bien para que usarla. Esto depende de la lógica del negocio. En nuestro caso sería por ejemplo predecir cuando un alumno va a dejar. Si no estoy seguro, tendré que ir revisando las distintas áreas del negocio para ver en donde puedo trabajar para detectar problemas antes de que ocurran.
Hay distintos tipos de analítica de los datos en big data:
Analítica Sencilla: para explorar los datos, cuando no se está seguro de los datos de los datos que tenemos y pero creemos que tiene algún valor. Por ejemplo:
- Slicing and Dicing: partir la información en pequeños pedazos que se puedan analizar desde diferentes vistas, con numerosas variables, por ejemplo sensores de lluvia. La diferencia con BI tradicional es que los datos son muchos y no sabemos a priori cuanto nos va a llevar. Además que podemos estar trabajando y visualizando datos en tiempo real.
- Monitoreo Básico: monitorear gran cantidad de datos en tiempo real, por ejemplo sensar el impacto de un tema en las redes sociales o la cantidad de lluvia en distintos lugares.
- Identificación de anomalías
Analitica avanzada:
Para análisis complejos sobre datos estructurados y no estrucuturados. La idea es encontrar patrones, hacer predicciones y procesamientos complejos.
Incluye modelos complejos, text-mining, machine learning y técnicas avanzadas de DM.
-Las predicciones anteriormente llevan muchísimo tiempo la corrida de los modelos. COn Big Data es posible hacer muchas corridas y trabajar con muchísimas muestras, como el caso típico de la telefonía y predecir los clientes que van a dejar de la cía.
- Text Analytic: los datos no estructurados es una gran parte de big data. Es el proceso de analizar texto no estructurado, extraer información relevante y transformarla en información estrcturada que puede ser trabajada o analizada de varias maneras. Ver capítulo 13 del libro
- Otros algoritmos estadísticos y de data-mining: analisis de afinidad, pronósticos avanzados, entre otros.
Cual es la diferencia de aplicar Big Data?
- Los datos pueden venir de varias fuentes, e incluso algunas de ellas no validadas, como un Tweet
- Los datos pueden venir sucios, incompletos, o erroneos. Esto puede ser por una palabra mal escrita, un sensor roto o no apropiadamente calibrado, o datos duplicados. La estrategia de limpieza depende de la fuente y el tipo del análisis y el objetivo el mismo.
- Obtener datos significativos de datos con mucho ruido.
- Estos datos pueden estar en tiempo real (Capítulo 16)
Es importante determinar alguna política para trabajar con este tipo de inforamción, especialmente si se puede combinar con datos validados en warehosue (Capítulo 19)
Ejemplos de estudio
Tecnologías Aplicadas para Business Intelligence. Licenciatura en Informática y Licenciatura en Sistemas. Facultad de Informática. Universidad Nacional de La Plata.