Ir al contenido principal

Big Data - Introducción

La idea de este espacio es recopilar información sobre Big Data e ir compartiendola en este espacio Del libro Big Data for Dummies. Parte I Big data consiste de datos estructurados, semi estructurados y no estructurados. Los productos tradicionales de BI no están diseñados para gestionar Big Data. En general trabajan sobre BD relacionales, bien comprendidos, para hacer análisis aplicados a snapshots de datos en lugar de la cantidad total de datos disponibles. Parte IV. Saber para qué - Uno de los puntos más importantes es saber mas o menos que vamos a hacer con la información que tenemos. SAbemos que hay mucha info pero no sabemos bien para que usarla. Esto depende de la lógica del negocio. En nuestro caso sería por ejemplo predecir cuando un alumno va a dejar. Si no estoy seguro, tendré que ir revisando las distintas áreas del negocio para ver en donde puedo trabajar para detectar problemas antes de que ocurran. Hay distintos tipos de analítica de los datos en big data: Analítica Sencilla: para explorar los datos, cuando no se está seguro de los datos de los datos que tenemos y pero creemos que tiene algún valor. Por ejemplo: - Slicing and Dicing: partir la información en pequeños pedazos que se puedan analizar desde diferentes vistas, con numerosas variables, por ejemplo sensores de lluvia. La diferencia con BI tradicional es que los datos son muchos y no sabemos a priori cuanto nos va a llevar. Además que podemos estar trabajando y visualizando datos en tiempo real. - Monitoreo Básico: monitorear gran cantidad de datos en tiempo real, por ejemplo sensar el impacto de un tema en las redes sociales o la cantidad de lluvia en distintos lugares. - Identificación de anomalías Analitica avanzada: Para análisis complejos sobre datos estructurados y no estrucuturados. La idea es encontrar patrones, hacer predicciones y procesamientos complejos. Incluye modelos complejos, text-mining, machine learning y técnicas avanzadas de DM. -Las predicciones anteriormente llevan muchísimo tiempo la corrida de los modelos. COn Big Data es posible hacer muchas corridas y trabajar con muchísimas muestras, como el caso típico de la telefonía y predecir los clientes que van a dejar de la cía. - Text Analytic: los datos no estructurados es una gran parte de big data. Es el proceso de analizar texto no estructurado, extraer información relevante y transformarla en información estrcturada que puede ser trabajada o analizada de varias maneras. Ver capítulo 13 del libro - Otros algoritmos estadísticos y de data-mining: analisis de afinidad, pronósticos avanzados, entre otros. Cual es la diferencia de aplicar Big Data? - Los datos pueden venir de varias fuentes, e incluso algunas de ellas no validadas, como un Tweet - Los datos pueden venir sucios, incompletos, o erroneos. Esto puede ser por una palabra mal escrita, un sensor roto o no apropiadamente calibrado, o datos duplicados. La estrategia de limpieza depende de la fuente y el tipo del análisis y el objetivo el mismo. - Obtener datos significativos de datos con mucho ruido. - Estos datos pueden estar en tiempo real (Capítulo 16) Es importante determinar alguna política para trabajar con este tipo de inforamción, especialmente si se puede combinar con datos validados en warehosue (Capítulo 19) Ejemplos de estudio

Entradas más populares de este blog

Entregas - Libro de Kimball - 2013

Capítulo 3 – Inventario Supermercado Tema: Arquitectura de Bus – Dimensiones conformadas – Tipos Snapshot (Periódico, Transacciones, Acumulativos) – Uso de varias granularidades Capítulo 7 – Contable – Análisis Financiero Tema: Consolidación de tablas de Hechos para combinar metricas de diferentes procesos de negocios – Snapshot periódico y transaccional – Tablas de Hechos Múltiples – Dimensiones Comunes Bertino - De Marzi - 2013 Bertino - De Marzi - 2013 - PPT Capítulo 5 – Gestión de Pedidos Tema: Distintos roles entre dimensiones – Dimensiones Lentamente Cambiantes SCD Tipo 1, 2, 3 y 6 Mahl Franco - 2013 Mahl Franco - 2013 - PPT Capítulo 6 – Gestión de Clientes Tema: Dimensión Cliente – Minidimensiones – Anexos (Outtriggers) de una dimensión - Dimensiones Lentamente Cambiantes SCD Tipo 2 Wadel - Vargar - 2013 Wadel - Vargar - 2013 - PPT Capítulo 8 – RRHH Tema: Dimensión Auditoría – Dimensión “Habilidades de la Persona” (Conjunto de palabras claves) Burriel - ...
Retomando el año y mis búsquedas de material para compartir con mis estudiantes, encontré este artículo que sintentiza perfectamente la analogía entre el manifiesto de Kimball ( que se plasma en su libro "The Data Warehouse Toolkit, 3rd Edition" ) y el desarrollo ágil. Como bien indican los autores de este artículo, agile no se agota sólo en diseñó de software sino que enfoque puede ser y es comparable con la metodología propuesta por Kimball hace más de 20 años. Hoy en día sabemos que al embarcarse en un proyecto de desarrollo es necesario mostrar resultados tangibles en producción en mucho menos que un año, que los requerimientos son variables en el tiempo y es necesario trabajar con un nivel interesante de incertidumbre. Se requiere una forma de gestionar nuestros proyectos sin la rigidez de la gestión de proyectos clásica. En este sentido Kimball se ajusta perfectamente para el desarrollo de un datawarehouse de organizaciones que piensan en grande y el reuso y mejora es...

BI presente en las JAIIO en el Concurso de Tesinas

La tesina de grado "Desarrollo de Software Libre para Datos Abiertos" desarrollada por Maxi y Ariel también fue preseleccionada para competir en las JAIIO en el concurso de tesinas. El trabajo comenzó con el trabajo final de BI del 2017. Felicitaciones chicos!!! Resumen de Tesina de Datos Abierto. Leguizamon y Angeletti