Ir al contenido principal

Big Data - Introducción

La idea de este espacio es recopilar información sobre Big Data e ir compartiendola en este espacio Del libro Big Data for Dummies. Parte I Big data consiste de datos estructurados, semi estructurados y no estructurados. Los productos tradicionales de BI no están diseñados para gestionar Big Data. En general trabajan sobre BD relacionales, bien comprendidos, para hacer análisis aplicados a snapshots de datos en lugar de la cantidad total de datos disponibles. Parte IV. Saber para qué - Uno de los puntos más importantes es saber mas o menos que vamos a hacer con la información que tenemos. SAbemos que hay mucha info pero no sabemos bien para que usarla. Esto depende de la lógica del negocio. En nuestro caso sería por ejemplo predecir cuando un alumno va a dejar. Si no estoy seguro, tendré que ir revisando las distintas áreas del negocio para ver en donde puedo trabajar para detectar problemas antes de que ocurran. Hay distintos tipos de analítica de los datos en big data: Analítica Sencilla: para explorar los datos, cuando no se está seguro de los datos de los datos que tenemos y pero creemos que tiene algún valor. Por ejemplo: - Slicing and Dicing: partir la información en pequeños pedazos que se puedan analizar desde diferentes vistas, con numerosas variables, por ejemplo sensores de lluvia. La diferencia con BI tradicional es que los datos son muchos y no sabemos a priori cuanto nos va a llevar. Además que podemos estar trabajando y visualizando datos en tiempo real. - Monitoreo Básico: monitorear gran cantidad de datos en tiempo real, por ejemplo sensar el impacto de un tema en las redes sociales o la cantidad de lluvia en distintos lugares. - Identificación de anomalías Analitica avanzada: Para análisis complejos sobre datos estructurados y no estrucuturados. La idea es encontrar patrones, hacer predicciones y procesamientos complejos. Incluye modelos complejos, text-mining, machine learning y técnicas avanzadas de DM. -Las predicciones anteriormente llevan muchísimo tiempo la corrida de los modelos. COn Big Data es posible hacer muchas corridas y trabajar con muchísimas muestras, como el caso típico de la telefonía y predecir los clientes que van a dejar de la cía. - Text Analytic: los datos no estructurados es una gran parte de big data. Es el proceso de analizar texto no estructurado, extraer información relevante y transformarla en información estrcturada que puede ser trabajada o analizada de varias maneras. Ver capítulo 13 del libro - Otros algoritmos estadísticos y de data-mining: analisis de afinidad, pronósticos avanzados, entre otros. Cual es la diferencia de aplicar Big Data? - Los datos pueden venir de varias fuentes, e incluso algunas de ellas no validadas, como un Tweet - Los datos pueden venir sucios, incompletos, o erroneos. Esto puede ser por una palabra mal escrita, un sensor roto o no apropiadamente calibrado, o datos duplicados. La estrategia de limpieza depende de la fuente y el tipo del análisis y el objetivo el mismo. - Obtener datos significativos de datos con mucho ruido. - Estos datos pueden estar en tiempo real (Capítulo 16) Es importante determinar alguna política para trabajar con este tipo de inforamción, especialmente si se puede combinar con datos validados en warehosue (Capítulo 19) Ejemplos de estudio

Entradas más populares de este blog

Retomando el año y mis búsquedas de material para compartir con mis estudiantes, encontré este artículo que sintentiza perfectamente la analogía entre el manifiesto de Kimball ( que se plasma en su libro "The Data Warehouse Toolkit, 3rd Edition" ) y el desarrollo ágil. Como bien indican los autores de este artículo, agile no se agota sólo en diseñó de software sino que enfoque puede ser y es comparable con la metodología propuesta por Kimball hace más de 20 años. Hoy en día sabemos que al embarcarse en un proyecto de desarrollo es necesario mostrar resultados tangibles en producción en mucho menos que un año, que los requerimientos son variables en el tiempo y es necesario trabajar con un nivel interesante de incertidumbre. Se requiere una forma de gestionar nuestros proyectos sin la rigidez de la gestión de proyectos clásica. En este sentido Kimball se ajusta perfectamente para el desarrollo de un datawarehouse de organizaciones que piensan en grande y el reuso y mejora es...
Probando heatmap! Tarjeta de Bebe Presentación de SIPU Lorem ipsum dolor sit amet, consectetur adipiscing elit. Pellentesque rutrum turpis at ex posuere tristique. Nulla justo ipsum, bibendum non sapien sit amet, tempor blandit libero. Ut at nibh sapien. Nulla non sollicitudin ante, eget faucibus sem. Vivamus convallis purus nec orci malesuada lobortis. Vestibulum aliquet ligula nec arcu dignissim, eu imperdiet elit mollis. Proin feugiat risus semper nisi lacinia, eu tincidunt lorem congue. Pellentesque suscipit, massa eget facilisis blandit, turpis lacus aliquet lacus, pellentesque egestas risus urna pharetra risus. Integer vulputate at orci ac commodo. Nam ultrices et diam id ornare. Morbi hendrerit elit nulla, ac convallis risus euismod in. Fusce sed ligula nulla. Nunc lacinia diam eget risus laoreet, quis accumsan mauris sagittis. Nulla facilisi.

Muy útil para los trabajos finales... La síntesis

Me encanta este blog de Innovación e Inteligencia colectiva De Amalio Rey. Y entre sus posts encontré este que les va a venir genial para la preparación de sus presentaciones y para escribir su informe de tesina también. Se los dejo por acá La síntesis: esa habilidad tan descuidada y como mejorarla Y despúes cuenten como va.