Ir al contenido principal

Big Data - Introducción

La idea de este espacio es recopilar información sobre Big Data e ir compartiendola en este espacio Del libro Big Data for Dummies. Parte I Big data consiste de datos estructurados, semi estructurados y no estructurados. Los productos tradicionales de BI no están diseñados para gestionar Big Data. En general trabajan sobre BD relacionales, bien comprendidos, para hacer análisis aplicados a snapshots de datos en lugar de la cantidad total de datos disponibles. Parte IV. Saber para qué - Uno de los puntos más importantes es saber mas o menos que vamos a hacer con la información que tenemos. SAbemos que hay mucha info pero no sabemos bien para que usarla. Esto depende de la lógica del negocio. En nuestro caso sería por ejemplo predecir cuando un alumno va a dejar. Si no estoy seguro, tendré que ir revisando las distintas áreas del negocio para ver en donde puedo trabajar para detectar problemas antes de que ocurran. Hay distintos tipos de analítica de los datos en big data: Analítica Sencilla: para explorar los datos, cuando no se está seguro de los datos de los datos que tenemos y pero creemos que tiene algún valor. Por ejemplo: - Slicing and Dicing: partir la información en pequeños pedazos que se puedan analizar desde diferentes vistas, con numerosas variables, por ejemplo sensores de lluvia. La diferencia con BI tradicional es que los datos son muchos y no sabemos a priori cuanto nos va a llevar. Además que podemos estar trabajando y visualizando datos en tiempo real. - Monitoreo Básico: monitorear gran cantidad de datos en tiempo real, por ejemplo sensar el impacto de un tema en las redes sociales o la cantidad de lluvia en distintos lugares. - Identificación de anomalías Analitica avanzada: Para análisis complejos sobre datos estructurados y no estrucuturados. La idea es encontrar patrones, hacer predicciones y procesamientos complejos. Incluye modelos complejos, text-mining, machine learning y técnicas avanzadas de DM. -Las predicciones anteriormente llevan muchísimo tiempo la corrida de los modelos. COn Big Data es posible hacer muchas corridas y trabajar con muchísimas muestras, como el caso típico de la telefonía y predecir los clientes que van a dejar de la cía. - Text Analytic: los datos no estructurados es una gran parte de big data. Es el proceso de analizar texto no estructurado, extraer información relevante y transformarla en información estrcturada que puede ser trabajada o analizada de varias maneras. Ver capítulo 13 del libro - Otros algoritmos estadísticos y de data-mining: analisis de afinidad, pronósticos avanzados, entre otros. Cual es la diferencia de aplicar Big Data? - Los datos pueden venir de varias fuentes, e incluso algunas de ellas no validadas, como un Tweet - Los datos pueden venir sucios, incompletos, o erroneos. Esto puede ser por una palabra mal escrita, un sensor roto o no apropiadamente calibrado, o datos duplicados. La estrategia de limpieza depende de la fuente y el tipo del análisis y el objetivo el mismo. - Obtener datos significativos de datos con mucho ruido. - Estos datos pueden estar en tiempo real (Capítulo 16) Es importante determinar alguna política para trabajar con este tipo de inforamción, especialmente si se puede combinar con datos validados en warehosue (Capítulo 19) Ejemplos de estudio

Entradas más populares de este blog

Una infografía de BI que me pareció muy ilustrativa de los conceptos que vemos en la materia. By DOMO

Características de un DSS (Decision Support Systems)

Un Sistema de Soporte a la Decisión es una forma de modelar datos y hacer decisiones de calidad basadas en estos. Tomar la decisión correcta en los negocios se suele basar en la calidad de sus datos y su capacidad para filtrar y analizar los datos para encontrar las tendencias en las cuales se puedan crear soluciones y estrategias. ____________________________GRUPO 1___________________________________ GRUPO 1 Maximo Zarza - Alan Featherston  http://es.wikipedia.org/wiki/ Sistemas_de_soporte_a_decisiones  El concepto de sistema de soporte a las decisiones (DSS por sus siglas en inglés Decision Support System) es muy amplio, debido a que hay muchos enfoques para la toma de decisiones y debido a la extensa gama de ámbitos en los cuales se toman. Estos sistemas de apoyo son del tipo OLAP o de minería de datos, que proporcionan información y soporte para tomar una decisión. Un DSS puede adoptar muchas formas diferentes. En general, podemos decir que un DSS es un sistema informático

BI presente en las JAIIO 2019 - Concursos estudiantiles!

El pasado 19 de septiembre Jonathan Loscalzo participó del Concurso de Trabajos Estudiantiles de las JAIIO en Salta con el trabajo final que desarrollo para BI. Les dejo el poster que resume las ideas principales del artículo. Felicitaciones!!!