jueves, 10 de agosto de 2017

1.4 Big Data Análisis fundamental, analítica y tipos de aprendizaje automático (Machine Learning)

Tipos de análisis de datos (Data Analysis)

En la sección Terminología y conceptos fundamentales se presentó el término “análisis
de datos (Data Analysis)” y se mostró un ejemplo sencillo. Las secciones a continuación
describen con mayor profundidad los siguientes tipos básicos de análisis de datos (Data
Analysis):

 Análisis cuantitativo
 Análisis cualitativo
 Minería de datos (Data Mining)

Análisis cuantitativo

El análisis cuantitativo es una técnica de análisis de datos (Data Analysis) orientada a
cuantificar patrones y correlaciones hallados en los datos. Esta técnica implica el análisis
de un gran número de observaciones de un dataset con base en técnicas estadísticas.
Debido al amplio tamaño de la muestra, los resultados pueden aplicarse de manera
general a todo el dataset.
Los resultados del análisis cuantitativo son de naturaleza absoluta y, por lo tanto, pueden
ser usados para realizar comparaciones numéricas. Por ejemplo, en un análisis
cuantitativo de las ventas de helados, se puede encontrar que un aumento de 5 grados
en la temperatura incrementa las ventas en un 15%.

1.3 Big Data Tecnologia Empresarial Tradicional

Tecnologías empresariales tradicionales relacionadas con Big Data



Procesamiento de transacciones en línea (OLTP)

OLTP es un sistema de software que procesa los datos orientados a las transacciones. El término "transacción en línea" se refiere a la realización de una actividad en tiempo real y no es el proceso por lotes. sistemas OLTP almacén de datos operativos que se normaliza. Estos datos son una fuente común de datos estructurados y sirve como entrada para muchos procesos analíticos. Grandes resultados de análisis de datos se pueden utilizar para aumentar los datos OLTP almacenados en las bases de datos relacionales subyacentes. sistemas OLTP, por ejemplo, un sistema de punto de venta, se ejecutan los procesos de negocio en apoyo de las operaciones corporativas. Como se muestra enFigura 4.1, Que realizan transacciones en contra de una base de datos relacional.





Figura 4.1 sistemas OLTP realizan operaciones de bases de datos simples para proporcionar tiempos de respuesta inferiores a un segundo.



Las consultas con el apoyo de los sistemas OLTP se componen de simples insertar, eliminar y actualizar operaciones con fracciones de segundos los tiempos de respuesta. Los ejemplos incluyen sistemas de reserva de billetes, la banca y punto de venta.


Procesamiento analítico en línea (OLAP)

Sistemas de procesamiento analítico en línea (OLAP) se utilizan para las consultas de análisis de datos de procesamiento. OLAPs forman parte integrante de la inteligencia empresarial, la minería de datos y los procesos de aprendizaje automático. Ellos son relevantes para grandes volúmenes de datos, ya que pueden servir tanto como una fuente de datos, así como un sumidero de datos que es capaz de recibir datos. Se utilizan en análisis de diagnóstico, predictivos y prescriptivos. Como se muestra enFigura 4.2, Sistemas OLAP realizan
larga ejecución, consultas complejas contra una base de datos multidimensional, cuya estructura está optimizada para realizar análisis avanzados.




Figura 4.2 Los sistemas OLAP utilizan bases de datos multidimensionales.

Los sistemas OLAP almacenar datos históricos que se agrega y elimina la normalización para apoyar capacidad de reporte rápido. Utilizan más bases de datos que almacenan los datos históricos en las estructuras multidimensionales y pueden responder a consultas complejas sobre la base de las relaciones entre los múltiples aspectos de los datos.

Sistemas de OLTP y OLAP


Un sistema de OLAP siempre es alimentado con datos de múltiples sistemas de OLTP por medio de trabajos regulares de procesamiento por lotes (Batch Processing). A diferencia de los sistemas de OLTP, el tiempo de respuesta de las consultas de OLAP puede ser de varios minutos o más, dependiendo de la complejidad de la consulta y de la cantidad de registros solicitados.





Extracto de Transform Load (ETL)

Extracto de Transform Load (ETL) es un proceso de carga de datos desde un sistema de origen en un sistema de destino. El sistema de origen puede ser una base de datos, un archivo plano, o una aplicación. Del mismo modo, el sistema de destino puede ser una base de datos o algún otro sistema de almacenamiento.

ETL representa la operación principal a través del cual los almacenes de datos son datos de la Fed. Una solución de grandes volúmenes de datos abarca el ETL conjunto de funciones para convertir los datos de diferentes tipos.Figura 4.3 muestra que se obtiene primero los datos requeridos o extrae de las fuentes, después de lo cual los extractos se modificado o transformado por la aplicación de las normas. Por último, los datos se insertan o se carga en el sistema de datos de destino.





Bodegas de datos digitales (Data Warehouse)


Una bodega de datos digital (Data Warehouse) es un repositorio central a nivel empresarial que contiene datos históricos y actuales. Las bodegas de datos digitales (Data Warehouse) son usadas considerablemente por la Inteligencia de negocios (BI) para realizar distintas consultas analíticas, y por lo general tienen interfaces con el sistema de OLAP para tener compatibilidad de consulta analítica, como se muestra en la Figura 1.16.

Los datos relacionados con distintas entidades empresariales y que provienen de diferentes sistemas operacionales son extraídos, validados, transformados y consolidados periódicamente en una sola base de datos. Gracias a las importaciones periódicas de datos provenientes de toda la empresa, la cantidad de datos contenidos en una sola bodega de datos digital (Data Warehouse) seguirá aumentando. Como resultado, los tiempos de respuesta de las tareas de consulta de análisis de datos (Data Analysis) ejecutadas como parte de la inteligencia de negocios (BI) pueden verse afectados.

A fin de solucionar esta deficiencia, por lo general, las bodegas de datos digitales (Data Warehouse) contienen bases de datos optimizadas, llamadas bases de datos analíticas, para gestionar las tareas de reporte y análisis de datos (Data Analysis). Una base de datos analítica puede existir como una RDBMS, como en el caso de una base de datos de OLAP.



Data marts

Un data mart es un subconjunto de datos almacenados en una bodega de datos digital (Data Warehouse) que, por lo general, pertenece a un departamento, división o línea de negocio específica. Las bodegas de datos digitales (Data Warehouse) pueden tener múltiples data marts. Como se muestra en la Figura 1.17, se recopilan y posteriormente se extraen los datos provenientes de toda la empresa y de las entidades empresariales. Las entidades particulares de un dominio son guardadas en la bodega de datos digital (Data Warehouse) mediante un proceso de ETL.

Hadoop

Hadoop es un framework de código abierto para el almacenamiento y procesamiento de datos a gran escala que técnicamente es ejecutado en hardware básico. El framework de Hadoop se ha establecido como la plataforma predeterminada de la industria para las soluciones modernas de Big Data. Puede ser utilizado como un motor de ETL o analítico para procesar grandes cantidades de datos estructurados, semiestructurados y sin estructurar. La Figura 1.18 ilustra algunas de las características de Hadoop.