Tecnologías empresariales tradicionales relacionadas con Big Data
Procesamiento de transacciones en
línea (OLTP)
OLTP es un sistema de software que
procesa los datos orientados a las transacciones. El término "transacción
en línea" se refiere a la realización de una actividad en tiempo real y no
es el proceso por lotes. sistemas OLTP almacén de datos operativos que se
normaliza. Estos datos son una fuente común de datos estructurados y sirve como
entrada para muchos procesos analíticos. Grandes resultados de análisis de
datos se pueden utilizar para aumentar los datos OLTP almacenados en las bases
de datos relacionales subyacentes. sistemas OLTP, por ejemplo, un sistema de
punto de venta, se ejecutan los procesos de negocio en apoyo de las operaciones
corporativas. Como se muestra enFigura 4.1, Que
realizan transacciones en contra de una base de datos relacional.
Figura 4.1 sistemas OLTP realizan operaciones
de bases de datos simples para proporcionar tiempos de respuesta inferiores a
un segundo.
Las consultas con el apoyo de los
sistemas OLTP se componen de simples insertar, eliminar y actualizar
operaciones con fracciones de segundos los tiempos de respuesta. Los ejemplos
incluyen sistemas de reserva de billetes, la banca y punto de venta.
Procesamiento analítico en línea
(OLAP)
Sistemas de procesamiento analítico
en línea (OLAP) se utilizan para las consultas de análisis de datos de
procesamiento. OLAPs forman parte integrante de la inteligencia empresarial, la
minería de datos y los procesos de aprendizaje automático. Ellos son relevantes
para grandes volúmenes de datos, ya que pueden servir tanto como una fuente de
datos, así como un sumidero de datos que es capaz de recibir datos. Se utilizan
en análisis de diagnóstico, predictivos y prescriptivos. Como se muestra enFigura 4.2, Sistemas OLAP realizan
larga ejecución, consultas
complejas contra una base de datos multidimensional, cuya estructura está
optimizada para realizar análisis avanzados.
Figura 4.2 Los sistemas OLAP utilizan bases de
datos multidimensionales.
Los sistemas OLAP almacenar datos
históricos que se agrega y elimina la normalización para apoyar capacidad de
reporte rápido. Utilizan más bases de datos que almacenan los datos históricos
en las estructuras multidimensionales y pueden responder a consultas complejas
sobre la base de las relaciones entre los múltiples aspectos de los datos.
Sistemas de OLTP y OLAP
Un sistema de OLAP siempre es alimentado con datos de múltiples sistemas de OLTP por medio de trabajos regulares de procesamiento por lotes (Batch Processing). A diferencia de los sistemas de OLTP, el tiempo de respuesta de las consultas de OLAP puede ser de varios minutos o más, dependiendo de la complejidad de la consulta y de la cantidad de registros solicitados.

Extracto de Transform Load (ETL)
Extracto de Transform Load (ETL) es
un proceso de carga de datos desde un sistema de origen en un sistema de
destino. El sistema de origen puede ser una base de datos, un archivo plano, o
una aplicación. Del mismo modo, el sistema de destino puede ser una base de
datos o algún otro sistema de almacenamiento.
ETL representa la operación
principal a través del cual los almacenes de datos son datos de la Fed. Una
solución de grandes volúmenes de datos abarca el ETL conjunto de funciones para
convertir los datos de diferentes tipos.Figura 4.3 muestra que se obtiene primero los
datos requeridos o extrae de las fuentes, después de lo cual los extractos se
modificado o transformado por la aplicación de las normas. Por último, los datos se insertan o se carga en el sistema
de datos de destino.
Bodegas de datos digitales (Data Warehouse)
Una bodega de datos digital (Data Warehouse) es un repositorio central a nivel empresarial que contiene datos históricos y actuales. Las bodegas de datos digitales (Data Warehouse) son usadas considerablemente por la Inteligencia de negocios (BI) para realizar distintas consultas analíticas, y por lo general tienen interfaces con el sistema de OLAP para tener compatibilidad de consulta analítica, como se muestra en la Figura 1.16.
Los datos relacionados con distintas entidades empresariales y que provienen de diferentes sistemas operacionales son extraídos, validados, transformados y consolidados periódicamente en una sola base de datos. Gracias a las importaciones periódicas de datos provenientes de toda la empresa, la cantidad de datos contenidos en una sola bodega de datos digital (Data Warehouse) seguirá aumentando. Como resultado, los tiempos de respuesta de las tareas de consulta de análisis de datos (Data Analysis) ejecutadas como parte de la inteligencia de negocios (BI) pueden verse afectados.
A fin de solucionar esta deficiencia, por lo general, las bodegas de datos digitales (Data Warehouse) contienen bases de datos optimizadas, llamadas bases de datos analíticas, para gestionar las tareas de reporte y análisis de datos (Data Analysis). Una base de datos analítica puede existir como una RDBMS, como en el caso de una base de datos de OLAP.
Data marts
Un data mart es un subconjunto de datos almacenados en una bodega de datos digital (Data Warehouse) que, por lo general, pertenece a un departamento, división o línea de negocio específica. Las bodegas de datos digitales (Data Warehouse) pueden tener múltiples data marts. Como se muestra en la Figura 1.17, se recopilan y posteriormente se extraen los datos provenientes de toda la empresa y de las entidades empresariales. Las entidades particulares de un dominio son guardadas en la bodega de datos digital (Data Warehouse) mediante un proceso de ETL.
Hadoop
Hadoop es un framework de código abierto para el almacenamiento y procesamiento de datos a gran escala que técnicamente es ejecutado en hardware básico. El framework de Hadoop se ha establecido como la plataforma predeterminada de la industria para las soluciones modernas de Big Data. Puede ser utilizado como un motor de ETL o analítico para procesar grandes cantidades de datos estructurados, semiestructurados y sin estructurar. La Figura 1.18 ilustra algunas de las características de Hadoop.