DEFINICIÓNES
BIG DATA:
Es un campo orientado al análisis, procesamiento y almacenamiento de grandes colecciones de datos que, con frecuencia, provienen de distintas fuentes.
Las soluciones de Big Data pueden procesar grandes cantidades de datos que son recibidos a distintas velocidades, son muy variados y tienen numerosas incompatibilidades.
DATASET:
Grupos de datos relacionados. Cada grupo o miembro es llamado
datum y comparte el mismo conjunto de atributos o propiea<de los otros miembore en el mismo
dataset.
Una colección de archivos de imágenes en un directorio.
Tweets almacenados en un archivo plano
Un resumen de filas de una tabla almacenado en un archivo con formato CSV
Observaciones del clima almacenadas como archivos XML.
BENEFICIOS
Los resultados del procesamiento de la solución de Big Data pueden generar una gran variedad
de conocimientos y beneficios, por ejemplo:
- Optimización operativa
- Inteligencia accionable
- Identificación de nuevos mercados
- Predicciones precisas
- Detección de errores y fraudes
- Registros más detallados
- Mejor toma de decisiones
- Descubrimientos importantes
ANALISIS DE DATOS (DATA ANALYSIS):
Proceso de examinar datos para encontrar echos, relaciones, patrones, explicaciones y/o tendencias. El objetivo final del análisis de datos (Data Analysis) es respaldar la toma de decisiones.
ANALITICA DE DATOS (DATA ANALYTICS):
La analítica es la disciplina encargada
comprender los datos, analizándolos mediante una
variedad de técnicas científicas y herramientas automatizadas, enfocada en el descubrimiento
de patrones y correlaciones ocultos.
Por lo general, el proceso de analítica implica filtrar grandes cantidades de datos sin procesar
ni estructurar, con el fin de extraer información significativa que pueda servir como datos de
entrada para identificar patrones, enriquecer los datos empresariales actuales o realizar
búsquedas a gran escala.
En general, la analítica facilita la
toma de decisiones determinadas por datos, con un respaldo científico, de manera que estas decisiones puedan estar basadas en datos concretos y no solamente en la experiencia o la intuición.
- En el ámbito científico, la analítica puede ayudar a identificar la causa de un fenómeno y mejorar la precisión de las predicciones.
- En los entornos orientados a los negocios, los resultados de la analítica pueden disminuir
- los costos operativos y facilitar la toma estratégica de decisiones.
- En los entornos basados en servicios —como en las organizaciones del sector público—, la analítica puede ayudar a mejorar el enfoque orientado en la prestación de servicios de alta calidad, disminuyendo los costos.
Análisis Descriptivo: Responde a preguntas sobre eventos que ya ocurrieron. Los reportes son generalmente estáticos y muestran datos históricos que son presentados en forma de data grids o charts.
• ¿Cuál fue el volumen de ventas en los últimos 12 meses?
•
¿Cuál es el número de llamadas de apoyo recibidos según la clasificación de la
gravedad y la localización geográfica?
• ¿Cuál es la comisión mensual obtenido por cada agente de
ventas?
Análisis de Diagnóstico: Ayudan a determinar la causa de un fenómeno que ocurrió en el pasado usando preguntas que se enfocan en la razón del comportamiento del fenómeno.
Proveen más valor que el análisis descriptivo, pero requieren mas avanzadas habilidades.
Son vistos via herramientas de visualización interactiva, que permiten a los usuarios determinar patrones y tendencias.
• ¿Por qué las ventas del 2T menos que las ventas del 1T?
•
¿Por qué ha habido más llamadas de apoyo procedentes de la región oriental que
occidental de la región?
• ¿Por qué hubo un aumento en las tasas de
reingreso de los pacientes durante los últimos tres meses?
Análisis Predictivo: El objetivo es predecir un resultado basado en la historia conocida. Por
ejemplo, si los clientes responderán positiva o negativamente a
acciones comerciales determinadas. Predecir la probabilidad de un
cliente de abandonar el servicio o producto basado en el estudio de las
características de los clientes que ya abandonaron
Este tipo de análisis
de implica el uso de grandes conjuntos de datos que constan de datos internos y
externos y de diversas técnicas de análisis de datos. Proporciona un mayor
valor y requiere un conjunto de habilidades más avanzadas que las dos analíticas
descriptivos y de diagnóstico. Las herramientas utilizadas complejidades
estadísticos de base generalmente abstractos, proporcionando interfaces de
front-end fáciles de usar, como se muestra
•
¿Cuáles son las probabilidades de que un cliente incumplimiento de un préstamo
si han perdido un pago mensual?
• ¿Cuál será la tasa de supervivencia de los pacientes si
se administra el medicamento B en lugar del medicamento A?
•
Si un cliente ha comprado los productos A y B, ¿cuáles son las posibilidades de
que también la compra del producto C?
Análisis Prescriptivo: Se encarga de recomendar mejores acciones,
basado en los resultados de modelos predictivos y descriptivos; y además
presentando el potencial impacto de los resultados de las acciones
recomendadas
• Entre los tres fármacos, que uno proporciona los mejores
resultados?
• ¿Cuándo es el mejor momento para el comercio una acción
en particular?
Varios resultados se calculan y se
sugiere el mejor curso de acción para cada resultado. El enfoque se desplaza de
motivos de asesoramiento y puede incluir la simulación de diferentes
escenarios.
Este tipo de análisis de datos internos
incorpora con datos externos. Los datos internos pueden incluir datos de ventas
actuales e históricos, información de clientes, datos de productos y reglas de
negocio. Los datos externos pueden incluir datos de medios sociales, las
previsiones meteorológicas y gobierno- producido datos demográficos. analíticas
prescriptivos implican el uso de reglas de negocio y grandes cantidades de
datos internos y externos para simular los resultados y prescribir el mejor
curso de acción, como se muestra
BIG ANALITICS
Examinar datos masivos para encontrar patrones, correlaciones, tendencias de mercados y preferencias de los clientes.
Un analista de datos apoya la toma de decisiones en una organización al hacer esto genera inteligencia de negocios, sin embargo se dedica a datos estructurados y normalmente fuera de linea. Big data evoluciona la inteligencia de negocios porque brinda el cruce de lo convencional con datos no estructurados en tiempo real, mejorando la velocidad del análisis lo que permite a los directores actuar de inmediato para:
- Reducir costos de operación
- Mejorar la toma de decisiones
- Ofrecer nuevos productos y servicios
Oportunidades de ganancias, mejoras de servicios y genera eficiencia en las operaciones para dar ventaja sobre la competencia.
Científico de datos son los encargados de desarrollar modelos
Data lake: Es un repositorio central de datos brutos en sus formato natural, que facilita la colección de datos en vairias formas y esquemas, usualmente o object blobs (
Objects, objetos binarios grande) o archivos.
Teniendo esta arquitectura se tienen dos opociones: filtrar una parte del Data lake y manejar los datos procesados en un datawarehouse o desde la plataforma de los closter con herramientas que manejen lotes de información.
Web Scraping
Tecnicas para obtener datos de paginas web
Cuando se necesita datos de una página se copiar, pero requieren limpieza
Regex : para paginas web que no estan en formato html
Algoritmos de mineria de datos: Programas que detentan scripts y extraen su contenido
Parseo de html: Con ayuda de ciertos lenguajes recupera el contenido de paginas html
Aplicaciones o complementos: Son complementos o programas dedicados a hacer web scraping
Puede ser util para complementar analisis de negocios o tener más datos a utilizar en las aplicaciones
INTELIGENCIA DE NEGOCIOS (BI):
Es el proceso de comprender el funcionamiento de una empresa —para mejorar la toma de decisiones— al analizar los datos externos y los datos generados por sus procesos empresariales.
En la Inteligencia de negocios (BI), la analítica es aplicada a grandes cantidades de datos en toda la empresa.
Los resultados del
análisis pueden ser usados por la administración para dirigir el negocio en
un esfuerzo para corregir los problemas detectados o de otra manera mejorar el
desempeño organizacional. BI se aplica al análisis de grandes cantidades de
datos en toda la empresa, que por lo general se ha consolidado en un almacén de
datos de la empresa para ejecutar consultas analíticas
La
salida de BI puede ser la superficie de un panel de control que permite a los
administradores para acceder y analizar los resultados y potencialmente refinar
las consultas analíticas para estudiar más a fondo los datos.
INDICADORES CLAVE DE DESEMPEÑO (KPI)
Es una forma de medir el éxito dentro de un contexto particular. Los KPI están estrechamente relacionados con los objetivos estratégicos de una empresa y generalmente son utilizados para:
- Identificar áreas problemáticas, con el fin de adoptar medidas correctivas
- Lograr el cumplimiento normativo
Cada KPI está basado en un indicador cuantificable que es identificado y acordado de antemano.
TIPOS DE BASES DE DATOS
SQL(ENTIDAD RELACIÓN)
Relacionales
Orientadas a objetos
Re lacionales orientadas a objetos
NOSQL
- Clave Valor ( Colección de pares de claves y valores)
- Documentos (Datos semistrucuturadas JSON, BSON (binario y el doble de tipo de datos que JSON)
- Columnas (Diseñadas para realizar consultas y manejar grande volumenes)
- Familias por columnas (cada fila puede tener una config diferente y cada registro es una columna de datos
- Grafos (La informacion se presenta como nodos en un grafo con relaciones entre sus aristas)
Ventajas: El volumen de los datos crecen rapidamente, escalabilidad, demanda elevada por los usuarios, el esquema de los datos no es homogeneo, codigo abierto.
Desventas (soporte tecnico limitado, tecnologia nueva muchas actualizaciones ymejoras, herramientos no compatibles, pocos administradores y desarrolladores.
CARACTERÍSTICAS (5Vs)
VOLUMEN (VOLUME):
- Cualquier canción ocupa entre 2 y 9 MB
- Los DVD tienen 4,4 GB de capacidad. Podríamos poner
dentro unas 4 películas de buena calidad o 700-800 fotos con una calidad
aceptable y cabrían unas 1000 canciones.
- En
un disco duro de nuestro ordenador que ronda los 500 GB de media (los
hay de más y menos capacidad) cabrían unas 400 películas de buena
calidad, unas 102.400 fotos, 100.000 canciones y 1.048.576 de libros.
-
- Cada dia se generan 2.5 exabytes de datos (250 millones de DVDs)
- Facebook 500 Tera bytes/día
- Telescopio SKA 10 petabytes/hora
- twitter 100.000 tweets / min
VELOCIDAD (VELOCITY):
VARIEDAD (VARIETY)
1.-
Web and Social Media: Incluye contenido web e información que es obtenida de las redes sociales como Facebook, Twitter, LinkedIn, etc, blogs.
2.-
Machine-to-Machine (M2M):
M2M se refiere a las tecnologías que permiten conectarse a otros
dispositivos. M2M utiliza dispositivos como sensores o medidores que
capturan algún evento en particular (velocidad, temperatura, presión,
variables meteorológicas, variables químicas como la salinidad, etc.)
los cuales transmiten a través de redes alámbricas, inalámbricas o
híbridas a otras aplicaciones que traducen estos eventos en información
significativa.
3.-
Big Transaction Data: Incluye
registros de facturación, en telecomunicaciones registros detallados de
las llamadas (CDR), etc. Estos datos transaccionales están disponibles
en formatos tanto semiestructurados como no estructurados.
4.-
Biometrics:
Información biométrica en la que se incluye huellas digitales, escaneo
de la retina, reconocimiento facial, genética, etc. En el área de
seguridad e inteligencia, los datos biométricos han sido información
importante para las agencias de investigación.
5.-
Human Generated:
Las personas generamos diversas cantidades de datos como la información
que guarda un call center al establecer una llamada telefónica, notas
de voz, correos electrónicos, documentos electrónicos, estudios médicos,
etc.
https://www.ibm.com/developerworks/ssa/local/im/que-es-big-data/Big-Data-Types.jpg
- Datos estructurados: datos que tienen bien definidos su
longitud y su formato, como las fechas, los números o las cadenas de
caracteres. Se almacenan en tablas. Un ejemplo son las bases de datos relacionales y las hojas de cálculo.
-
- Datos no estructurados: datos en el formato tal y como fueron
recolectados, carecen de un formato específico. No se pueden almacenar
dentro de una tabla ya que no se puede desgranar su información a tipos
básicos de datos. Algunos ejemplos son los PDF, documentos multimedia, correos electrónicos o documentos de texto. Texto e imagenes.

- Datos semiestructurados: datos que no se limitan a campos
determinados, pero que contiene marcadores para separar los diferentes
elementos. Es una información poco regular como para ser gestionada de
una forma estándar. Estos datos poseen sus propios metadatos semiestructurados que describen los objetos y las relaciones entre ellos, y pueden acabar siendo aceptados por convención. Un ejemplo es el HTML, el XML o el JSON. OPENDATA, twiter
VERACIDAD (VERACITY): Aumento de la incertidumbre respecto de la veracidad o calidad de los datos disponibles. Pueden ocasionar decisiones incorrectas- Falta de datos, ruido alteraciones
VALOR (VALUE): Es la medida de utilidad de los datos seleccionados para nuestros objetivos finales.
VARIABILITY
VISUALIZATION
MINERÍA DE DATOS:
Se refiere a la ciencia de recopilación de todos los datos del pasado y luego la búsqueda de patrones en los datos. Una vez que se encuentran, se validan mediante la aplicación de los patrones detectados a nuevos subconjuntos de datos. Es el proceso de buscar a través de conjuntos de datos existentes, relaciones entre ellos.
ECOSISTEMA DE BIG DATA
Manejo y almacenamiento de datos
Fuentes de datos: Estructurados y no estructurados
Nucleo de Big Data: Herramientas de administración de datos estructuras (ETL, Workflow y Systems tools) y arquitectura que proceso los datos distribuidos
Administración de los datos operacionales: Datos operativos procesados y sin procesar
Análisis y aplicaciones
Análitica de Big Data: Ambiente de desarrolo y los productos de análisis.
Usuarios: Finales o Analistas de negocios
Flujo de trabajo - Proceso de aprovechamiento de datos masivos:
Analítica de Datos
COMPONENTES DE BIG DATA
El ciclo de vida:
- Registro y recolección de datos de varias fuentes
- Filtro, enriquecimiento y clasificación de los datos
- Análisis, modelado y predicción de los datos
- Entrega y visualización de los datos
INFRAESTRUCTURA
CLUSTER
Conjuntos de computadores indepentientes pero interconectas entre si. A cada una se le conoce como nodo. Tienen las siguientes ventajas trabajo en paralelo (tolerancia a posibles fallas), alto rendimiento, soporte de altas cargas de trabajo y escalabilidad.
SOFTAWARE
SISTEMA DE ARCHIVOS DISTRIBUIDOS (DFS)
Hace que los datos en el cluster sehan divididos en bloques y sehan distribuidos en el mismo.
NUCLEO:: Mapea (cada elemento se convierte en una tupla) y reduce los datos (toma el conjunto de tupas conbinandolas para hacer un conjunto más pequeños.
Un conjunto de bibliotecas: que hacen que se pueda soportar varios subproyectos.
Componentes auxiliares se utilizan dependiento del caso de uso, apoyan infraestructura, analítica, aplicaciones y obtención de datos de distintas fuentes.
¿Qué es PaaS?
El concepto de Plataforma como Servicio (PaaS,
Platform as a Service) es una categoría de servicios
cloud
que proporciona una plataforma y un entorno que permiten a los
desarrolladores crear aplicaciones y servicios que funcionen a través de
internet. Los servicios PaaS se alojan en la nube, y los usuarios
pueden acceder a ellos simplemente a través de su navegador web.
El modelo PaaS permite a los usuarios crear aplicaciones de software
utilizando herramientas suministradas por el proveedor. Los servicios
PaaS pueden consistir en funcionalidades preconfiguradas a las que los
clientes puedan suscribirse, eligiendo las funciones que deseen incluir
para resolver sus necesidades y descartando aquellas que no necesiten.
Así, los paquetes pueden variar desde un sencillo entorno que se maneje
con el ratón y no requiera ningún tipo de conocimiento o instalación
especial por el lado del usuario, hasta el suministro de opciones de
infraestructura para desarrollo avanzado.
La infraestructura y las aplicaciones se gestionan en nombre del
cliente, y se ofrece también soporte técnico. Los servicios se
actualizan constantemente, mejorando las funcionalidades existentes y
añadiendo otras nuevas. Los proveedores de PaaS pueden colaborar con los
desarrolladores desde la concepción de sus ideas originales hasta la
creación de las aplicaciones, llegando incluso hasta las fases de
pruebas e implantación. Y todo eso se consigue utilizando un solo
mecanismo gestionado.
Al igual que en la mayoría de las propuestas de servicios
cloud,
los servicios PaaS suelen facturarse como una suscripción en la que el
cliente acaba pagando al final sólo por lo que realmente utiliza.
Además, puede beneficiarse de las economías de escala que aporta el
hecho de estar compartiendo una misma infraestructura física subyacente
entre muchos usuarios, lo que se traduce en una reducción de costes.
Estas son algunas de las funcionalidades que pueden incluirse dentro de una propuesta de PaaS:
-
Sistema operativo
-
Entorno de scripting de servidor
-
Sistema de gestión de base de datos
-
Software de servidor
-
Soporte técnico
-
Almacenamiento
-
Acceso a la red
-
Herramientas de diseño y desarrollo
-
Hosting
¿Qué es IaaS?
El concepto de Infraestructura como Servicio (IaaS,
Infrastructure as a Service) es uno de los tres modelos fundamentales en el campo del
cloud computing, junto con el de Plataforma como Servicio (PaaS,
Platform as a Service) y el de Software como Servicio (SaaS,
Software as a Service).
Al igual que todos los servicios cloud, IaaS proporciona acceso a
recursos informáticos situados en un entorno virtualizado, la"nube"
(cloud),
a través de una conexión pública, que suele ser internet. En el caso de
IaaS, los recursos informáticos ofrecidos consisten, en particular, en
hardware virtualizado, o, en otras palabras, infraestructura de
procesamiento. La definición de IaaS abarca aspectos como el espacio en
servidores virtuales, conexiones de red, ancho de banda, direcciones IP y
balanceadores de carga. Físicamente, el repertorio de recursos de
hardware disponibles procede de multitud de servidores y redes,
generalmente distribuidos entre numerosos centros de datos, de cuyo
mantenimiento se encarga el proveedor del servicio cloud. El cliente,
por su parte, obtiene acceso a los componentes virtualizados para
construir con ellos su propia plataforma informática.
El modelo IaaS coincide con las otras dos modalidades de hosting
cloud en
que puede ser utilizado por los clientes empresariales para crear
soluciones informáticas económicas y fáciles de ampliar, en las cuales
toda la complejidad y el coste asociados a la administración del
hardware subyacente se externaliza al proveedor del servicio
cloud.
Si la escala o el volumen de actividad del negocio del cliente
fluctúan, o si la empresa tiene previsto crecer, puede recurrir al
recurso
cloud en el momento y de la manera en que lo necesite, en lugar de tener que adquirir, instalar e integrar hardware por su cuenta.
Estos son varios ejemplos representativos de aplicaciones concretas del modelo IaaS para una gran empresa:
-
Infraestructura corporativa; las redes internas de la empresa, como las clouds
privadas y las redes locales virtuales, que utilizan recursos de red y
de servidores agrupados en un repertorio común, donde la empresa puede
almacenar sus datos y ejecutar las aplicaciones que necesite para su
funcionamiento diario. Las empresas en crecimiento pueden ampliar su
infraestructura a medida que aumente su volumen de actividad, mientras
que las clouds privadas (accesibles sólo para la propia
empresa) permiten proteger el almacenamiento y transferencia de los
datos delicados que algunas empresas necesitan manejar.
-
Hosting cloud; alojamiento de las webs en
servidores virtuales que funcionan sobre recursos comunes materializados
físicamente en servidores físicos subyacentes. Una web alojada en una
plataforma cloud, por ejemplo, puede beneficiarse de la
redundancia que aporta la gigantesca escala de la red de servidores
físicos y su escalabilidad en función de la demanda para afrontar
cualquier punta inesperada de tráfico en su web.
-
Virtual Data Centers (VDC); una red virtualizada de
servidores virtuales interconectados que puede utilizarse para ofrecer
funcionalidades avanzadas alojadas en un entorno cloud, para
implementar la infraestructura informática de la empresa, o para
integrar todas esas operaciones dentro de una implementación cloud pública o privada.
¿Qué es SaaS?
Con el concepto de Software como Servicio (SaaS,
Software as a Service) se describe cualquier servicio
cloud
en el que los consumidores puedan acceder a aplicaciones de software a
través de internet. Esas aplicaciones están alojadas "en la nube" y
pueden utilizarse para una amplia variedad de tareas, tanto para
particulares como para organizaciones. Google, Twitter, Facebook y
Flickr son ejemplos de SaaS, en los cuales los usuarios pueden acceder a
los servicios a través de cualquier dispositivo que pueda conectarse a
internet. Los usuarios empresariales pueden utilizar aplicaciones para
resolver necesidades muy diversas, desde la contabilidad y la
facturación hasta el seguimiento de ventas, planificación, control de
rendimiento y comunicaciones (por ejemplo, el correo web y la mensajería
instantánea).
El modelo SaaS se conoce también a veces como "software a demanda", y
la forma de utilizarlo se parece más a alquilar el software que a
comprarlo. Con las aplicaciones tradicionales, el software se compra al
principio como un paquete, y una vez adquirido se instala en el
ordenador del usuario. La licencia del software puede también establecer
limitaciones en cuanto al número de usuarios y/o dispositivos en los
cuales puede instalarse. Por el contrario, los usuarios del Software
como Servicio se suscriben al software, en lugar de comprarlo,
generalmente por períodos mensuales. Las aplicaciones se compran y
utilizan a través de internet, y los archivos se guardan en la nube, no
en el ordenador del usuario.