Curso - Desarrollo Aplicaciones Business Intelligence con MS SQL Server 2016 + Big Data
ContenidoCurso DESARROLLO APLICACIONES BUSINESS INTELLIGENCE
CON MS SQL SERVER 2016 + Big Data
DESCRIPCIÓN
Este curso está orientado a brindar a los alumnos los fundamentos necesarios en el campo del Business Intelligence y Big Data a niveles estratégicos y tácticos.
Se cubrirán tópicos como Sistemas Transaccionales u OLTP, Datawarehouse o Bodega de Datos, Sistemas Olap o Analíticos, procesos ETL o de Extracción, Transformación y Carga de datos, Bodegas de Datos Intermedias o Areas de Staging, creación de Dimensiones, Jerarquías e Indicadores, Modelamiento de Cubos, programación de consultas MDX, discusión de modelos multidimensionales como Enterprise DataWarehouse (Bill Inmon), Esquema Estrella y Esquema Estrella Jerárquica (Ralph Kimball).
Se entregarán además conceptos para evaluar soluciones en base a Motores de Bases de Datos Relacionales y Motores de Bases de Datos Columnares.
Además, el alumno manejará conceptos de Big Data, como se justifica, donde se originó y cuando sí y cuando no practicar Big Data. Se hará una introducción al tema, se explicará el ecosistema Hadoop 2.0 y se repasarán tópicos de Machine Learning y Data Mining con Big Data.
Al final del curso se tratarán temas respecto de la performance de soluciones Olap, incluyendo particionamiento de cubos y tablas de hechos.
OBJETIVOS
El alumno al finalizar el curso, será capaz de entender los requerimientos de los usuarios de gestión, modelar un Datawarehouse Relacional, construir paquetes ETL de extracción, transformación y carga de datos, y modelar y cargar uno o varios Cubos Olap, con información relevante de gestión, indicadores clave de desempeño, y dimensiones útiles para la gestión Operativa y Estratégica de la empresa. Además, quedará capacitado para definir el uso de tecnologías de Bases de Datos Relacionales, Bases de Datos Columnares y el uso de sistemas de archivos distribuidos como Hadoop HDFS.
DIRIGIDO A
Analistas de Bases de Datos, Ingenieros/Analistas de Control de Gestión, Arquitectos de Datawarehouse, Programadores SQL, y en general, cualquier persona involucrada en la definición y puesta en marcha de un Sistema de Control de Gestión basado en tecnologías Olap, DataWarehousing y Big Data.
METODOLOGÍA
Clases teóricas y prácticas, usando Microsoft SQL Server 2016 Enterprise Edition (180 day Evaluation), Microsoft SQL Server 2016 Integration Services, Microsoft SQL Server 2016 Analysis Services, Microsoft SQL Server 2016 Reporting Services y Microsoft Visual Studio 2015 + Microsoft Data Tools.
Durante el curso se desarrollará un taller en que los alumnos se verán enfrentados a un problema real, desde las entrevistas con los usuarios finales de gestión, hasta la puesta en marcha de la solución.
CONTENIDOS (32 Horas)
Introducción
T: Sistemas OLTP y Sistemas OLAP
T: DataWarehouse
T: Arquitectura de un DataWarehouse
T: Componentes de un DataWarehouse
P: Instalación Plataforma SQL Server completa
Levantamiento de Requerimientos y Modelamiento de la Solución
T: Levantamiento de requerimientos
T: Discusión del Informe de requerimientos con los usuarios clave de cada área
T: Cierre de las modificaciones al modelo
T: Modelamiento de DataWarehouse
Modelo Conceptual
Modelo Lógico
Modelo Físico
P: Levantamiento de Modelos de Datos de Sistemas Fuente
Modelando un esquema estrella
T: Conceptos de Dimensión-Atributo-Jerarquía-Niveles-Miembros-Indicadores
T: Inferencia de la tabla de hechos
T: Inferencia de las tablas de dimensiones
T: Estrategia de Indexamiento del Modelo Estrella
P: Modelo Lógico y Físico del Esquema Estrella
Procesos ETL
T: Carga y Mantenimiento de un DWH
T: Procesos de Extracción-Transformación y Carga de Datos
T: Procesamiento Intermedio o DataStaging
P: Programación Paquetes ETL carga de dimensiones y tabla de hechos
P: Modelamiento de Cubo, Dimensiones, Jerarquías, Indicadores.
P: Miembros Calculados
P: Programación Fórmulas MDX
P: Conjuntos nombrados
P: Procesamiento Cubo
P: % Nivel Agregación Cubo
Navegación de Cubos y Performance
T: Herramientas para Navegación Olap
P: CubixWeb, MS SQL Server Reporting Services
T: Operadores DrillDown, Roll-up, Slice-Dice
T: Administración de la performance de un DWH
Hardware
Server Olap
Redes de Comunicaciones
Estrategias de Indexamiento del modelo estrella relacional
Estrategia de Particionamiento de Tablas
Estrategia de Particionamiento de Cubos
P: Particionamiento de tablas de hechos
P: Particionamiento de Cubos Olap
Bases de Datos Columnares y grandes Datawarehouses
T/P: Bases de Datos Columnares
T/P: Plataformas BI Opensource
Introduccion a Big Data
T: Qué originó la era del BigData
T: Datos generados por Máquinas
T: Datos generados por Personas
T: Datos generados por Organizaciones
T: Características de BigData
Volumen
Velocidad
Valor
Escalabilidad
T: Las 5P de BigData
T: Haciendo las preguntas correctas
T: Introducción al proceso de 6 Etapas
1 Accediendo y recuperando datos
2A Explorando datos
2B Pre procesamiento de Datos
3 Análisis de datos
4 Reportes de percepción de los datos
6 Convertir la percepción de los datos en Acción
T: Qué es un sistema de archivos distribuido
T: Computación escalable sobre internet
T: Modelos de programación para BigData
La plataforma Hadoop y el framework de aplicaciones
T: Qué es Hadoop
T: Módulos de Apache Hadoop
Hadoop Common
Hadoop HDFS
Hadoop Yarn
Hadoop MapReduce
T: Principales componentes del Ecosistema Hadoop
Apache Sqoop
HBASE
Pig
Apache Hive
Oozie
Zookeeper
Flume
Componentes adicionales de Cloudera Hadoop
Impala
Spark
P: Instalar VM Cloudera Hadoop sobre Oracle VirtualBox o VMWare
P: Una revisión rápida de Cloudera Hadoop
Machine Learning Con Big Data
T: Introducción
T: Data Analytics avanzado
T: Una mirada más cercana e historia de Modelamiento Predictivo
T: Taxonomías de Machine Learning
T: Tareas de Minería de Datos
T: Evaluación y Validación del Modelo
T: Desafíos de la Minería de Datos
P: Descarga e instalación de KNIME
Práctica: Trabajando con Workflows KNIME
Práctica: Instrucciones de manipulación de datos en KNIME
Preparación de datos para Machine Learning
Preprocesamiento de Datos
T/P: Algoritmos de Clasificación
Naive Bayes
Arboles de Decisión
Trabajando con Arboles de Decisión en KNIME
Algoritmos de Clasificación con Spark
T/P: Reglas de Asociación
Clustering
Modelos no supervisados
Algoritmo k-means
Tarea de Clustering en KNIME
Clustering en Spark
REQUISITOS DE APROBACIÓN Y EVALUACIÓN
75% de asistencia y nota Final superior a 4.0 (prueba escrita y/o desarrollo)
RELATOR
MICHAEL PRENDERGAST SLIGHT
Consultor Senior en DataWarehouse/Sistemas OLAP
Arquitecto de Bases de Datos
Desarrollador .Net
Economista, U de Chile
MBA, U del Desarrollo