DP-750T00: Implement data engineering solutions using Azure Databricks

🎯 Perfil Objetivo

Este curso está dirigido a Ingenieros de Datos y Científicos de Datos que necesitan construir soluciones de análisis escalables.

Requisito clave: Conocimientos sólidos de Python o Scala y familiaridad con conceptos de procesamiento en la nube (Azure).
Enfoque: Pasar de procesos manuales a arquitecturas de datos automatizadas y de alto rendimiento.

📌 Objetivo del Curso

Capacitar a los profesionales en el diseño e implementación de soluciones de ingeniería de datos de extremo a extremo utilizando Azure Databricks, integrando el almacenamiento de Data Lake Storage Gen2 con la potencia de procesamiento de clusters de Spark para crear arquitecturas de datos analíticas modernas (Medallion Architecture).

Objetivos Específicos

Configurar Entornos de Databricks: Gestionar clusters, bibliotecas y seguridad en el espacio de trabajo.
Dominar Apache Spark: Utilizar DataFrames y Spark SQL para manipular volúmenes masivos de datos.
Implementar Delta Lake: Crear tablas confiables con soporte para transacciones ACID y control de versiones de datos.
Construir Pipelines con DLT: Utilizar Delta Live Tables para simplificar el ETL y garantizar la calidad de los datos.
Automatizar Workflows: Orquestar tareas y procesos mediante Databricks Jobs.
Integración con Azure: Conectar Databricks con servicios como Azure Key Vault, Data Factory y SQL Database.

📚 Temario

Módulo 1: Introducción a Azure Databricks

Arquitectura del servicio y aprovisionamiento del espacio de trabajo.
Gestión de clusters (Standard vs. High Concurrency).
Uso de Notebooks y colaboración en tiempo real.

Módulo 2: Procesamiento de Datos con Apache Spark

Arquitectura de Spark (Driver, Workers, Executors).
Manipulación de datos con Spark DataFrames (lectura, filtrado, agregación).
Optimización de consultas y particionamiento de datos.

Módulo 3: Implementación de Delta Lake

¿Qué es Delta Lake y por qué sustituye al Parquet tradicional?
Manejo de Time Travel (consultar versiones anteriores de los datos).
Optimización de tablas con Z-ORDER y VACUUM.

Módulo 4: Arquitectura de Medallón (Bronze, Silver, Gold)

Diseño de capas para la limpieza y enriquecimiento de datos.
Ingesta de datos por lotes (Batch) y en tiempo real (Streaming).
Manejo de esquemas y evolución de datos.

Módulo 5: Delta Live Tables (DLT)

Creación de pipelines declarativos.
Monitoreo de la calidad de los datos y manejo de expectativas.
Linaje de datos automático.

Módulo 6: Seguridad y Gobernanza

Uso de Unity Catalog para la gestión unificada de datos y gobernanza.
Control de acceso basado en roles (RBAC).
Conectividad segura a fuentes de datos externas.

Módulo 7: Orquestación y CI/CD

Creación de flujos de trabajo con Databricks Jobs.
Integración con Azure DevOps o GitHub para el control de versiones.
Monitoreo de costos y rendimiento.