Descripción:
Este curso le mostrará cómo utilizar eficazmente Apache Spark, Delta Lake y Databricks para la ingeniería de datos, comenzando con una introducción exhaustiva a la ingestión y carga de datos con Apache Spark.
Objetivo del curso: Al final de este curso, usted habra adquirido los conocimientos y habilidades nesearias para la construcción de pipelines de datos fiables y escalables utilizando tecnologías modernas de ingeniería de datos.
Lo que aprenderá
- Realizar la carga, ingesta y procesamiento de datos con Apache Spark
- Descubrir técnicas de transformación de datos y funciones personalizadas definidas por el usuario (UDF) en Apache Spark
- Gestionar y optimizar tablas Delta con Apache Spark y las API de Delta Lake
- Utilizar Spark Structured Streaming para el procesamiento de datos en tiempo real
- Optimizar el rendimiento de las aplicaciones Apache Spark y las consultas a tablas Delta
- Implementar prácticas DataOps y DevOps en Databricks
- Orquestación de canalizaciones de datos con Delta Live Tables y Databricks Workflows
- Implantar políticas de gobernanza de datos con Unity Catalog
Requisitos de ingreso.
Comprensión de textos en idioma inglés.
Temario:
Parte 1 – Trabajar con Apache Spark y Delta Lake
- Ingestión y extracción de datos con Apache Spark
- Transformación y Manipulación de Datos con Apache Spark
- Gestión de datos con Delta Lake
- Ingesta de Datos en Streaming
- Procesamiento de Datos en Streaming
- Ajuste del rendimiento con Apache Spark
- Ajuste del Rendimiento en Delta Lake
Parte 2 – Capacidades de ingeniería de datos en Databricks
- Orquestación y Programación de Data Pipeline con Databricks Workflows
- Construcción de Data Pipelines con Delta Live Tables
- Gobierno de datos con Unity Catalog
- Implementación de DataOps y DevOps en Databricks