Descripción:
Cualquier mención de Big Data normalmente incluye alguna referencia a Hadoop. Cuando se trata de Big Data, Apache Hadoop es el “elefante” más grande, sin embargo, cada vez más empresas optan por otras vías de procesamiento de datos. Apache Spark es la nueva estrella de Big Data. Empresas como Stratio y DataStax ya aportan soluciones Big Data utilizando esta tecnología. Spark es una plataforma de cómputo en clúster diseñado para trabajar de forma rápida y con múltiples propósitos. Este curso permite a los usuarios desarrollar aplicaciones Big Data con las capacidades que provee la analítica de negocios ya sea en procesos batch, streaming o interactivos.
Objetivo:
El objetivo general del Curso de Desarrollo de aplicaciones Big Data con Spark es dar una visión global del ecosistema Spark. Aplicar el conocimiento de las tecnologías Big Data y descubrir las nuevas tendencias en el procesamiento distribuido.
Temario:
Módulo 1
Introducción | NoSQL, MapReduce, Hadoop y sus diferencias con Spark | Conceptos iniciales de Big Data | Núcleo de conceptos y Arquitectura de Big Data
Módulo 2
Cargado de información | Key/Value y esquemas: grafos, documental, etc. | Ejecución en un clúster | Ejemplos de ejecución en clúster Standalone y YARN| Manipulación de RDD | Transformaciones y acciones | Uso de acumuladores como variables de transmisión
Módulo 3
Programación avanzada Spark | Ejemplos de ejecución en un clúster AWS.