KMMX Capacitación acorde a tu pensamiento

Diseñando y Construyendo aplicaciones Big Data con Hadoop (30 hrs.)

Descripción: Hadoop es un sistema de código abierto que se utiliza para almacenar, procesar y analizar grandes volúmenes de datos; cientos de terabytes, petabytes o incluso más. Hadoop surgió como iniciativa open source (software libre) a raiz de la publicación de varios papers de Google sobre sus sistemas de archivo, su herramienta de mapas y el sistema BigTable Reduce. Como resultado nació un conjunto de soluciones en el entorno Apache: HDFS Apache, Apache MapReduce y Apache HBase; que se conocen como Hadoop, con herramientas como Sqoop (para importar datos estructurados en Hadoop cluster) o NoSQL (para realizar el análisis de los datos no estructurados) entre otros.

Objetivo: En en el entorno tecnológico que actualmente se mueven todas las organizaciones, donde los sistemas no sólo son capaces de generar e ingestar los datos rápidamente sobre formatos estructurados (SQL), también, cada vez más, se generan datos que no son estructurados (NoSQL). El asistente aprenderá y será capaz a través de Hadoop implementaciones como almacenar toda clase de datos: estructurados, no estructurados, semiestructurados; archivos de registro, imágenes, video, audio, comunicación, etc

Temario:

Tema 1: Primeros conceptos

Procesando Big Data  | Cómputo en la nube con Amazon Web Services

Tema 2: Hadoop en funcionamiento

Hadoop en un host local Ubuntu | Prerequisitos, descargando Hadoop y configurando SSH | Configurando el modo pseudo-distribuido | Cambiando la baseHDFS | Formateando el NameNode | Iniciando con Hadoop | Usando HDFS | WordCount, el "Hola Mundo" de MapReduce | Usando MapReduce elástico | WordCount en EMR

Tema 3: Comprendiendo MapReduce

Pares Key/Value | Hadoop Java API para MapReduce | Escribiendo programas MapReduce | WordCount, el camino fácil | WordCount con un combinador | Tipos de dato esoecíficos de Hadoop | Usando Writable | Input/Output

Tema 4: Desarrollando programas MapReduce

Usando Hadoop con otros lenguajes | WordCount usando Streaming | Analizando un gran conjunto de datos | Resumiendo y correlacionando datos | Optimizando la forma y tiempo de análisis | Utilizando ChainMapper para validación/análisis | Creando contadores, estados de tarea y escribiendo logs de salida

Tema 5: Técnicas avanzadas de MapReduce

Joins | MultipleInputs | Algoritmos de grafos | Representando grafos | Creando código fuente | Estructuras de dato de un lenguaje independiente | Utilizando Avro | Generando resúmenes en MapReduce | Examinando la salida de datos con Ruby y Java

Tema 6: Rompiendo procesos

Failure | Terminando un proceso DataNode | Bloques faltantes | Terminando proceso TaskTracker | Terminando proceso JobTracker | Terminando proceso NameNode

Tema 7: Mantener las cosas funcionando

Configuración de propiedades en Hadoop | Configurando un clúster | Examinando la configuración de rack | Rack awarness script | Control de acceso a clúster | Gestionando el NameNode | Gestionando HDFS | Gestión de MapReduce | Escalando

Tema 8: Vista relacional en datos con Hive

Primeros pasos con Hive | Configurando, instalando y usando Hive | Creando, insertando y validando datos UFO | Validando tablas | Optimizando un Join | Usando Vistas | Exportando salidas de consultas | UDF | Hive en Amazon Web Services

Tema 9: Trabajando con Bases de Datos Relacionales

Rutas comunes de datos | Configurando e instalando MySQL, conexiones remotas | Obteniendo datos en Hadoop | Exportando datos de MySQL a HDFS | Exportando datos de MySQL a Hive | Usando un tipo de mapeo | Importando datos de Hadoop a MySQL | Importando datos de Hive a MySQL | Corrección de mapeo

Tema 10: Colección de datos con Flume

AWS | Datos en todas partes | Web server de datos en Hadoop | Introducción a Apache Flume | Instalando y configurando Flume | Capturando tráfico de red en un log | Capturando un archivo remoto en un archivo local | Añadiendo marcas de tiempo | Redes Flume Multinivel | Un panorama más grande

Hadoop 2

Material de Apoyo. Hadoop 2 Quick-Start Guide. Douglas Eadline

Precio por participante: $11,600 MN (IVA incluido)

Formas de pago