Descripción:
Hadoop es un sistema de código abierto que se utiliza para almacenar, procesar y analizar grandes volúmenes de datos; cientos de terabytes, petabytes o incluso más. Hadoop surgió como iniciativa open source (software libre) a raiz de la publicación de varios papers de Google sobre sus sistemas de archivo, su herramienta de mapas y el sistema BigTable Reduce. Como resultado nació un conjunto de soluciones en el entorno Apache: HDFS Apache, Apache MapReduce y Apache HBase; que se conocen como Hadoop, con herramientas como Sqoop (para importar datos estructurados en Hadoop cluster) o NoSQL (para realizar el análisis de los datos no estructurados) entre otros.
Objetivo:
En en el entorno tecnológico que actualmente se mueven todas las organizaciones, donde los sistemas no sólo son capaces de generar e ingestar los datos rápidamente sobre formatos estructurados (SQL), también, cada vez más, se generan datos que no son estructurados (NoSQL). Con el Curso Diseñando y Construyendo aplicaciones Big Data con Hadoop el asistente aprenderá y será capaz a través de Hadoop implementaciones como almacenar toda clase de datos: estructurados, no estructurados, semiestructurados; archivos de registro, imágenes, video, audio, comunicación, etc
Temario:
Tema 1: Primeros conceptos
Procesando Big Data  | Cómputo en la nube con Amazon Web Services
Tema 2: Hadoop en funcionamiento
Hadoop en un host local Ubuntu | Prerequisitos, descargando Hadoop y configurando SSH | Configurando el modo pseudo-distribuido | Cambiando la baseHDFS | Formateando el NameNode | Iniciando con Hadoop | Usando HDFS | WordCount, el “Hola Mundo” de MapReduce | Usando MapReduce elástico | WordCount en EMR
Tema 3: Comprendiendo MapReduce
Pares Key/Value | Hadoop Java API para MapReduce | Escribiendo programas MapReduce | WordCount, el camino fácil | WordCount con un combinador | Tipos de dato esoecíficos de Hadoop | Usando Writable | Input/Output
Tema 4: Desarrollando programas MapReduce
Usando Hadoop con otros lenguajes | WordCount usando Streaming | Analizando un gran conjunto de datos | Resumiendo y correlacionando datos | Optimizando la forma y tiempo de análisis | Utilizando ChainMapper para validación/análisis | Creando contadores, estados de tarea y escribiendo logs de salida
Tema 5: Técnicas avanzadas de MapReduce
Joins | MultipleInputs | Algoritmos de grafos | Representando grafos | Creando código fuente | Estructuras de dato de un lenguaje independiente | Utilizando Avro | Generando resúmenes en MapReduce | Examinando la salida de datos con Ruby y Java
Tema 6: Rompiendo procesos
Failure | Terminando un proceso DataNode | Bloques faltantes | Terminando proceso TaskTracker | Terminando proceso JobTracker | Terminando proceso NameNode
Tema 7: Mantener las cosas funcionando
Configuración de propiedades en Hadoop | Configurando un clúster | Examinando la configuración de rack | Rack awarness script | Control de acceso a clúster | Gestionando el NameNode | Gestionando HDFS | Gestión de MapReduce | Escalando
Tema 8: Vista relacional en datos con Hive
Primeros pasos con Hive | Configurando, instalando y usando Hive | Creando, insertando y validando datos UFO | Validando tablas | Optimizando un Join | Usando Vistas | Exportando salidas de consultas | UDF | Hive en Amazon Web Services
Tema 9: Trabajando con Bases de Datos Relacionales
Rutas comunes de datos | Configurando e instalando MySQL, conexiones remotas | Obteniendo datos en Hadoop | Exportando datos de MySQL a HDFS | Exportando datos de MySQL a Hive | Usando un tipo de mapeo | Importando datos de Hadoop a MySQL | Importando datos de Hive a MySQL | Corrección de mapeo
Tema 10: Colección de datos con Flume
AWS | Datos en todas partes | Web server de datos en Hadoop | Introducción a Apache Flume | Instalando y configurando Flume | Capturando tráfico de red en un log | Capturando un archivo remoto en un archivo local | Añadiendo marcas de tiempo | Redes Flume Multinivel | Un panorama más grande