Cursos Online de Big Data

Banco de Dados Hive

Hive é o principal interpretador relacional de arquivos armazenados no Hadoop. Com ele, você consulta os dados do Hadoop utilizando uma linguagem similar ao SQL.

Alexandre Fialho

"Excelente didática."

O que você vai aprender?

No curso Apache Hadoop, você já aprendeu a instalar o Hive. Agora, aprenderá a vincular seus arquivos ao Hive para serem lidos em formato relacional, sejam eles estruturados ou semi-estruturados. Tem muita coisa interessante! Vamos lá!

Pré-requisito

Conteúdo Programático

01 - Como funciona, o que soluciona e como surgiu o Hive
Vamos ter noções básicas de sob qual o problema o Hive age, conceitos iniciais que serão base para as próximas aulas.
  1.  1. Introdução ao Hive
  2.  2. Conceitos do Hive
  3.  3. Computação distribuída
  4.  4. Conceito Big Data
  5.  5. Funcionamento Hadoop
  6.  6. Características Hadoop
  7.  7. HDFS
  8.  8. Map and Reduce
  9.  8. Ecossistema Hadoop
  10.  10. Data Lake
02 - Criando tabelas para ler os arquivos do HDFS

Vamos aprender como fazer o Hive ler os arquivos que estão armazenados no HDFS utilizando tabelas externas.

 

  1.  1. Tabela externa x Tabela Gerenciada
  2.  2. Tabela Externa
  3.  3. Tabela Gerenciada
03 - Como o Hive aloca seus metadados

Para poder trabalhar com eficiência, o Hive tem que saber todas as informações de um arquivo no HDFS, localização, tipos de arquivo, tipo de dados, quais são esses dados, onde e como são alocados. São conceitos fundamentais para trabalhar com o Hive.

 

 

  1.  1. MetaStore
04 - Criando partições para alta performance
As partições são opcionais ao criar uma tabela, mas altamente recomendadas. Vamos entender como se usa e como ganhamos performance com elas.  
  1.  1. Conceito de partição
  2.  2. Utilizando partição
05 - HQL, Hcatalog, e arquivos semi-estruturados

Aqui vamos entender as principais diferenças entre a linguagem HQL e a linguagem SQL utilizada no MySQL. Apesar de grandes diferenças no DDL, quando falamos de DML, são praticamente similares.

 

  1.  1. HQL x SQL
  2.  2. Entendendo arquivos semi-estruturados
  3.  3. Dataset de dados não estruturados
  4.  4. Criando Tabelas Json
  5.  5. Lendo tabelas JSON
06 - Como trabalhamos com pequenos arquivos no Hive
Os pequenos arquivos são grandes problemas para o Hadoop e para o Hive.  Vamos entender um pouco mais sobre isso?
  1.  1. SmallFiles
07 - Quais tipos de arquivos são suportados pelo Hive

Entre os mais diversos arquivos, o Hive pode ler arquivos binários, arquivos de texto, arquivos em formato semi-estruturados. Vamos entender quais são e aprender como escolhe-los.

 

  1.  1. Orc e Parquet
  2.  2. Avro e Sequence Files

Certificado de Conclusão

  • Ao concluir este curso e a Avaliação Final com aproveitamento de 80%, você terá direito ao Certificado de Conclusão.
Rolar para cima