AWS Glue

ETL simples, flexível e econômico

Comece a usar o AWS Glue

O AWS Glue é um serviço totalmente gerenciado de Extract, transform and load (ETL – Extração, transformação e carregamento) que torna fácil para os clientes preparar e carregar dados para análise. É possível criar e executar um trabalho ETL com apenas alguns cliques no Console de Gerenciamento da AWS. Basta indicar ao AWS Glue os dados armazenados na AWS que ele os descobre e armazena os metadados associados (ex.: schema e definição de tabela) no AWS Glue Data Catalog. Uma vez catalogados, os dados imediatamente tornam-se disponíveis, pesquisáveis e consultáveis para ETL. O AWS Glue gera o código para executar transformações de dados e processos de carregamento de dados.

O AWS Glue gera um código personalizável, reutilizável e portátil. Quando o trabalho ETL estiver pronto, você poderá programá-lo para que seja executado no ambiente Apache Spark com aumento de escala horizontal, totalmente gerenciado do AWS Glue. O AWS Glue disponibiliza um programador flexível com resolução de dependências, monitoramento de trabalhos e envio de alertas.

O AWS Glue não tem servidor, portanto não há infraestrutura para comprar, configurar ou gerenciar. Ele provisiona automaticamente o ambiente necessário para concluir o trabalho e os clientes pagam apenas pelos recursos de computação consumidos durante a execução dos trabalhos do ETL. Com o AWS Glue, os dados podem ser disponibilizados para análise em minutos.

Pronto para iniciar o ETL?

Comece a usar o AWS Glue

Clientes

Benefícios

Fácil

O AWS Glue automatiza grande parte dos esforços de criação, manutenção e execução de trabalhos ETL. O AWS Glue faz crawling de suas fontes de dados, identifica os formatos de dados e sugere schemas e transformações. O AWS Glue gera automaticamente o código para executar transformações e processos de carregamento de dados.

Integrado

O AWS Glue é integrado a uma grande variedade de Serviços da AWS. O AWS Glue oferece suporte nativo a dados armazenados nos serviços Amazon Aurora, Amazon RDS for MySQL, Amazon RDS for Oracle, Amazon RDS for PostgreSQL, Amazon RDS for SQL Server, Amazon Redshift e Amazon S3, bem como nos bancos de dados MySQL, Oracle, Microsoft SQL Server e PostgreSQL em uma Virtual Private Cloud (Amazon VPC) executada no Amazon EC2. O AWS Glue disponibiliza integração pronta para uso com os serviços Amazon Athena, Amazon EMR e Amazon Redshift Spectrum e também com qualquer aplicativo compatível com o Apache Hive Metastore.

Sem servidor

O AWS Glue não tem servidor. Não é necessário provisionar ou gerenciar a infraestrutura. O AWS Glue administra o provisionamento, a configuração e a escalabilidade dos recursos exigidos para executar trabalhos ETL em um ambiente Apache Spark com aumento de escala horizontal, totalmente gerenciado. Você paga apenas pelos recursos usados durante a execução dos seus trabalhos.

Para desenvolvedores

O AWS Glue gera código ETL personalizável, reutilizável e portátil usando tecnologias conhecidas (Scala, Python e Apache Spark). Você também pode importar transformações, leitores e gravadores personalizados para o código ETL do Glue. Como o código do AWS Glue gerado baseia-se em estruturas abertas, não há bloqueio. Você pode usá-lo em qualquer local.

Como funciona o AWS Glue

Etapa 1: criar um catálogo de dados

Clique para aumentar

Primeiro, use o Console de Gerenciamento da AWS para registrar fontes de dados. O AWS Glue fará crawling de fontes de dados e construirá um catálogo de dados usando classificadores predefinidos para diversos formatos de fontes e tipos de dados conhecidos, como JSON, CSV e Parquet, entre outros.

Etapa 2: gerar e editar as transformações

Clique para aumentar

Em seguida, selecione uma fonte e um destino de dados. O AWS Glue gerará código ETL em Scala ou Python para extrair dados da fonte, transformar os dados para que correspondam ao schema de destino e carregá-los no destino. É possível editar, depurar e testar esse código por meio do console, do seu IDE favorito ou em qualquer notebook.

Etapa 3: programar e executar trabalhos

Clique para aumentar

O AWS Glue facilita programar trabalhos ETL recorrentes, encadear vários trabalhos em conjunto ou invocar trabalhos sob demanda de outros serviços, como o AWS Lambda. O AWS Glue gerencia as dependências entre os trabalhos, escala automaticamente recursos subjacentes e tenta executar novamente trabalhos, no caso de falha.

Acesse a página de detalhes do produto AWS Glue ou consulte a documentação do produto para saber mais.

Casos de uso

Analisar dados de log no data warehouse

Prepare sua sequência de cliques ou processe dados de log para análise ao limpar, normalizar e enriquecer conjuntos de dados usando o AWS Glue. O AWS Glue gera o schema para dados semiestruturados, cria o código ETL para transformar, mesclar e enriquecer dados, assim como carrega o data warehouse repetidamente.

Visualização unificada de dados em vários datastores

É possível usar o AWS Glue Data Catalog para descobrir e fazer pesquisas rapidamente em vários conjuntos de dados da AWS sem a necessidade de migrar os dados. Quando os dados forem catalogados, eles serão disponibilizados imediatamente para pesquisa e consulta usando o Amazon Athena, o Amazon EMR e o Amazon Redshift Spectrum.

Criar uma visualização unificada dos dados

Fazer consultas em um data lake do Amazon S3

Data lakes são uma maneira cada vez mais conhecida de armazenar e analisar dados estruturados e não estruturados. Se você usar um data lake do Amazon S3, o AWS Glue poderá disponibilizar todos os seus dados imediatamente para análise sem que seja necessário migrá-los. Os crawlers do Glue podem verificar o data lake e manter o Glue Data Catalog em sincronia com os dados subjacentes. Depois disso, você poderá consultar diretamente o data lake com o Amazon Athena e o Amazon Redshift Spectrum. Você também poderá usar o Glue Data Catalog como uma Apache Hive Metastore externa para aplicativos de big data em execução no Amazon EMR.

Pipelines ETL controlados por eventos

O AWS Glue pode executar trabalhos do ETL baseados em um evento, como a obtenção de um novo conjunto de dados. Por exemplo, você pode usar uma função do AWS Lambda para acionar trabalhos ETL para que sejam executados assim que novos dados forem disponibilizados no Amazon S3. Também é possível registrar esse novo conjunto de dados no AWS Glue Data Catalog como parte dos trabalhos ETL.

Automatizar trabalhos ETL quando surgirem novos dados

Comece a usar o AWS Glue

É fácil começar a usar o AWS Glue. Basta fazer o login no Console de Gerenciamento da AWS e navegar até "Glue" na categoria "Analytics".

Pronto para iniciar o ETL?

Comece a usar o AWS Glue

COMECE A USAR A AWS

Saiba como começar a usar a AWS em minutos

NÍVEL GRATUITO DA AWS

Obtenha experiência prática e gratuita com a AWS por 12 meses