Amazon EMR

Execute e escale facilmente o Apache Hadoop, o Spark, o HBase, o Presto, o Hive e outras estruturas de big data

Comece a usar o Amazon EMR

Parceiros

O Amazon EMR disponibiliza uma estrutura gerenciada do Hadoop que torna fácil, rápido e econômico processar grandes volumes de dados em instâncias do Amazon EC2 escaláveis de modo dinâmico. O Amazon EMR também permite executar outras estruturas distribuídas conhecidas, como Apache Spark, HBase, Presto, e Flink, além de interagir com outros armazenamentos de dados da AWS, como Amazon S3 e Amazon DynamoDB.

O Amazon EMR processa um amplo conjunto de casos de uso de big data com segurança e confiabilidade, inclusive análise de logs, indexação da web, transformações de dados (ETL), aprendizado de máquina, análise financeira, simulação científica e bioinformática.

Solicite auxílio para prova de conceito ou avaliação »

O Adobe Flash Player ou um navegador moderno é obrigatório para assistir aos vídeos neste site.

Novidades

Amazon EMR no blog de big data da AWS

Processing VPC Flow Logs with Amazon EMR

Data Lake Ingestion: Automatically Partition Hive External Tables with AWS

Building and Deploying Custom Applications with Apache Bigtop and Amazon EMR

Will Spark Power the Data behind Precision Medicine?

Use suas aplicações de código aberto preferidas

Clique para aumentar — **Velocidade de lançamento do Amazon EMR**

Com os lançamentos com controle de versão no Amazon EMR, você pode facilmente selecionar e usar os projetos de código aberto mais recentes no cluster do EMR, como aplicações nos ecossistemas do Apache Hadoop e do Spark. O software é instalado e configurado pelo Amazon EMR para que você possa passar mais tempo agregando valor aos seus dados sem se preocupar com tarefas administrativas e relacionadas à infraestrutura.

Estudos de caso de clientes

Benefícios

Fácil de usar

É possível iniciar um cluster do Amazon EMR em minutos. Você não precisa se preocupar com provisionamento de nós, configuração de clusters, configuração do Hadoop ou ajustes de cluster. O Amazon EMR cuida dessas tarefas para que você se concentre na análise.

Baixo custo

A definição de preço do Amazon EMR é simples e previsível: você paga uma taxa por hora para cada hora de instância usada. Você pode lançar um cluster Hadoop de 10 nós por apenas 0,15 USD por hora. Como o Amazon EMR tem suporte nativo para o spot do Amazon EC2 e instâncias reservadas, é possível economizar de 50 a 80% nos custos de instâncias subjacentes.

Elástica

Com o Amazon EMR, você pode provisionar uma, centenas ou até mesmo milhares de instâncias de computação para processar dados em qualquer escala. É possível aumentar ou diminuir facilmente o número de instâncias manualmente ou usando o Auto Scaling e pagar apenas pelo que usar.

Confiável

Você pode passar menos tempo ajustando e monitorando o cluster. O Amazon EMR ajustou o Hadoop para a nuvem. Além disso, ele monitora o cluster, tentando executar novamente tarefas com falha e substituindo automaticamente instâncias com baixo desempenho.

Seguro

O Amazon EMR configura automaticamente as configurações de firewall do Amazon EC2 que controlam o acesso via rede às instâncias, e é possível executar clusters em uma Amazon Virtual Private Cloud (VPC), uma rede lógica isolada definida por você. Para objetos armazenados no Amazon S3, você pode usar a criptografia no lado do servidor ou a criptografia do cliente do Amazon S3 com EMRFS, com o AWS Key Management Service ou com chaves gerenciadas pelo cliente.

Flexível

Você tem controle total sobre o cluster. Você tem acesso a todas as instâncias. Portanto, você pode instalar facilmente aplicações adicionais e personalizar todos os clusters. O Amazon EMR também é compatível com várias distribuições e aplicações do Hadoop.

O que você pode criar com o Amazon EMR?

Saiba mais sobre os casos de uso abaixo:

Análise de clickstream

O Amazon EMR pode ser usado para analisar dados de clickstream para segmentar usuários, compreender preferências dos usuários e criar anúncios mais eficazes.

Saiba como o Razorfish usa o EMR para análise de clickstream »

Análise em tempo real

Consuma e processe dados em tempo real do Amazon Kinesis, do Apache Kafka ou de outros streams de dados com o Spark Streaming no Amazon EMR. Execute a análise de streaming de modo tolerante a falhas e grave os resultados no Amazon S3 ou no HDFS.
Saiba como a Hearst usa o Spark Streaming »

Análise de registros

O Amazon EMR pode ser usado para processar logs gerados por aplicativos móveis e da web. O Amazon EMR ajuda os clientes a transformar petabytes de dados não estruturados ou semi-estruturados em percepções úteis sobre seus aplicativos e usuários.
Saiba como a Yelp usa o EMR para gerar os principais recursos do site »

Extract Transform Load (ETL)

O Amazon EMR pode ser usado para executar de modo econômico cargas de trabalho de transformação de dados (ETL), como classificar, agregar e associar em grandes conjuntos de dados.

Saiba como o Redfin usa os clusters transitórios do EMR para ETL »

Análise preditiva

O Apache Spark no Amazon EMR inclui o MLlib para algoritmos de aprendizado de máquina escaláveis ou você pode usar suas próprias bibliotecas. Ao armazenar conjuntos de dados na memória, o Spark pode disponibilizar excelente desempenho para cargas de trabalho comuns de aprendizado de máquina.
Saiba como a Intent Media usa o Spark MLib »

Genômica

O Amazon EMR pode ser usado para processar grandes quantidades de dados de genoma e outros conjuntos maciços de dados científicos de maneira rápida e eficaz. Os pesquisadores podem acessar dados de genoma hospedados gratuitamente na AWS.
Saiba mais sobre o Apache Spark e a medicina de precisão »

Comece a usar o Amazon EBS

É fácil começar a usar o Amazon EMR. Siga o nosso Guia de conceitos básicos para executar seu primeiro cluster do Amazon EMR e começar a analisar dados com alguns cliques.

Comece a usar

COMECE A USAR A AWS

Saiba como começar a usar a AWS em minutos

NÍVEL GRATUITO DA AWS

Obtenha experiência prática e gratuita com a AWS por 12 meses