O Amazon EMR disponibiliza uma estrutura gerenciada do Hadoop que torna fácil, rápido e econômico processar grandes volumes de dados em instâncias do Amazon EC2 escaláveis de modo dinâmico. O Amazon EMR também permite executar outras estruturas distribuídas conhecidas, como Apache Spark, HBase, Presto, e Flink, além de interagir com outros armazenamentos de dados da AWS, como Amazon S3 e Amazon DynamoDB.
O Amazon EMR processa um amplo conjunto de casos de uso de big data com segurança e confiabilidade, inclusive análise de logs, indexação da web, transformações de dados (ETL), aprendizado de máquina, análise financeira, simulação científica e bioinformática.
O Adobe Flash Player ou um navegador moderno é obrigatório para assistir aos vídeos neste site.
Com os lançamentos com controle de versão no Amazon EMR, você pode facilmente selecionar e usar os projetos de código aberto mais recentes no cluster do EMR, como aplicações nos ecossistemas do Apache Hadoop e do Spark. O software é instalado e configurado pelo Amazon EMR para que você possa passar mais tempo agregando valor aos seus dados sem se preocupar com tarefas administrativas e relacionadas à infraestrutura.
Fácil de usar
É possível iniciar um cluster do Amazon EMR em minutos. Você não precisa se preocupar com provisionamento de nós, configuração de clusters, configuração do Hadoop ou ajustes de cluster. O Amazon EMR cuida dessas tarefas para que você se concentre na análise.
Baixo custo
A definição de preço do Amazon EMR é simples e previsível: você paga uma taxa por hora para cada hora de instância usada. Você pode lançar um cluster Hadoop de 10 nós por apenas 0,15 USD por hora. Como o Amazon EMR tem suporte nativo para o spot do Amazon EC2 e instâncias reservadas, é possível economizar de 50 a 80% nos custos de instâncias subjacentes.
Elástica
Com o Amazon EMR, você pode provisionar uma, centenas ou até mesmo milhares de instâncias de computação para processar dados em qualquer escala. É possível aumentar ou diminuir facilmente o número de instâncias manualmente ou usando o Auto Scaling e pagar apenas pelo que usar.
Confiável
Você pode passar menos tempo ajustando e monitorando o cluster. O Amazon EMR ajustou o Hadoop para a nuvem. Além disso, ele monitora o cluster, tentando executar novamente tarefas com falha e substituindo automaticamente instâncias com baixo desempenho.
Seguro
O Amazon EMR configura automaticamente as configurações de firewall do Amazon EC2 que controlam o acesso via rede às instâncias, e é possível executar clusters em uma Amazon Virtual Private Cloud (VPC), uma rede lógica isolada definida por você. Para objetos armazenados no Amazon S3, você pode usar a criptografia no lado do servidor ou a criptografia do cliente do Amazon S3 com EMRFS, com o AWS Key Management Service ou com chaves gerenciadas pelo cliente.
Flexível
Você tem controle total sobre o cluster. Você tem acesso a todas as instâncias. Portanto, você pode instalar facilmente aplicações adicionais e personalizar todos os clusters. O Amazon EMR também é compatível com várias distribuições e aplicações do Hadoop.
Análise de clickstream
O Amazon EMR pode ser usado para analisar dados de clickstream para segmentar usuários, compreender preferências dos usuários e criar anúncios mais eficazes.
Saiba como o Razorfish usa o EMR para análise de clickstream »
Análise em tempo real
Consuma e processe dados em tempo real do Amazon Kinesis, do Apache Kafka ou de outros streams de dados com o Spark Streaming no Amazon EMR. Execute a análise de streaming de modo tolerante a falhas e grave os resultados no Amazon S3 ou no HDFS.
Saiba como a Hearst usa o Spark Streaming »
Análise de registros
O Amazon EMR pode ser usado para processar logs gerados por aplicativos móveis e da web. O Amazon EMR ajuda os clientes a transformar petabytes de dados não estruturados ou semi-estruturados em percepções úteis sobre seus aplicativos e usuários.
Saiba como a Yelp usa o EMR para gerar os principais recursos do site »
Extract Transform Load (ETL)
O Amazon EMR pode ser usado para executar de modo econômico cargas de trabalho de transformação de dados (ETL), como classificar, agregar e associar em grandes conjuntos de dados.
Saiba como o Redfin usa os clusters transitórios do EMR para ETL »
Análise preditiva
O Apache Spark no Amazon EMR inclui o MLlib para algoritmos de aprendizado de máquina escaláveis ou você pode usar suas próprias bibliotecas. Ao armazenar conjuntos de dados na memória, o Spark pode disponibilizar excelente desempenho para cargas de trabalho comuns de aprendizado de máquina.
Saiba como a Intent Media usa o Spark MLib »
Genômica
O Amazon EMR pode ser usado para processar grandes quantidades de dados de genoma e outros conjuntos maciços de dados científicos de maneira rápida e eficaz. Os pesquisadores podem acessar dados de genoma hospedados gratuitamente na AWS.
Saiba mais sobre o Apache Spark e a medicina de precisão »
É fácil começar a usar o Amazon EMR. Siga o nosso Guia de conceitos básicos para executar seu primeiro cluster do Amazon EMR e começar a analisar dados com alguns cliques.