Amazon EMR

Ejecución y escalado sencillo de Apache Hadoop, Spark, HBase, Presto, Hive y otros marcos de big data

Comience con Amazon EMR

Socios

Amazon EMR proporciona un marco Hadoop hospedado que facilita, acelera y rentabiliza procesar enormes cantidades de datos en instancias Amazon EC2 dinámicamente escalables. También puede ejecutar en Amazon EMR otros marcos de trabajo distribuidos populares, como Apache Spark, HBase, Presto y Flink, e interactuar con los datos de otros almacenes de datos de AWS, como Amazon S3 y Amazon DynamoDB.

Amazon EMR administra con seguridad y fiabilidad un amplio conjunto de casos de uso de big data, incluido el análisis de logs, la indexación web, las transformaciones de datos (ETL), el aprendizaje automático, el análisis financiero, la simulación científica y la bioinformática.

Solicite soporte para su prueba de concepto o evaluación »

Novedades

Fecha	Anuncio
Nov 21	Habilite ahora la autenticación con Kerberos y la autorización de EMRFS en Amazon EMR
Nov 07	Nuevo Quick Start: Crear un lago de datos en la nube de AWS con la plataforma de big data Talend y los servicios de AWS
Oct 12	Amazon EMR admite ahora instancias I3

Amazon EMR en el blog de AWS Big Data

Processing VPC Flow Logs with Amazon EMR

Data Lake Ingestion: Automatically Partition Hive External Tables with AWS

Building and Deploying Custom Applications with Apache Bigtop and Amazon EMR

¿Potenciará Spark los datos de la medicina de precisión?

Use sus aplicaciones de código abierto favoritas

Haga clic para agrandar — **Velocidad de lanzamiento de Amazon EMR**

Con los lanzamientos versionados en Amazon EMR, puede seleccionar y usar fácilmente los últimos proyectos de código abierto en su clúster de EMR, incluidas las aplicaciones presentes en los ecosistemas Apache Hadoop y Spark. El software lo instala y configura Amazon EMR, para que pueda dedicar más tiempo a aumentar el valor de sus datos sin preocuparse por tareas administrativas y de infraestructura.

Casos prácticos de clientes

Beneficios

Facilidad de uso

Puede lanzar un clúster de Amazon EMR en cuestión de minutos. No hay que preocuparse por el aprovisionamiento de nodos, la configuración del clúster, la configuración de Hadoop ni el ajuste del clúster. Amazon EMR se encarga de estas tareas para que usted pueda centrarse en los análisis.

Bajo costo

Los precios de Amazon EMR son simples y predecibles: paga una tarifa por segundo por cada segundo utilizado, con un cobro mínimo de un minuto. Puede lanzar un clúster de Hadoop de 10 nodos por tan solo 0,15 USD la hora. Como Amazon EMR ofrece soporte nativo para las instancias de subasta y reservadas de Amazon EC2, puede ahorrar entre el 50% y el 80% del costo de las instancias subyacentes.

Elasticidad

Gracias a Amazon EMR, puede aprovisionar una instancia informática o cientos o miles de ellas para procesar datos en cualquier escala. Puede aumentar o reducir con facilidad el número de instancias de forma manual o con AutoScaling y solo tendrá que pagar por lo que utilice.

Fiabilidad

Puede dedicar menos tiempo a ajustar y monitorizar el clúster. Amazon EMR ha mejorado Hadoop para la nube. También monitorea el clúster – reintenta las tareas fallidas y sustituye automáticamente las instancias que tengan un desempeño deficiente.

Seguridad

Amazon EMR configura automáticamente el firewall de Amazon EC2 que controla el acceso de red a las instancias y el usuario puede lanzar clústeres en Amazon Virtual Private Cloud (VPC), que se trata de una red aislada lógicamente que define el usuario. Si se trata de objetos almacenados en Amazon S3, puede utilizar el cifrado en el lado del servidor o el cifrado en el lado del cliente de Amazon S3 con ayuda de EMRFS, con AWS Key Management Service o con claves administradas por el cliente. También es posible habilitar fácilmente otras opciones de cifrado y autenticación con Kerberos.

Flexible

El usuario tiene el pleno control del clúster. Tendrá acceso raíz a todas las instancias, para que pueda instalar aplicaciones adicionales con facilidad y personalizar cada clúster con acciones de arranque. También puede implementar clústeres de Amazon EMR con AMI de Amazon Linux personalizadas.

¿Qué puede crear con Amazon EMR?

Más información sobre los casos de uso a continuación:

Análisis clickstream

Amazon EMR se puede usar para analizar datos clickstream para segmentar usuarios, comprender las preferencias de los usuarios y entregar anuncios más efectivos.

Obtenga información sobre cómo Razorfish utiliza EMR para el análisis clickstream »

Análisis en tiempo real

Reciba y procese datos en tiempo real de Amazon Kinesis, Apache Kafka u otras transmisiones de datos con Spark Streaming en Amazon EMR. Realice el análisis de streaming de forma tolerante a fallos y escriba los resultados en Amazon S3 o HDFS.
Obtenga información sobre cómo Hearst utiliza Spark Streaming »

Análisis de logs

Amazon EMR se puede utilizar para procesar logs generados por aplicaciones web y móviles. Amazon EMR ayuda a los clientes a transformar petabytes de datos desestructurados o semiestructurados en perspectivas útiles sobre las aplicaciones o los usuarios.
Obtenga información sobre cómo Yelp utiliza EMR para manejar características clave de sitios web »

Extracción, transformación y carga (ETL)

Amazon EMR se puede utilizar para realizar de forma rápida y rentable cargas de trabajo de transformación de datos (ETL), como por ejemplo ordenación, agregación e inclusión, en conjuntos de datos grandes.

Obtenga información sobre cómo Redfin utiliza clústeres de EMR transitorios para ETL »

Análisis predictivos

Apache Spark en Amazon EMR incluye MLlib para ofrecer algoritmos de aprendizaje automático escalable, o también puede usar sus propias bibliotecas. Al almacenar conjuntos de datos en memoria, Spark ofrece un gran desempeño para cargas de trabajo de aprendizaje automático común.
Obtenga información sobre cómo Intent Media utiliza Spark MLib »

Genómica

Amazon EMR se puede utilizar para procesar grandes cantidades de datos genómicos y otros conjuntos de datos científicos de gran tamaño de forma rápida y eficiente. Los investigadores pueden obtener acceso a los datos genómicos hospedados de forma gratuita en AWS.
Obtenga información sobre Apache Spark y la medicina de precisión »

Comience a usar Amazon EMR

Es muy fácil comenzar a usar Amazon EMR. Siga nuestra Guía de introducción para lanzar el primer clúster de Amazon EMR y comenzar a analizar datos con unos pocos clics.

Introducción

INTRODUCCIÓN A AWS

Aprenda a utilizar AWS en cuestión de minutos

CAPA GRATUITA DE AWS

Adquiera experiencia práctica y gratuita con AWS durante 12 meses