La nube de AWS
La nube de AWS
Comience con Amazon EMR

Amazon EMR proporciona un marco Hadoop hospedado que facilita, acelera y rentabiliza procesar enormes cantidades de datos en instancias Amazon EC2 dinámicamente escalables. También puede ejecutar en Amazon EMR otros marcos de trabajo distribuidos populares, como Apache Spark, HBase, Presto y Flink, e interactuar con los datos de otros almacenes de datos de AWS, como Amazon S3 y Amazon DynamoDB.

Amazon EMR administra con seguridad y fiabilidad un amplio conjunto de casos de uso de big data, incluido el análisis de logs, la indexación web, las transformaciones de datos (ETL), el aprendizaje automático, el análisis financiero, la simulación científica y la bioinformática.

amazon_emr_thumb_resize_prod_pg_378x171
6:03
Introducción a Amazon EMR

Haga clic para agrandar

Velocidad de lanzamiento de Amazon EMR

Velocidad de lanzamiento de Amazon EMR

Con los lanzamientos versionados en Amazon EMR, puede seleccionar y usar fácilmente los últimos proyectos de código abierto en su clúster de EMR, incluidas las aplicaciones presentes en los ecosistemas Apache Hadoop y Spark. El software lo instala y configura Amazon EMR, para que pueda dedicar más tiempo a aumentar el valor de sus datos sin preocuparse por tareas administrativas y de infraestructura.


Facilidad de uso

Facilidad de uso

Puede lanzar un clúster de Amazon EMR en cuestión de minutos. No hay que preocuparse por el aprovisionamiento de nodos, la configuración del clúster, la configuración de Hadoop ni el ajuste del clúster. Amazon EMR se encarga de estas tareas para que usted pueda centrarse en los análisis. 

Bajo costo

Bajo costo

Los precios de Amazon EMR son simples y predecibles: paga una tarifa por segundo por cada segundo utilizado, con un cobro mínimo de un minuto. Puede lanzar un clúster de Hadoop de 10 nodos por tan solo 0,15 USD la hora. Como Amazon EMR ofrece soporte nativo para las instancias de subasta y reservadas de Amazon EC2, puede ahorrar entre el 50% y el 80% del costo de las instancias subyacentes.

Elasticidad

Elasticidad

Gracias a Amazon EMR, puede aprovisionar una instancia informática o cientos o miles de ellas para procesar datos en cualquier escala. Puede aumentar o reducir con facilidad el número de instancias de forma manual o con AutoScaling y solo tendrá que pagar por lo que utilice.

Fiabilidad

Fiabilidad

Puede dedicar menos tiempo a ajustar y monitorizar el clúster. Amazon EMR ha mejorado Hadoop para la nube. También monitorea el clúster – reintenta las tareas fallidas y sustituye automáticamente las instancias que tengan un desempeño deficiente.

 

Seguridad

Seguridad

Amazon EMR configura automáticamente el firewall de Amazon EC2 que controla el acceso de red a las instancias y el usuario puede lanzar clústeres en Amazon Virtual Private Cloud (VPC), que se trata de una red aislada lógicamente que define el usuario. Si se trata de objetos almacenados en Amazon S3, puede utilizar el cifrado en el lado del servidor o el cifrado en el lado del cliente de Amazon S3 con ayuda de EMRFS, con AWS Key Management Service o con claves administradas por el cliente. También es posible habilitar fácilmente otras opciones de cifrado y autenticación con Kerberos.

Flexible

Flexible

El usuario tiene el pleno control del clúster. Tendrá acceso raíz a todas las instancias, para que pueda instalar aplicaciones adicionales con facilidad y personalizar cada clúster con acciones de arranque. También puede implementar clústeres de Amazon EMR con AMI de Amazon Linux personalizadas.  

Análisis clickstream

Análisis clickstream

Amazon EMR se puede usar para analizar datos clickstream para segmentar usuarios, comprender las preferencias de los usuarios y entregar anuncios más efectivos.    
    
Obtenga información sobre cómo Razorfish utiliza EMR para el análisis clickstream »

Análisis en tiempo real

Análisis en tiempo real

Reciba y procese datos en tiempo real de Amazon Kinesis, Apache Kafka u otras transmisiones de datos con Spark Streaming en Amazon EMR. Realice el análisis de streaming de forma tolerante a fallos y escriba los resultados en Amazon S3 o HDFS.
Obtenga información sobre cómo Hearst utiliza Spark Streaming »

Análisis de logs

Análisis de logs

Amazon EMR se puede utilizar para procesar logs generados por aplicaciones web y móviles. Amazon EMR ayuda a los clientes a transformar petabytes de datos desestructurados o semiestructurados en perspectivas útiles sobre las aplicaciones o los usuarios.
Obtenga información sobre cómo Yelp utiliza EMR para manejar características clave de sitios web »

ETL

Extracción, transformación y carga (ETL)

Amazon EMR se puede utilizar para realizar de forma rápida y rentable cargas de trabajo de transformación de datos (ETL), como por ejemplo ordenación, agregación e inclusión, en conjuntos de datos grandes.
  
Obtenga información sobre cómo Redfin utiliza clústeres de EMR transitorios para ETL »

Análisis predictivos

Análisis predictivos

Apache Spark en Amazon EMR incluye MLlib para ofrecer algoritmos de aprendizaje automático escalable, o también puede usar sus propias bibliotecas. Al almacenar conjuntos de datos en memoria, Spark ofrece un gran desempeño para cargas de trabajo de aprendizaje automático común.
Obtenga información sobre cómo Intent Media utiliza Spark MLib »

Genómica

Genómica

Amazon EMR se puede utilizar para procesar grandes cantidades de datos genómicos y otros conjuntos de datos científicos de gran tamaño de forma rápida y eficiente. Los investigadores pueden obtener acceso a los datos genómicos hospedados de forma gratuita en AWS.
Obtenga información sobre Apache Spark y la medicina de precisión »

Es muy fácil comenzar a usar Amazon EMR. Siga nuestra Guía de introducción para lanzar el primer clúster de Amazon EMR y comenzar a analizar datos con unos pocos clics.

 

Introducción