Amazon EMR proporciona un marco Hadoop hospedado que facilita, acelera y rentabiliza procesar enormes cantidades de datos en instancias Amazon EC2 dinámicamente escalables. También puede ejecutar en Amazon EMR otros marcos de trabajo distribuidos populares, como Apache Spark, HBase, Presto y Flink, e interactuar con los datos de otros almacenes de datos de AWS, como Amazon S3 y Amazon DynamoDB.
Amazon EMR administra con seguridad y fiabilidad un amplio conjunto de casos de uso de big data, incluido el análisis de logs, la indexación web, las transformaciones de datos (ETL), el aprendizaje automático, el análisis financiero, la simulación científica y la bioinformática.
Con los lanzamientos versionados en Amazon EMR, puede seleccionar y usar fácilmente los últimos proyectos de código abierto en su clúster de EMR, incluidas las aplicaciones presentes en los ecosistemas Apache Hadoop y Spark. El software lo instala y configura Amazon EMR, para que pueda dedicar más tiempo a aumentar el valor de sus datos sin preocuparse por tareas administrativas y de infraestructura.
Facilidad de uso
Puede lanzar un clúster de Amazon EMR en cuestión de minutos. No hay que preocuparse por el aprovisionamiento de nodos, la configuración del clúster, la configuración de Hadoop ni el ajuste del clúster. Amazon EMR se encarga de estas tareas para que usted pueda centrarse en los análisis.
Bajo costo
Los precios de Amazon EMR son simples y predecibles: paga una tarifa por segundo por cada segundo utilizado, con un cobro mínimo de un minuto. Puede lanzar un clúster de Hadoop de 10 nodos por tan solo 0,15 USD la hora. Como Amazon EMR ofrece soporte nativo para las instancias de subasta y reservadas de Amazon EC2, puede ahorrar entre el 50% y el 80% del costo de las instancias subyacentes.
Elasticidad
Gracias a Amazon EMR, puede aprovisionar una instancia informática o cientos o miles de ellas para procesar datos en cualquier escala. Puede aumentar o reducir con facilidad el número de instancias de forma manual o con AutoScaling y solo tendrá que pagar por lo que utilice.
Fiabilidad
Puede dedicar menos tiempo a ajustar y monitorizar el clúster. Amazon EMR ha mejorado Hadoop para la nube. También monitorea el clúster – reintenta las tareas fallidas y sustituye automáticamente las instancias que tengan un desempeño deficiente.
Seguridad
Amazon EMR configura automáticamente el firewall de Amazon EC2 que controla el acceso de red a las instancias y el usuario puede lanzar clústeres en Amazon Virtual Private Cloud (VPC), que se trata de una red aislada lógicamente que define el usuario. Si se trata de objetos almacenados en Amazon S3, puede utilizar el cifrado en el lado del servidor o el cifrado en el lado del cliente de Amazon S3 con ayuda de EMRFS, con AWS Key Management Service o con claves administradas por el cliente. También es posible habilitar fácilmente otras opciones de cifrado y autenticación con Kerberos.
Flexible
El usuario tiene el pleno control del clúster. Tendrá acceso raíz a todas las instancias, para que pueda instalar aplicaciones adicionales con facilidad y personalizar cada clúster con acciones de arranque. También puede implementar clústeres de Amazon EMR con AMI de Amazon Linux personalizadas.
Análisis clickstream
Amazon EMR se puede usar para analizar datos clickstream para segmentar usuarios, comprender las preferencias de los usuarios y entregar anuncios más efectivos.
Obtenga información sobre cómo Razorfish utiliza EMR para el análisis clickstream »
Análisis en tiempo real
Reciba y procese datos en tiempo real de Amazon Kinesis, Apache Kafka u otras transmisiones de datos con Spark Streaming en Amazon EMR. Realice el análisis de streaming de forma tolerante a fallos y escriba los resultados en Amazon S3 o HDFS.
Obtenga información sobre cómo Hearst utiliza Spark Streaming »
Análisis de logs
Amazon EMR se puede utilizar para procesar logs generados por aplicaciones web y móviles. Amazon EMR ayuda a los clientes a transformar petabytes de datos desestructurados o semiestructurados en perspectivas útiles sobre las aplicaciones o los usuarios.
Obtenga información sobre cómo Yelp utiliza EMR para manejar características clave de sitios web »
Extracción, transformación y carga (ETL)
Amazon EMR se puede utilizar para realizar de forma rápida y rentable cargas de trabajo de transformación de datos (ETL), como por ejemplo ordenación, agregación e inclusión, en conjuntos de datos grandes.
Obtenga información sobre cómo Redfin utiliza clústeres de EMR transitorios para ETL »
Análisis predictivos
Apache Spark en Amazon EMR incluye MLlib para ofrecer algoritmos de aprendizaje automático escalable, o también puede usar sus propias bibliotecas. Al almacenar conjuntos de datos en memoria, Spark ofrece un gran desempeño para cargas de trabajo de aprendizaje automático común.
Obtenga información sobre cómo Intent Media utiliza Spark MLib »
Genómica
Amazon EMR se puede utilizar para procesar grandes cantidades de datos genómicos y otros conjuntos de datos científicos de gran tamaño de forma rápida y eficiente. Los investigadores pueden obtener acceso a los datos genómicos hospedados de forma gratuita en AWS.
Obtenga información sobre Apache Spark y la medicina de precisión »
Es muy fácil comenzar a usar Amazon EMR. Siga nuestra Guía de introducción para lanzar el primer clúster de Amazon EMR y comenzar a analizar datos con unos pocos clics.