Amazon EMR предоставляет управляемую инфраструктуру Hadoop, которая способна эффективно, быстро и экономично обрабатывать большие объемы данных на динамически масштабируемых инстансах Amazon EC2. В Amazon EMR можно также запускать другие известные распределенные инфраструктуры, включая Apache Spark, HBase, Presto и Flink, и работать с данными, находящимися в других хранилищах данных AWS, таких как Amazon S3 и Amazon DynamoDB.

Amazon EMR безопасно и надежно выполняет обработку больших данных для различных примеров использования, включая анализ журналов, индексацию веб-сайтов, трансформацию данных (ETL), машинное обучение, финансовый анализ, научное моделирование и биоинформатику.

amazon_emr_thumb_resize_prod_pg_378x171
6:03
Знакомство с Amazon EMR

Щелкните, чтобы увеличить

График релизов Amazon EMR

График релизов Amazon EMR

Управление версиями релизов Amazon EMR позволяет легко выбирать и использовать новейшие проекты с открытым исходным кодом в кластере EMR, включая приложения в инфраструктурах Apache Hadoop и Spark. Установку и настройку ПО выполняет сервис Amazon EMR, так что вы сможете забыть о работе с инфраструктурой и административных задачах и сосредоточиться на реализации потенциала своих данных.


Простота использования

Простота использования

Для запуска кластера Amazon EMR потребуется лишь несколько минут. Не нужно заниматься выделением узлов, настройкой или оптимизацией кластера, а также конфигурацией Hadoop. Обо всем позаботится Amazon EMR, а вы можете сконцентрироваться на аналитических задачах.

Низкая стоимость

Низкая стоимость

Модель ценообразования Amazon EMR проста и предсказуема: каждый используемый инстанс оплачивается на почасовой основе. Запустить кластер Hadoop, содержащий 10 узлов, можно всего за 0,15 USD в час. Благодаря встроенной поддержке спотовых и зарезервированных инстансов EC2 Amazon EMR поможет сэкономить 50–80 % от стоимости используемых им инстансов.

Эластичность

Эластичность

Amazon EMR позволяет выделить от одного до сотен или тысяч вычислительных инстансов для обработки данных любого масштаба. Увеличивать или сокращать число инстансов легко можно вручную или с помощью функции Auto Scaling, оплачивая только используемые ресурсы.

Надежность

Надежность

Вы можете сэкономить время, которое потратили бы на настройку и мониторинг кластера. Amazon EMR осуществляет настройку Hadoop для облака, а также мониторинг вашего кластера, повторно запуская задания, выполнить которые не удалось, и автоматически заменяя инстансы с низкой производительностью.

 

Безопасность

Безопасность

Amazon EMR автоматически настраивает брандмауэр Amazon EC2, управляющий сетевым доступом к инстансам, и вы можете запускать кластеры в Amazon Virtual Private Cloud (VPC), созданной вами логически изолированной сети. Для объектов, которые хранятся в среде Amazon S3, можно использовать серверное или клиентское шифрование Amazon S3 на базе EMRFS с помощью AWS Key Management Service или собственными ключами пользователя.

Гибкость

Гибкость

Вы полностью контролируете свои кластеры. У вас есть доступ с правами root к каждому инстансу, и вы можете с легкостью установить дополнительные приложения и настроить кластеры по своему усмотрению. Amazon EMR также поддерживает множество дистрибутивов и приложений Hadoop.

Анализ навигации

Анализ навигации

Amazon EMR можно использовать для анализа данных о навигации для разделения пользователей на категории, сбора информации об их предпочтениях и создании более эффективной рекламы.    
    
Подробнее о том, как компания Razorfish использует EMR для анализа навигации »

Аналитика в режиме реального времени

Аналитика в режиме реального времени

Сбор и обработка данных в режиме реального времени из Amazon Kinesis, Apache Kafka и других потоков с помощью расширения Spark Streaming в Amazon EMR. Отказоустойчивые методы анализа потоковых данных и запись результатов в Amazon S3 или файловую систему HDFS.
Подробнее о том, как компания Hearst использует Spark Streaming »

Анализ журналов

Анализ журналов

Amazon EMR можно использовать для обработки лог-файлов, генерируемых веб- и мобильными приложениями. Amazon EMR позволяет клиентам работать с петабайтами неструктурированных или слабоструктурированных данных, чтобы получить полезную информацию об их приложениях или пользователях.
Подробнее о том, как Yelp использует EMR для управления ключевыми возможностями веб-сайта »

Извлечение, преобразование и загрузка данных (ETL)

Extract Transform Load (ETL)

Amazon EMR можно использовать для быстрого и экономичного выполнения рабочих нагрузок по трансформации данных (ETL) – сортировки, агрегирования, слияния – на больших наборах данных.
  
Подробнее о том, как Redfin использует транзитные кластеры EMR для ETL »

Прогнозная аналитика

Прогнозная аналитика

Apache Spark в Amazon EMR содержит библиотеку масштабируемых алгоритмов машинного обучения MLlib, а также позволяет использовать собственные библиотеки. За счет хранения наборов данных в памяти Spark показывает высокую производительность при выполнении типовых рабочих нагрузок в области машинного обучения.
Подробнее о том, как компания Intent Media использует Spark MLib »

Геномика

Геномика

Amazon EMR можно использовать для быстрой и эффективной обработки больших объемов данных генома и других больших наборов научных данных. Исследователям предоставляется бесплатный доступ к данным генома, хранящимся в AWS.
Подробнее об Apache Spark и точной медицине »

Начать работу с Amazon EMR очень просто. В руководстве по началу работы приведены инструкции по запуску первого кластера Amazon EMR, который позволит начать анализ данных всего за пару щелчков мышью.

 

Начало работы