Amazon EMR

Эффективно запускайте и масштабируйте Apache Hadoop, Spark, HBase, Presto, Hive и другие инфраструктуры для работы с большими данными.

Начало работы с Amazon EMR

Документация

Amazon EMR предоставляет управляемую инфраструктуру Hadoop, которая способна эффективно, быстро и экономично обрабатывать большие объемы данных на динамически масштабируемых инстансах Amazon EC2. В Amazon EMR можно также запускать другие известные распределенные инфраструктуры, включая Apache Spark, HBase, Presto и Flink, и работать с данными, находящимися в других хранилищах данных AWS, таких как Amazon S3 и Amazon DynamoDB.

Amazon EMR безопасно и надежно выполняет обработку больших данных для различных примеров использования, включая анализ журналов, индексацию веб-сайтов, трансформацию данных (ETL), машинное обучение, финансовый анализ, научное моделирование и биоинформатику.

Новые возможности

Amazon EMR в блоге AWS Big Data Blog

Processing VPC Flow Logs with Amazon EMR

Data Lake Ingestion: Automatically Partition Hive External Tables with AWS

Building and Deploying Custom Applications with Apache Bigtop and Amazon EMR

Will Spark Power the Data behind Precision Medicine?

Поддержка ваших любимых приложений с открытым исходным кодом

Щелкните, чтобы увеличить — **График релизов Amazon EMR**

Управление версиями релизов Amazon EMR позволяет легко выбирать и использовать новейшие проекты с открытым исходным кодом в кластере EMR, включая приложения в инфраструктурах Apache Hadoop и Spark. Установку и настройку ПО выполняет сервис Amazon EMR, так что вы сможете забыть о работе с инфраструктурой и административных задачах и сосредоточиться на реализации потенциала своих данных.

Примеры использования клиентами

Преимущества

Простота использования

Для запуска кластера Amazon EMR потребуется лишь несколько минут. Не нужно заниматься выделением узлов, настройкой или оптимизацией кластера, а также конфигурацией Hadoop. Обо всем позаботится Amazon EMR, а вы можете сконцентрироваться на аналитических задачах.

Низкая стоимость

Модель ценообразования Amazon EMR проста и предсказуема: каждый используемый инстанс оплачивается на почасовой основе. Запустить кластер Hadoop, содержащий 10 узлов, можно всего за 0,15 USD в час. Благодаря встроенной поддержке спотовых и зарезервированных инстансов EC2 Amazon EMR поможет сэкономить 50–80 % от стоимости используемых им инстансов.

Эластичность

Amazon EMR позволяет выделить от одного до сотен или тысяч вычислительных инстансов для обработки данных любого масштаба. Увеличивать или сокращать число инстансов легко можно вручную или с помощью функции Auto Scaling, оплачивая только используемые ресурсы.

Надежность

Вы можете сэкономить время, которое потратили бы на настройку и мониторинг кластера. Amazon EMR осуществляет настройку Hadoop для облака, а также мониторинг вашего кластера, повторно запуская задания, выполнить которые не удалось, и автоматически заменяя инстансы с низкой производительностью.

Безопасность

Amazon EMR автоматически настраивает брандмауэр Amazon EC2, управляющий сетевым доступом к инстансам, и вы можете запускать кластеры в Amazon Virtual Private Cloud (VPC), созданной вами логически изолированной сети. Для объектов, которые хранятся в среде Amazon S3, можно использовать серверное или клиентское шифрование Amazon S3 на базе EMRFS с помощью AWS Key Management Service или собственными ключами пользователя.

Гибкость

Вы полностью контролируете свои кластеры. У вас есть доступ с правами root к каждому инстансу, и вы можете с легкостью установить дополнительные приложения и настроить кластеры по своему усмотрению. Amazon EMR также поддерживает множество дистрибутивов и приложений Hadoop.

Для чего можно использовать Amazon EMR?

Подробнее о примерах использования см. ниже.

Анализ навигации

Amazon EMR можно использовать для анализа данных о навигации для разделения пользователей на категории, сбора информации об их предпочтениях и создании более эффективной рекламы.

Подробнее о том, как компания Razorfish использует EMR для анализа навигации »

Аналитика в режиме реального времени

Сбор и обработка данных в режиме реального времени из Amazon Kinesis, Apache Kafka и других потоков с помощью расширения Spark Streaming в Amazon EMR. Отказоустойчивые методы анализа потоковых данных и запись результатов в Amazon S3 или файловую систему HDFS.
Подробнее о том, как компания Hearst использует Spark Streaming »

Анализ журналов

Amazon EMR можно использовать для обработки лог-файлов, генерируемых веб- и мобильными приложениями. Amazon EMR позволяет клиентам работать с петабайтами неструктурированных или слабоструктурированных данных, чтобы получить полезную информацию об их приложениях или пользователях.
Подробнее о том, как Yelp использует EMR для управления ключевыми возможностями веб-сайта »

Извлечение, преобразование и загрузка данных (ETL)

Extract Transform Load (ETL)

Amazon EMR можно использовать для быстрого и экономичного выполнения рабочих нагрузок по трансформации данных (ETL) – сортировки, агрегирования, слияния – на больших наборах данных.

Подробнее о том, как Redfin использует транзитные кластеры EMR для ETL »

Прогнозная аналитика

Apache Spark в Amazon EMR содержит библиотеку масштабируемых алгоритмов машинного обучения MLlib, а также позволяет использовать собственные библиотеки. За счет хранения наборов данных в памяти Spark показывает высокую производительность при выполнении типовых рабочих нагрузок в области машинного обучения.
Подробнее о том, как компания Intent Media использует Spark MLib »

Геномика

Amazon EMR можно использовать для быстрой и эффективной обработки больших объемов данных генома и других больших наборов научных данных. Исследователям предоставляется бесплатный доступ к данным генома, хранящимся в AWS.
Подробнее об Apache Spark и точной медицине »

Начните работу с Amazon EMR

Начать работу с Amazon EMR очень просто. В руководстве по началу работы приведены инструкции по запуску первого кластера Amazon EMR, который позволит начать анализ данных всего за пару щелчков мышью.

Начало работы

НАЧАЛО РАБОТЫ С AWS

Узнайте, как начать работу с AWS за несколько минут

УРОВЕНЬ БЕСПЛАТНОГО ПОЛЬЗОВАНИЯ AWS

Оцените возможности AWS в течение 12 месяцев бесплатно