Amazon EMR

轻松运行和扩展 Apache Hadoop、Spark、HBase、Presto、Hive 以及其他大数据框架

开始使用 Amazon EMR

合作伙伴

Amazon EMR 提供的托管 Hadoop 框架可以让您快速轻松、经济高效地在多个动态可扩展的 Amazon EC2 实例之间处理大量数据。您还可以运行其他常用的分布式框架 (例如 Amazon EMR 中的 Apache Spark、HBase、Presto 和 Flink)，以及与其他 AWS 数据存储服务 (例如 Amazon S3 和 Amazon DynamoDB) 中的数据进行交互。

Amazon EMR 能够安全可靠地处理广泛的大数据使用案例，包括日志分析、Web 索引、数据转换 (ETL)、机器学习、财务分析、科学模拟和生物信息。

请求为您的概念验证或评估提供支持 »

观看此网站上的视频需安装 Adobe Flash Player 或新型浏览器。

新特性

有关 Amazon EMR 的 AWS 大数据博客

Processing VPC Flow Logs with Amazon EMR

Data Lake Ingestion: Automatically Partition Hive External Tables with AWS

Building and Deploying Custom Applications with Apache Bigtop and Amazon EMR

Will Spark Power the Data behind Precision Medicine?

选择您喜爱的开源应用程序

借助 Amazon EMR 上受版本控制的发布策略，您可以在 EMR 群集中轻松选择和使用最新的开源项目，包括 Apache Hadoop 和 Spark 生态系统中的应用程序。软件由 Amazon EMR 进行安装和配置，使您能够投入更多时间来提高数据价值，而不用操心基础设施和管理任务。

客户案例研究

优点

易于使用

只需几分钟即可启动 Amazon EMR 群集。您不必担心节点预置、集群设置、Hadoop 配置或集群优化。Amazon EMR 自会处理这些任务，因此您只需集中精力进行分析即可。

成本低廉

Amazon EMR 定价简单，预估轻松：按照每个使用的实例小时以一定的小时费率支付费用。您可以以低至每小时 0.15 USD 的价格启动 10 节点 Hadoop 集群。因为 Amazon EMR 在设计理念上支持 Amazon EC2 竞价和预留实例，您还可以将基础实例成本节省 50-80%。

灵活

使用 Amazon EMR，您可以预置一个、数百个或者甚至数千个计算实例来处理任何规模的数据。您可以手动或使用 Auto Scaling 轻松增加或减少实例的数量，并且按实际用量付费。

运行可靠

您用于调试和监控群集的时间将更少。Amazon EMR 已经针对云优化了 Hadoop，它还会监控您的群集，重新尝试失败的任务，并自动替换性能不佳的实例。

安全

Amazon EMR 会自动配置 Amazon EC2 防火墙设置以控制对实例的网络访问，并且您可以在 Amazon Virtual Private Cloud (VPC) (由您定义的逻辑隔离的网络) 中启动群集。对于 Amazon S3 中储存的对象，您可以通过 EMRFS、AWS Key Management Service 或客户管理的密钥来使用 Amazon S3 服务器端加密或 Amazon S3 客户端加密。

灵活

您可以完全掌控您的群集。您拥有每个实例的根访问权限，因此您可以轻松安装额外应用程序和定制每个集群。Amazon EMR 还支持多个 Hadoop 分配和应用程序。

您可以使用 Amazon EMR 构建什么内容？

详细了解以下使用案例：

点击流分析

Amazon EMR 可用于分析点击流数据，以便细分用户、了解各种用户偏好，并投放更有效的广告。

了解 Razorfish 如何使用 EMR 来进行点击流分析 »

实时分析

借助 Amazon EMR 上的 Spark Streaming，使用和处理来自 Amazon Kinesis、Apache Kafka 或其他数据流的实时数据。采用容错方式执行流分析，并将相应结果写入 Amazon S3 或 HDFS 中。
了解 Hearst 如何使用 Spark Streaming »

日志分析

Amazon EMR 可用于处理 Web 和移动应用程序生成的各种日志。Amazon EMR 可帮助客户将数 PB 的非结构化或者半结构化数据转变为深刻的应用程序或者用户洞察。
了解 Yelp 如何使用 EMR 提升主要网站功能 »

提取、转换、加载 (ETL)

Amazon EMR 可用于在大型数据集上快速且经济高效地执行数据转换工作负载 (ETL)，例如分类、聚合和合并。

了解 Redfin 如何使用临时 EMR 群集进行 ETL »

预测分析

Amazon EMR 上的 Apache Spark 包括适用于各种可扩展的机器学习算法的 MLlib，您也可以使用自己的库。通过将数据集存储在内存中，Spark 可以为常见的机器学习工作负载提供出色的性能。
了解 Intent Media 如何使用 Spark MLib »

基因组学

Amazon EMR 可迅速、有效地处理大量的基因数据及其他大型科学数据集。研究人员可以访问 AWS 上受管理的免费基因组数据。
了解 Apache Spark 和精密医学 »

开始使用 Amazon EMR

Amazon EMR 非常容易上手。按照我们的入门指南，单击几次即可启动您的首个 Amazon EMR 群集并开始分析数据。

开始使用

AWS 入门

了解如何在几分钟内开始使用 AWS

AWS 免费套餐

获取 12 个月的 AWS 免费亲身实践体验