Amazon EMR 提供的托管 Hadoop 框架可以让您快速轻松、经济高效地在多个动态可扩展的 Amazon EC2 实例之间处理大量数据。您还可以运行其他常用的分布式框架 (例如 Amazon EMR 中的 Apache Spark、HBase、Presto 和 Flink),以及与其他 AWS 数据存储服务 (例如 Amazon S3 和 Amazon DynamoDB) 中的数据进行交互。
Amazon EMR 能够安全可靠地处理广泛的大数据使用案例,包括日志分析、Web 索引、数据转换 (ETL)、机器学习、财务分析、科学模拟和生物信息。
观看此网站上的视频需安装 Adobe Flash Player 或新型浏览器。
借助 Amazon EMR 上受版本控制的发布策略,您可以在 EMR 群集中轻松选择和使用最新的开源项目,包括 Apache Hadoop 和 Spark 生态系统中的应用程序。软件由 Amazon EMR 进行安装和配置,使您能够投入更多时间来提高数据价值,而不用操心基础设施和管理任务。
成本低廉
Amazon EMR 定价简单,预估轻松:按照每个使用的实例小时以一定的小时费率支付费用。您可以以低至每小时 0.15 USD 的价格启动 10 节点 Hadoop 集群。因为 Amazon EMR 在设计理念上支持 Amazon EC2 竞价和预留实例,您还可以将基础实例成本节省 50-80%。
灵活
使用 Amazon EMR,您可以预置一个、数百个或者甚至数千个计算实例来处理任何规模的数据。您可以手动或使用 Auto Scaling 轻松增加或减少实例的数量,并且按实际用量付费。
实时分析
借助 Amazon EMR 上的 Spark Streaming,使用和处理来自 Amazon Kinesis、Apache Kafka 或其他数据流的实时数据。采用容错方式执行流分析,并将相应结果写入 Amazon S3 或 HDFS 中。
了解 Hearst 如何使用 Spark Streaming »
日志分析
Amazon EMR 可用于处理 Web 和移动应用程序生成的各种日志。Amazon EMR 可帮助客户将数 PB 的非结构化或者半结构化数据转变为深刻的应用程序或者用户洞察。
了解 Yelp 如何使用 EMR 提升主要网站功能 »
提取、转换、加载 (ETL)
Amazon EMR 可用于在大型数据集上快速且经济高效地执行数据转换工作负载 (ETL),例如分类、聚合和合并。
了解 Redfin 如何使用临时 EMR 群集进行 ETL »
预测分析
Amazon EMR 上的 Apache Spark 包括适用于各种可扩展的机器学习算法的 MLlib,您也可以使用自己的库。通过将数据集存储在内存中,Spark 可以为常见的机器学习工作负载提供出色的性能。
了解 Intent Media 如何使用 Spark MLib »