Amazon EMR 提供的托管 Hadoop 框架可以让您快速轻松、经济高效地在多个动态可扩展的 Amazon EC2 实例之间处理大量数据。您还可以运行其他常用的分布式框架 (例如 Amazon EMR 中的 Apache Spark、HBase、Presto 和 Flink),以及与其他 AWS 数据存储服务 (例如 Amazon S3 和 Amazon DynamoDB) 中的数据进行交互。
Amazon EMR 能够安全可靠地处理广泛的大数据使用案例,包括日志分析、Web 索引、数据转换 (ETL)、机器学习、财务分析、科学模拟和生物信息。
深入探究 Amazon EMR 上的 Flink 和 Spark
在 AWS 上部署和扩展 Apache Spark 和 Flink 群集。获取使用案例和最佳实践。
2017 年 2 月 24 日上午 9:00–10:00 | 在此注册
借助 Amazon EMR 上受版本控制的发布策略,您可以在 EMR 群集中轻松选择和使用最新的开源项目,包括 Apache Hadoop 和 Spark 生态系统中的应用程序。软件由 Amazon EMR 进行安装和配置,使您能够投入更多时间来提高数据价值,而不用操心基础设施和管理任务。
![费用低廉 费用低廉](http://web.archive.org./web/20170224083219im_/https://d0.awsstatic.com/icons/benefit-icons/100x100_benefit_lowcost-affordable.png)
成本低廉
Amazon EMR 定价简单,预估轻松:按照每个使用的实例小时以一定的小时费率支付费用。您可以以低至每小时 0.15 USD 的价格启动 10 节点 Hadoop 集群。因为 Amazon EMR 在设计理念上支持 Amazon EC2 竞价和预留实例,您还可以将基础实例成本节省 50-80%。
![灵活 灵活](http://web.archive.org./web/20170224083219im_/https://d0.awsstatic.com/icons/benefit-icons/100x100_benefit_elastic.png)
灵活
使用 Amazon EMR,您可以预置一个、数百个或者甚至数千个计算实例来处理任何规模的数据。您可以手动或使用 Auto Scaling 轻松增加或减少实例的数量,并且按实际用量付费。
![实时分析 实时分析](http://web.archive.org./web/20170224083219im_/https://d0.awsstatic.com/Test%20Images/MasonTests/BigData__collection-processing.png)
实时分析
借助 Amazon EMR 上的 Spark Streaming,使用和处理来自 Amazon Kinesis、Apache Kafka 或其他数据流的实时数据。采用容错方式执行流分析,并将相应结果写入 Amazon S3 或 HDFS 中。
了解 Hearst 如何使用 Spark Streaming »
![日志分析 日志分析](http://web.archive.org./web/20170224083219im_/https://d0.awsstatic.com/Test%20Images/MasonTests/BigData__full-text-search.png)
日志分析
Amazon EMR 可用于处理 Web 和移动应用程序生成的各种日志。Amazon EMR 可帮助客户将数 PB 的非结构化或者半结构化数据转变为深刻的应用程序或者用户洞察。
了解 Yelp 如何使用 EMR 提升主要网站功能 »
![ETL ETL](http://web.archive.org./web/20170224083219im_/https://d0.awsstatic.com/Test%20Images/Amy%20Test%20Images/BigData_hadoop-ETL.png)
提取、转换、加载 (ETL)
Amazon EMR 可用于在大型数据集上快速且经济高效地执行数据转换工作负载 (ETL),例如分类、聚合和合并。
了解 Redfin 如何使用临时 EMR 群集进行 ETL »
![预测分析 预测分析](http://web.archive.org./web/20170224083219im_/https://d0.awsstatic.com/Test%20Images/Amy%20Test%20Images/BigData_machine-learning.png)
预测分析
Amazon EMR 上的 Apache Spark 包括适用于各种可扩展的机器学习算法的 MLlib,您也可以使用自己的库。通过将数据集存储在内存中,Spark 可以为常见的机器学习工作负载提供出色的性能。
了解 Intent Media 如何使用 Spark MLib »