Amazon EMR 提供受管的 Hadoop 框架,讓您以輕鬆、快速且經濟實惠的方式,在動態可擴展的 Amazon EC2 執行個體之間處理大量資料。您也可以執行其他常用的分散式架構 (例如 Amazon EMR 中的 Apache Spark、HBase、Presto 和 Flink),並與其他 AWS 資料存放區 (例如 Amazon S3 和 Amazon DynamoDB) 中的資料進行互動。
Amazon EMR 能夠安全可靠地處理各式各樣的大數據使用案例,包括日誌分析、Web 索引、資料轉換 (ETL)、機器學習、財務分析、科學模擬和生物資訊學。
在 Amazon EMR 上使用版本控制發行功能,您可以輕鬆地在 EMR 叢集選取和使用最新的開放原始碼專案,包括 Apache Hadoop 和 Spark 生態系統中的應用程式。Amazon EMR 會安裝和設定軟體,所以您可以將更多時間用於提升資料的價值,無須擔心基礎設施和管理任務。
低成本
Amazon EMR 定價不僅簡單且可預估:為所使用的執行個體小時數按照小時費率支付費用。您可以用最低每小時 0.15 USD 的價格來啟動 10 節點 Hadoop 叢集。因為 Amazon EMR 原生支援 Amazon EC2 競價型和預留執行個體,您還可以節省 50% 到 80% 的基礎執行個體成本。
彈性
使用 Amazon EMR,您可以佈建一個、數百個或者甚至數千個運算執行個體來處理任何規模的資料。您可以手動或使用 Auto Scaling 輕鬆增加或減少執行個體的數量,並且只需按使用量付費。
即時分析
在 Amazon EMR 上使用 Spark Streaming,取用和處理來自 Amazon Kinesis、Apache Kafka 或其他資料串流的即時資料。以容錯方式執行串流分析,並將結果寫入 Amazon S3 或 HDFS。
了解 Hearst 如何使用 Spark Streaming »
日誌分析
Amazon EMR 可用於處理 Web 和行動應用程式產生的各種日誌。Amazon EMR 可幫助客戶將數 PB 的非結構化或者半結構化資料轉變為有用的應用程式或使用者見解。
了解 Yelp 如何使用 EMR 提升主要網站功能 »
Extract Transform Load (ETL)
Amazon EMR 可用於快速且經濟實惠的執行資料轉換工作負載 (ETL),例如在大型資料集上進行排序、彙總和結合。
了解 Redfin 如何使用暫時性 EMR 叢集進行 ETL »
預測分析
Amazon EMR 上的 Apache Spark 包含適用於可擴展性機器學習演算法的 MLlib,您也可以使用自己的程式庫。Spark 將資料集存放在記憶體內,可為常見的機器學習工作負載提供極佳的效能。
了解 Intent Media 如何使用 Spark MLib »