Amazon EMR

輕鬆地執行和擴展 Apache Hadoop、Spark、HBase、Presto、Hive 和其他大數據架構

開始使用 Amazon EMR

文件

Amazon EMR 提供受管的 Hadoop 框架，讓您以輕鬆、快速且經濟實惠的方式，在動態可擴展的 Amazon EC2 執行個體之間處理大量資料。您也可以執行其他常用的分散式架構 (例如 Amazon EMR 中的 Apache Spark、HBase、Presto 和 Flink)，並與其他 AWS 資料存放區 (例如 Amazon S3 和 Amazon DynamoDB) 中的資料進行互動。

Amazon EMR 能夠安全可靠地處理各式各樣的大數據使用案例，包括日誌分析、Web 索引、資料轉換 (ETL)、機器學習、財務分析、科學模擬和生物資訊學。

AWS 大數據部落格上的 Amazon EMR

使用 Amazon EMR 處理 VPC Flow Logs

資料湖導入：使用 AWS 自動分割 Hive 外部表格

使用 Apache Bigtop 和 Amazon EMR 建置和部署自訂應用程式

Spark 能夠為精準醫學的資料提供技術支援嗎？

使用您喜愛的開放原始碼應用程式

在 Amazon EMR 上使用版本控制發行功能，您可以輕鬆地在 EMR 叢集選取和使用最新的開放原始碼專案，包括 Apache Hadoop 和 Spark 生態系統中的應用程式。Amazon EMR 會安裝和設定軟體，所以您可以將更多時間用於提升資料的價值，無須擔心基礎設施和管理任務。

客戶案例研究

優點

易於使用

您只需幾分鐘就可以啟動 Amazon EMR 叢集。您不必擔心節點佈建、叢集設定、Hadoop 配置或叢集調校。Amazon EMR 會處理這些任務，您只需集中精力進行分析即可。

低成本

Amazon EMR 定價不僅簡單且可預估：為所使用的執行個體小時數按照小時費率支付費用。您可以用最低每小時 0.15 USD 的價格來啟動 10 節點 Hadoop 叢集。因為 Amazon EMR 原生支援 Amazon EC2 競價型和預留執行個體，您還可以節省 50% 到 80% 的基礎執行個體成本。

彈性

使用 Amazon EMR，您可以佈建一個、數百個或者甚至數千個運算執行個體來處理任何規模的資料。您可以手動或使用 Auto Scaling 輕鬆增加或減少執行個體的數量，並且只需按使用量付費。

可靠

您可以花較少時間在調校和監控叢集方面。Amazon EMR 的 Hadoop 已經針對雲端進行優化，它還會監控您的叢集，重新嘗試失敗的任務，並自動替換效能不佳的執行個體。

安全

Amazon EMR 會自動配置 Amazon EC2 防火牆設定以控制對執行個體的網路存取，並且您可以在 Amazon Virtual Private Cloud (VPC) (由您定義的邏輯隔離網路) 中啟動叢集。針對存放在 Amazon S3 的物件，您可以使用 Amazon S3 伺服器端加密或 Amazon S3 用戶端加密搭配 EMRFS、AWS Key Management Service 或客戶受管金鑰。

靈活

您可以完全掌控您的叢集。您擁有每個執行個體的根存取權，因此，您可以輕鬆安裝額外的應用程式和自訂每個叢集。Amazon EMR 還支援多個 Hadoop 分發和應用程式。

您可以利用 Amazon EMR 建置哪些項目？

進一步了解下列使用案例：

點擊流分析

Amazon EMR 可用於分析點擊流資料，以區隔使用者、了解使用者偏好，以及提供更有效率的廣告。

了解 Razorfish 如何使用 EMR 來進行點擊流分析 »

即時分析

在 Amazon EMR 上使用 Spark Streaming，取用和處理來自 Amazon Kinesis、Apache Kafka 或其他資料串流的即時資料。以容錯方式執行串流分析，並將結果寫入 Amazon S3 或 HDFS。
了解 Hearst 如何使用 Spark Streaming »

日誌分析

Amazon EMR 可用於處理 Web 和行動應用程式產生的各種日誌。Amazon EMR 可幫助客戶將數 PB 的非結構化或者半結構化資料轉變為有用的應用程式或使用者見解。
了解 Yelp 如何使用 EMR 提升主要網站功能 »

Extract Transform Load (ETL)

Amazon EMR 可用於快速且經濟實惠的執行資料轉換工作負載 (ETL)，例如在大型資料集上進行排序、彙總和結合。

了解 Redfin 如何使用暫時性 EMR 叢集進行 ETL »

預測分析

Amazon EMR 上的 Apache Spark 包含適用於可擴展性機器學習演算法的 MLlib，您也可以使用自己的程式庫。Spark 將資料集存放在記憶體內，可為常見的機器學習工作負載提供極佳的效能。
了解 Intent Media 如何使用 Spark MLib »

基因體

Amazon EMR 可快速、有效地處理大量的基因體資料及其他大型科學資料集。研究人員可以存取 AWS 上託管的免費基因體資料。
了解 Apache Spark 與精準醫學 »

開始使用 Amazon EMR

開始使用 Amazon EMR 非常簡單。依照我們的入門指南啟動您的第一個 Amazon EMR 叢集，然後只要按幾下滑鼠即可開始分析資料。

試用

開始使用 AWS

了解如何在最短的時間內開始使用 AWS

AWS 免費方案

獲得 12 個月的 AWS 免費親身實作體驗