AWS Glue
AWS 雲端
註冊預覽版

AWS Glue 是全受管 ETL 服務,可讓您在資料存放區之間輕鬆移動資料。AWS Glue 簡化並自動化困難且耗時的資料探索、轉換、映射和任務排程等任務。AWS Glue 透過易於使用的主控台引導您完成移動資料的程序,協助您了解資料來源、準備用於分析的資料,以及將資料可靠地從資料來源載入目的地。

AWS Glue 已與 Amazon S3Amazon RDSAmazon Redshift 整合,而且可以連接任何 JDBC 合規的資料存放區。AWS Glue 可自動地網路爬取您的資料來源、識別資料格式,然後建議結構描述和轉換,您無須花時間手動編寫資料流程的程式碼。接著,您可以使用 Python、Spark、Git 等已知的工具和您最愛的整合開發人員環境 (IDE) 視需要編輯這些轉換,並與其他 AWS Glue 使用者共享。AWS Glue 會排程您的 ETL 任務並佈建和擴展所需的所有基礎設施,讓您以快速且有效率的方式執行任何規模的 ETL 任務。無須管理任何伺服器,且只需支付 ETL 任務耗用的資源費用。

AWS Glue 簡介 (2:17)

video-thumbnail-aws-glue-launch-reinvent2016
AWS Glue 簡介

如需服務可用性的最新資訊,請在這裡註冊,我們將透過電子郵件隨時提供您最新資訊。

步驟 1. 建立您的資料型錄

首先,使用 AWS 管理主控台在 AWS Glue 註冊資料來源。AWS Glue 會網路爬取您的資料來源,並使用許多熱門來源格式和資料類型 (包含 JSON、CSV、Parquet 等) 的預先建立分類器來建構資料型錄。您也可以新增自己的分類器,或從 AWS Glue 社群選擇分類器加入您的網路爬取。


步驟 1. 自動建立您的資料型錄
步驟 1. 自動建立您的資料型錄

按一下以檢視較大的影像


步驟 2. 產生和編輯轉換

接著,選取資料來源和目標,AWS Glue 會產生 Python 程式碼以便從來源擷取資料、轉換資料以符合目標結構描述,再將資料載入目標。自動產生的程式碼可處理常見的錯誤案例,像是資料錯誤或硬體故障。您可以使用最喜愛的 IDE 來編輯此程式碼,並利用自己的範本資料進行測試。您也可以瀏覽其他 AWS Glue 使用者共享的程式碼,並將該程式碼放入您的任務。


步驟 2. 產生轉換
步驟 2. 產生轉換

按一下以檢視較大的影像


步驟 3. 排程和執行您的任務

最後,您可以使用 AWS Glue 靈活的排程器重複執行流程、執行流程以回應觸發程式,還可以回應 AWS Lambda 事件。AWS Glue 會在 Apache Spark 節點上自動分發您的 ETL 任務,因此在資料量增加時可保持 ETL 執行時間的一致。AWS Glue 會以正確的順序協調任務的執行,並自動重試失敗的任務。AWS Glue 會根據及時完成任務及降低成本等需要,彈性地擴展基礎設施。


步驟 3. 排程和執行您的任務
步驟 3. 排程和執行您的任務

按一下以檢視較大的影像


完成了。

就這麼簡單!ETL 任務進入生產階段之後,AWS Glue 可協助您追蹤中繼資料的變更,像是結構描述定義和資料格式,讓您的 ETL 任務保持在最新狀態。

reinvent-hkt-banner-01

AWS re:Invent 是全球 AWS 社群的最大型聚會。這個會議可讓您獲得 AWS 服務的深度知識及學習最佳實務。我們會在 re:Invent 2016 上宣布推出 AWS Glue。觀賞以下會議以進一步了解 AWS Glue 及其他相關分析,或查看完整的大數據分組會話播放清單

AWS Glue 是一種全受管的 ETL 服務,可讓您輕鬆了解資料來源、準備資料用於分析,以及可靠地將它載入到資料存放區。在這個會議中,我們會介紹 AWS Glue、概述其中的元件,以及討論如何使用這項服務來簡化和自動化 ETL 程序。我們也會討論您何時可以試用該服務,還有如何註冊預覽版。

在這裡觀賞 »

 

若要快速有效地分析大數據,您需要優化資料倉儲以針對大型資料集進行處理和擴展。Amazon Redshift 是一種快速的 PB 級資料倉儲,可讓您以輕鬆且經濟實惠的方式分析所有的資料,價格比傳統資料倉儲還低。在這個會議中,我們將深入檢視 Amazon Redshift 的資料倉儲以進行大數據分析。我們涵蓋使用 Amazon Redshift 多欄式技術及並行處理功能來提供高輸送量和查詢效能的最佳實務。會議中也會討論如何設計優化結構描述、有效率地載入資料,以及如何使用工作負載管理。

在這裡觀賞 »

 

全世界的大數據不管是數量、速度和多樣性都呈爆炸性增長。除了典型的批次處理以外,消費者和企業還要求對快速移動的資料進行最即時的秒速分析 (或甚至是毫秒速度)。AWS 提供許多技術來解決大數據的問題。但是您應該使用哪些服務,其原因、時機以及使用方式為何?在這個會議中,我們將大數據程序簡化成包含下列階段的資料匯流排:導入、存放、處理及視覺化。我們接著會討論如何根據資料結構、查詢延遲、成本、請求速率、項目大小、資料量、耐久性等條件,為每個階段選擇正確的技術。最後,我們會提供參考架構、設計模式以及最佳實務,將這些技術組合起來,以合理的成本解決您的大數據問題。

在這裡觀賞 »

 

在此註冊 AWS Glue 預覽計劃。核准後,您便可免費試用此服務。

註冊預覽版