AWS Glue
AWS 云
注册预览版

AWS Glue 是一项完全托管的 ETL 服务,可使您轻松地在数据存储之间移动数据。AWS Glue 可以简化并自动化执行耗时且难执行的数据发现、转换和映射操作及任务调度工作。AWS Glue 通过易于使用的控制台指导您执行数据移动流程,帮助您了解您的数据源、准备数据进行分析并将数据可靠地从数据源加载到数据目标。

AWS Glue 已与 Amazon S3Amazon RDSAmazon Redshift 集成,且可以连接到任何符合 JDBC 标准的数据存储。AWS Glue 将自动爬取您的数据源并识别数据格式,然后提出架构和转换建议,因此您无需花时间对数据流进行手工编码。之后,您可以使用您了解的工具和技术 (如 Python、Spark、Git) 和您偏好的集成开发环境 (IDE) 来编辑这些转换 (如需要),并与其他 AWS Glue 用户分享。AWS Glue 会对您的 ETL 任务进行调度,并会预配置和扩展所需的所有基础设施,以便 ETL 任务能够以任意规模快速高效地运行。您没有服务器需要管理,且只需为您的 ETL 任务所使用的资源付费。

AWS Glue 简介 (2:17)

video-thumbnail-aws-glue-launch-reinvent2016
AWS Glue 简介

如需有关服务可用性的最新信息,请在此处注册,我们将通过电子邮件向您发送相关信息。

第 1 步:构建数据目录

首先,在 AWS 管理控制台中使用 AWS Glue 注册您的数据源。AWS Glue 将爬取您的数据源,并使用适用于多个常见源格式和数据类型 (包括 JSON、CSV、Parquet 等) 的预构建分类器来构建一个数据目录。您还可以添加自己的分类器,也可以从 AWS Glue 社区选择分类器并将其添加到您爬取的数据。


第 1 步:自动构建数据目录
第 1 步:自动构建数据目录

单击查看大图


第 2 步:生成和编辑转换

接下来,选择数据源和目标。AWS Glue 将生成 Python 代码,以从源中提取数据、转换数据来匹配目标架构并将数据加载到目标。自动生成的代码可以处理常见的错误情况,如不良数据或硬件故障。您可以使用自己偏好的 IDE 来编辑此代码,并使用自己的示例数据对其进行测试。您还可以浏览其他 AWS Glue 用户分享的代码,并将其提取到您的任务中。


第 2 步:生成转换
第 2 步:生成转换

单击查看大图


第 3 步:调度和运行任务

最后,您可以使用 AWS Glue 灵活的计划程序来重复运行数据流来响应触发器,甚至响应 AWS Lambda 事件。AWS Glue 会自动在 Apache Spark 节点上分配您的 ETL 任务,因此,随着数据量的增长,您的 ETL 运行次数也会保持一致。AWS Glue 会按正确的顺序协调任务的执行顺序,并会自动重试失败的任务。AWS Glue 将弹性地扩展所需的基础设施,以按时完成您的任务并最大限度地降低成本。


第 3 步:调度和运行任务
第 3 步:调度和运行任务

单击查看大图


完成!

以上就是所有步骤!ETL 任务执行时,AWS Glue 将帮助您跟踪元数据的更改 (如架构定义和数据格式),以便您可以保持 ETL 任务处于最新状态。

reinvent-hkt-banner-01

AWS re:Invent 是全球 AWS 社区最大规模的集会。您可以在大会上更深入地了解有关 AWS 服务的知识并掌握各种最佳实践。我们在 2016 年 re:Invent 大会上推出了 AWS Glue。请观看下方的研讨会视频,了解有关 AWS Glue 和其他相关分析的更多信息。您也可以查看完整的大数据分会播放列表

AWS Glue 是一项完全托管的 ETL 服务,可以让您轻松地了解数据源,准备数据以供分析,并将数据可靠地加载到数据存储中。在本次研讨会上,我们介绍了 AWS Glue、概述了其组件,并探讨了如何使用这项服务来简化并自动执行 ETL 过程。我们还介绍了试用这项服务的时间以及如何注册预览。

单击此处观看 »

 

要快速高效地分析大数据,需要一个经过优化的数据仓库来处理大型数据集并针对大型数据集进行扩展。Amazon Redshift 是一种快速的 PB 级数据仓库服务,能够以简单并且经济高效的方式分析您的所有数据,其费用仅为传统数据仓库费用的一小部分。在本次研讨会上,我们针对大数据分析,对使用 Amazon Redshift 进行数据仓库存储进行了深入探讨。针对如何利用 Amazon Redshift 的列式存储技术和并行处理功能来实现较高的吞吐量与查询性能,我们介绍了相关的最佳实践。我们还探讨了如何设计最佳架构、如何高效加载数据以及如何进行工作负载管理。

单击此处观看 »

 

全球的大数据生成数量、速度和种类一直在不断增加。除了传统的数据批量处理之外,数据使用者和企业还产生了对快速移动的数据进行即时 (甚至毫秒级) 分析的需求。AWS 可以提供多种技术来解决大数据方面的问题。但是您应该使用什么服务?为什么要使用?应该在什么时候以何种方式使用?在本次研讨会上,我们将大数据处理过程简化为一个模型,其中包含注入、存储、处理和可视化四个阶段。然后,我们探讨了如何根据数据结构、查询延迟、成本、请求速度、项目大小、数据量和持久性等条件,在各个阶段选择正确的技术。最后,我们提供了参考架构、设计模式和最佳实践,供您组合利用这些技术以合适的成本解决大数据方面的问题。

单击此处观看 »

 

要注册参加 AWS Glue 预览计划,请单击此处。获得批准后,您可以免费试用该服务。

注册预览版