AWS Glue 是一项完全托管的 ETL 服务,可使您轻松地在数据存储之间移动数据。AWS Glue 可以简化并自动化执行耗时且难执行的数据发现、转换和映射操作及任务调度工作。AWS Glue 通过易于使用的控制台指导您执行数据移动流程,帮助您了解您的数据源、准备数据进行分析并将数据可靠地从数据源加载到数据目标。
AWS Glue 已与 Amazon S3、Amazon RDS 和 Amazon Redshift 集成,且可以连接到任何符合 JDBC 标准的数据存储。AWS Glue 将自动爬取您的数据源并识别数据格式,然后提出架构和转换建议,因此您无需花时间对数据流进行手工编码。之后,您可以使用您了解的工具和技术 (如 Python、Spark、Git) 和您偏好的集成开发环境 (IDE) 来编辑这些转换 (如需要),并与其他 AWS Glue 用户分享。AWS Glue 会对您的 ETL 任务进行调度,并会预配置和扩展所需的所有基础设施,以便 ETL 任务能够以任意规模快速高效地运行。您没有服务器需要管理,且只需为您的 ETL 任务所使用的资源付费。
如需有关服务可用性的最新信息,请在此处注册,我们将通过电子邮件向您发送相关信息。
第 1 步:构建数据目录
首先,在 AWS 管理控制台中使用 AWS Glue 注册您的数据源。AWS Glue 将爬取您的数据源,并使用适用于多个常见源格式和数据类型 (包括 JSON、CSV、Parquet 等) 的预构建分类器来构建一个数据目录。您还可以添加自己的分类器,也可以从 AWS Glue 社区选择分类器并将其添加到您爬取的数据。
单击查看大图
第 2 步:生成和编辑转换
接下来,选择数据源和目标。AWS Glue 将生成 Python 代码,以从源中提取数据、转换数据来匹配目标架构并将数据加载到目标。自动生成的代码可以处理常见的错误情况,如不良数据或硬件故障。您可以使用自己偏好的 IDE 来编辑此代码,并使用自己的示例数据对其进行测试。您还可以浏览其他 AWS Glue 用户分享的代码,并将其提取到您的任务中。
单击查看大图
第 3 步:调度和运行任务
最后,您可以使用 AWS Glue 灵活的计划程序来重复运行数据流来响应触发器,甚至响应 AWS Lambda 事件。AWS Glue 会自动在 Apache Spark 节点上分配您的 ETL 任务,因此,随着数据量的增长,您的 ETL 运行次数也会保持一致。AWS Glue 会按正确的顺序协调任务的执行顺序,并会自动重试失败的任务。AWS Glue 将弹性地扩展所需的基础设施,以按时完成您的任务并最大限度地降低成本。
单击查看大图
完成!
以上就是所有步骤!ETL 任务执行时,AWS Glue 将帮助您跟踪元数据的更改 (如架构定义和数据格式),以便您可以保持 ETL 任务处于最新状态。
AWS re:Invent 是全球 AWS 社区最大规模的集会。您可以在大会上更深入地了解有关 AWS 服务的知识并掌握各种最佳实践。我们在 2016 年 re:Invent 大会上推出了 AWS Glue。请观看下方的研讨会视频,了解有关 AWS Glue 和其他相关分析的更多信息。您也可以查看完整的大数据分会播放列表。