AWS Glue ist ein vollständig verwalteter ETL-Service, mit dem Daten zwischen verschiedenen Datenspeichern einfach verschoben werden können. AWS Glue vereinfacht und automatisiert die schwierige und zeitaufwändige Datenermittlung, -konvertierung, -zuweisung und Feinterminierungsaufgaben. AWS Glue führt Sie durch den Prozess der Datenverschiebung anhand einer benutzerfreundlichen Konsole, die Sie dabei unterstützt, die Datenquellen zu ermitteln, die Daten für die Analyse vorzubereiten und diese zuverlässig von den Datenquellen in die Zielspeicherorte zu laden.
AWS Glue ist in Amazon S3, Amazon RDS und Amazon Redshift integriert und kann kann zu jedem JDBC-kompatiblen Datenspeicher eine Verbindung herstellen. AWS Glue durchforstet automatisch die Datenquellen, ermittelt Datenformate und schlägt anschließend Schemata und Transformationen vor, damit Sie keine Zeit für das manuelle Programmieren der Datenflüsse aufwenden müssen. Sie können diese Transformationen bei Bedarf bearbeiten. Dazu verwenden Sie Tools und Technologien, die Ihnen bereits bekannt sind, wie z. B. Python, Spark, Git und Ihre bevorzugte integrierte Entwicklerumgebung (IDE, Integrated Developer Environment). Die Transformationen können Sie dann für andere AWS Glue-Benutzer freigeben. AWS Glue plant Ihre ETL-Aufträge und -Bereitstellungen und skaliert die gesamte erforderliche Infrastruktur, so dass Ihre ETL-Aufträge rasch und effizient bei jeder Skalierung ausgeführt werden. Es gibt keine Server, die verwaltet werden müssen, und Sie zahlen nur für die Ressourcen, die von Ihren ETL-Aufträgen auch verbraucht werden.
Melden Sie sich hier an, um per E-Mail über die neuesten Informationen zur Serviceverfügbarkeit auf dem Laufenden gehalten zu werden.
Schritt 1. Erstellen eines Datenkatalogs
Verwenden Sie zunächst die AWS Management Console, um die Datenquellen bei AWS Glue zu registrieren. AWS Glue durchforstet die Datenquellen und erstellt einen Datenkatalog anhand von vorbereiteten Klassifizierungen für viele herkömmliche Quellformate und Datentypen, einschließlich JSON, CSV, Parquet und viele mehr. Sie können auch Ihre eigenen Klassifizierungen hinzufügen oder Klassifizierungen aus der AWS Glue-Community auswählen und den Durchforstungen hinzufügen.
Schritt 2. Erstellen und Bearbeiten von Transformationen
Wählen Sie als Nächstes eine Datenquelle und einen Zielort aus. Daraufhin erzeugt AWS Glue einen Python-Code zum Extrahieren der Daten aus der Quelle, zum Transformieren der Daten, damit diese dem Zielschema entsprechen, und zum Laden der Daten in den Zielspeicherort. Der automatisch erzeugte Code behandelt allgemeine Fehler wie ungültige Daten oder Hardwarestörungen. Sie können diesen Code mit Ihrer bevorzugten IDE bearbeiten und mit eigenen Beispieldaten testen. Sie können auch Code, der von anderen AWS Glue-Benutzern freigegeben wurde, durchsuchen und diesen in Ihre Aufträge übernehmen.
Schritt 3. Planen und Ausführen von Aufträgen
Schließlich können Sie mit dem flexiblen Planer von AWS Glue die Datenflüsse entweder regelmäßig, als Reaktion auf Auslöser oder sogar als Reaktion auf AWS Lambda-Ereignisse ausführen. AWS Glue verteilt automatisch die ETL-Aufträge auf Apache Spark-Knoten, so dass die ETL-Laufzeiten bei zunehmenden Datenvolumen gleich bleiben. AWS Glue koordiniert die Ausführung der Aufträge in der richtigen Reihenfolge und führt fehlgeschlagene Aufträge automatisch erneut aus. AWS Glue skaliert elastisch die Infrastruktur, die erforderlich ist, um die Aufträge rechtzeitig abzuschließen und um Kosten zu senken.
Fertig.
Fertig! Nachdem sich die ETL-Aufträge in der Produktion befinden, unterstützt Sie AWS Glue dabei, Änderungen bei den Metadaten nachzuverfolgen, wie Schemadefinitionen und Datenformate, damit Sie ETL-Aufträge auf dem neuesten Stand halten können.
![reinvent-hkt-banner-01 reinvent-hkt-banner-01](http://web.archive.org./web/20170209133611im_/https://d0.awsstatic.com/events/aws-hosted-events/2016/hkt/reinvent-hkt-banner-01.png)
AWS re:Invent ist die größte Versammlung der globalen AWS-Community. Die Konferenz ermöglicht Ihnen, tiefere Kenntnisse über AWS-Services zu erhalten und bewährte Verfahren kennenzulernen. Wir kündigten AWS Glue bei re:Invent 2016 an. Sehen Sie sich die Sitzungen unten an, um mehr über AWS Glue und andere verwandte Analysen zu erfahren, oder überprüfen Sie die gesamte big data breakout sessions-Playlist.
Registrieren Sie sich hier für die Vorversion von AWS Glue. Sobald die Registrierung bestätigt ist, können Sie den Service kostenlos testen.