AWS Glue (demnächst)

Einfacher Überblick über die Datenquellen, Vorbereiten

der Daten und Laden der Daten in die Datenspeicher.

Für die Vorversion registrieren

AWS Glue ist ein vollständig verwalteter ETL-Service, mit dem Daten zwischen verschiedenen Datenspeichern einfach verschoben werden können. AWS Glue vereinfacht und automatisiert die schwierige und zeitaufwändige Datenermittlung, -konvertierung, -zuweisung und Feinterminierungsaufgaben. AWS Glue führt Sie durch den Prozess der Datenverschiebung anhand einer benutzerfreundlichen Konsole, die Sie dabei unterstützt, die Datenquellen zu ermitteln, die Daten für die Analyse vorzubereiten und diese zuverlässig von den Datenquellen in die Zielspeicherorte zu laden.

AWS Glue ist in Amazon S3, Amazon RDS und Amazon Redshift integriert und kann kann zu jedem JDBC-kompatiblen Datenspeicher eine Verbindung herstellen. AWS Glue durchforstet automatisch die Datenquellen, ermittelt Datenformate und schlägt anschließend Schemata und Transformationen vor, damit Sie keine Zeit für das manuelle Programmieren der Datenflüsse aufwenden müssen. Sie können diese Transformationen bei Bedarf bearbeiten. Dazu verwenden Sie Tools und Technologien, die Ihnen bereits bekannt sind, wie z. B. Python, Spark, Git und Ihre bevorzugte integrierte Entwicklerumgebung (IDE, Integrated Developer Environment). Die Transformationen können Sie dann für andere AWS Glue-Benutzer freigeben. AWS Glue plant Ihre ETL-Aufträge und -Bereitstellungen und skaliert die gesamte erforderliche Infrastruktur, so dass Ihre ETL-Aufträge rasch und effizient bei jeder Skalierung ausgeführt werden. Es gibt keine Server, die verwaltet werden müssen, und Sie zahlen nur für die Ressourcen, die von Ihren ETL-Aufträgen auch verbraucht werden.

Einführung von AWS Glue (2:17)

Einführung von AWS Glue

Melden Sie sich hier an, um per E-Mail über die neuesten Informationen zur Serviceverfügbarkeit auf dem Laufenden gehalten zu werden.

Funktionsweise

In drei einfachen Schritten können Sie mit der Verwendung von AWS Glue beginnen.

Schritt 1. Erstellen eines Datenkatalogs

Verwenden Sie zunächst die AWS Management Console, um die Datenquellen bei AWS Glue zu registrieren. AWS Glue durchforstet die Datenquellen und erstellt einen Datenkatalog anhand von vorbereiteten Klassifizierungen für viele herkömmliche Quellformate und Datentypen, einschließlich JSON, CSV, Parquet und viele mehr. Sie können auch Ihre eigenen Klassifizierungen hinzufügen oder Klassifizierungen aus der AWS Glue-Community auswählen und den Durchforstungen hinzufügen.

Schritt 1. Automatisches Erstellen eines Datenkatalogs

Klicken für vergrößerte Darstellung

Schritt 2. Erstellen und Bearbeiten von Transformationen

Wählen Sie als Nächstes eine Datenquelle und einen Zielort aus. Daraufhin erzeugt AWS Glue einen Python-Code zum Extrahieren der Daten aus der Quelle, zum Transformieren der Daten, damit diese dem Zielschema entsprechen, und zum Laden der Daten in den Zielspeicherort. Der automatisch erzeugte Code behandelt allgemeine Fehler wie ungültige Daten oder Hardwarestörungen. Sie können diesen Code mit Ihrer bevorzugten IDE bearbeiten und mit eigenen Beispieldaten testen. Sie können auch Code, der von anderen AWS Glue-Benutzern freigegeben wurde, durchsuchen und diesen in Ihre Aufträge übernehmen.

Schritt 2. Erstellen von Transformationen

Klicken für vergrößerte Darstellung

Schritt 3. Planen und Ausführen von Aufträgen

Schließlich können Sie mit dem flexiblen Planer von AWS Glue die Datenflüsse entweder regelmäßig, als Reaktion auf Auslöser oder sogar als Reaktion auf AWS Lambda-Ereignisse ausführen. AWS Glue verteilt automatisch die ETL-Aufträge auf Apache Spark-Knoten, so dass die ETL-Laufzeiten bei zunehmenden Datenvolumen gleich bleiben. AWS Glue koordiniert die Ausführung der Aufträge in der richtigen Reihenfolge und führt fehlgeschlagene Aufträge automatisch erneut aus. AWS Glue skaliert elastisch die Infrastruktur, die erforderlich ist, um die Aufträge rechtzeitig abzuschließen und um Kosten zu senken.

Klicken für vergrößerte Darstellung

Fertig.

Fertig! Nachdem sich die ETL-Aufträge in der Produktion befinden, unterstützt Sie AWS Glue dabei, Änderungen bei den Metadaten nachzuverfolgen, wie Schemadefinitionen und Datenformate, damit Sie ETL-Aufträge auf dem neuesten Stand halten können.

Vorgestellte re:Invent-Veranstaltungen

AWS re:Invent ist die größte Versammlung der globalen AWS-Community. Die Konferenz ermöglicht Ihnen, tiefere Kenntnisse über AWS-Services zu erhalten und bewährte Verfahren kennenzulernen. Wir kündigten AWS Glue bei re:Invent 2016 an. Sehen Sie sich die Sitzungen unten an, um mehr über AWS Glue und andere verwandte Analysen zu erfahren, oder überprüfen Sie die gesamte big data breakout sessions-Playlist.

Wählen Sie unten ein Video aus

Introduction to AWS Glue: Ein vollständig verwalteter ETL-Service

AWS Glue ist ein vollständig verwalteter ETL-Service, der Ihnen das Verstehen der Datenquellen, die Datenvorbereitung zu Analyse sowie das zuverlässige Laden von Daten in Ihren Datenspeicher erleichtert. In dieser Sitzung führen wir AWS Glue ein, geben eine Übersicht über die Komponenten und diskutieren, wie Sie den Service einsetzen können, um Ihren ETL-Prozess zu vereinfachen und zu automatisieren. Wir sprechen zudem darüber, wann Sie den Service ausprobieren können und wie Sie sich für eine Vorversion anmelden.

Sehen Sie es sich hier an »

Bewährte Verfahren für Data Warehousing mit Amazon Redshift

Das schnelle und effiziente Analysieren von Big Data erfordert ein Data Warehouse, das für die Verarbeitung und Skalierung großer Datensätze optimiert wurde. Amazon Redshift ist ein schnelles Data Warehouse in Petabytegröße, das dafür sorgt, dass die Analyse all Ihrer Daten einfach und kostengünstig wird – und das für einen Bruchteil der Kosten herkömmlicher Data Warehouses. In dieser Sitzung werfen wir einen gründlichen Blick auf Data Warehousing mit Amazon Redshift für die Analyse von Big Data. Wir sehen uns bewährte Verfahren an, um von der kolumnaren Technologie und den parallelen Verarbeitungsfunktionen von Amazon Redshift zu profitieren und einen hohen Durchsatz und eine hohe Abfrageleistung zu erreichen. Wir diskutieren zudem, wie wir optimale Schemas entwerfen, Daten effizient laden und Workloadverwaltung verwenden.

Sehen Sie es sich hier an »

Big Data-Architekturmuster und bewährte Verfahren auf AWS

Die Welt produziert eine stetig zunehmende Menge, Geschwindigkeit und Varianz von Big Data. Kunden und Businesses fordern auf die Sekunde (oder sogar Millisekunde) genaue Analysen ihrer sich schnell ändernden Daten neben der klassischen Stapelverarbeitung. AWS bieten viele Technologien für die Lösung von Big Data-Problemen. Aber welche Services sollten Sie verwenden, und warum, wann und wie? In dieser Sitzung vereinfachen wir die Verarbeitung von Big Data als Daten-Bus mit mehreren Phasen: Einspeisung, Speicherung, Verarbeitung und Visualisierung. Danach diskutieren wir die Auswahl der richtigen Technologie basierend auf Kriterien wie Datenstruktur, Abfragelatenz, Kosten, Abfragerate, Elementgröße, Datenvolumen, Dauer usw. Zuletzt bieten wir eine Referenzarchitektur, Entwurfsmuster und bewährte Verfahren für die Zusammenstellung dieser Technologien, damit Sie Ihre Big Data-Probleme mit den richtigen Kosten lösen können.

Sehen Sie es sich hier an »

Für die Vorversion registrieren

Registrieren Sie sich hier für die Vorversion von AWS Glue. Sobald die Registrierung bestätigt ist, können Sie den Service kostenlos testen.

Für die Vorversion registrieren

ERSTE SCHRITTE MIT AWS

Erfahren Sie, wie Sie in wenigen Minuten mit der AWS-Nutzung beginnen können

KOSTENLOSES KONTINGENT FÜR AWS

Verschaffen Sie sich 12 Monate kostenlos praktische Erfahrung mit AWS