AWS Glue

Einfacher, flexibler und kosteneffektiver ETL-Service

Erste Schritte mit AWS Glue

AWS Glue ist ein vollständig verwalteter ETL-Service (Extrahieren, Transformieren und Laden), der Kunden das Vorbereiten und Laden ihrer Daten zu Analysezwecken erleichtert. Sie können ETL-Aufträge mit wenigen Mausklicks in der AWS Management Console erstellen und ausführen. Indem Sie AWS Glue einfach auf Ihre in AWS gespeicherten Daten verweisen, werden Ihre Daten von der Anwendung erkannt und die zugehörigen Metadaten (z. B. Tabellendefinitionen und Schemata) im AWS Glue-Datenkatalog gespeichert. Sie können Ihre Daten unmittelbar nach der Katalogisierung durchsuchen, abfragen und für ETL nutzen. AWS Glue generiert den Code zum Ausführen von Datentransformationen sowie zum Laden Ihrer Daten.

Sie haben die Möglichkeit, den von AWS Glue generierten Code anzupassen, wiederzuverwenden und zu portieren. Sobald Ihr ETL-Auftrag bereit ist, können Sie dessen Ausführung innerhalb der vollständig verwalteten, skalierten Apache Spark-Umgebung von AWS Glue planen. AWS Glue bietet eine flexibles Planungstool mit Abhängigkeitsauflösung, Auftragsüberwachung und Benachrichtigungsfunktion.

Da AWS Glue serverlos ist, erübrigt sich das Anschaffen, Einrichten und Verwalten von Infrastruktur. AWS Glue stellt automatisch die für den Auftrag erforderliche Umgebung bereit. Kunden zahlen nur für die zum Ausführen von ETL-Aufträgen verbrauchten Rechenressourcen. Mit AWS Glue lassen sich Daten binnen weniger Minuten zu Analysezwecken bereitstellen.

Sind Sie zum Starten Ihres ETL-Service bereit?

Erste Schritte mit AWS Glue

Kunden

Vorteile

Einfach

AWS Glue automatisiert viele der Aufgaben hinsichtlich der Erstellung, Verwaltung und Ausführung von ETL-Aufträgen. AWS Glue scannt Ihre Datenquellen, identifiziert Datenformate und schlägt Schemata und Transformationen vor. AWS Glue generiert automatisch den Code zum Ausführen von Datentransformationen sowie zum Laden Ihrer Daten.

Integration

AWS Glue lässt sich in zahlreiche AWS-Services integrieren. AWS Glue unterstützt standardmäßig in Amazon Aurora, Amazon RDS für MySQL, Amazon RDS für Oracle, Amazon RDS für PostgreSQL, Amazon RDS für SQL Server, Amazon Redshift und Amazon S3 sowie in MySQL, Oracle, Microsoft SQL Server und PostgreSQL-Datenbanken in Virtual Private Cloud (Amazon VPC) gespeicherte Daten, die über Amazon EC2 ausgeführt werden. AWS Glue ermöglicht die vorkonfigurierte Integration in Amazon Athena, Amazon EMR, Amazon Redshift Spectrum sowie jegliche mit Apache Hive Metastore kompatiblen Anwendungen.

Serverlos

AWS Glue ist serverlos. Sie brauchen keine Infrastruktur bereitzustellen oder zu verwalten. AWS Glue verwaltet die Bereitstellung, Konfiguration und Skalierung der Ressourcen, die zum Ausführen Ihrer ETL-Aufträge in einer vollständig verwalteten, skalierten Apache Spark-Umgebung erforderlich sind. Sie bezahlen nur für die während der Ausführung Ihrer Aufträge genutzten Ressourcen.

Entwicklerfreundlich

AWS Glue generiert ETL-Code, der mit vertrauter Technologie von Scala, Python und Apache Spark angepasst, wiederverwendet und portiert werden kann. Sie können auch benutzerdefinierte Lese-, Schreib- und Transformationsprogramme in Ihren Glue-ETL-Code importieren. Da der von AWS Glue generierte Code auf offenen Frameworks basiert, sind Sie nicht an einen einzelnen Anbieter gebunden. Sie können ihn beliebig verwenden.

So funktioniert AWS Glue

Schritt 1: Erstellen eines Datenkatalogs

Zum Vergrößern klicken

Registrieren Sie zunächst in der AWS Management Console Ihre Datenquellen. AWS Glue scannt Ihre Datenquellen und erstellt einen Datenkatalog anhand von vordefinierten Klassifizierungen für viele gängige Quellformate und Datentypen wie JSON, CSV, Parquet usw.

Schritt 2: Erstellen und Bearbeiten von Transformationen

Zum Vergrößern klicken

Wählen Sie als Nächstes eine Datenquelle und ein Ziel aus. AWS Glue generiert ETL-Code in Scala oder Python, um Daten aus der Quelle zu extrahieren, entsprechend dem Zielschema zu transformieren und in das Ziel zu laden. Sie können diesen Code über die Konsole in Ihrer bevorzugten IDE oder einem beliebigen Notizbuch bearbeiten, debuggen und testen.

Schritt 3: Planen und Ausführen von Aufträgen

Zum Vergrößern klicken

AWS Glue erleichtert es, wiederkehrende ETL-Aufträge zu planen, mehrere Aufträge zu verketten oder Aufträge anderer Services wie AWS Lambda nach Bedarf aufzurufen. AWS Glue verwaltet die Abhängigkeiten zwischen Ihren Aufträgen, skaliert automatisch zugrundeliegende Ressourcen und führt fehlgeschlagene Aufträge erneut aus.

Besuchen Sie die Webseite mit den Produktdetails zu AWS Glue, oder informieren Sie sich in unserer Produktdokumentation.

Anwendungsfälle

Analysieren von Protokolldaten in Ihrem Data Warehouse

Bereiten Sie Ihren Clickstream vor, oder verarbeiten Sie Protokolldaten zu Analysezwecken, indem Sie Ihre Datensätze mit AWS Glue bereinigen, normalisieren und optimieren. AWS Glue generiert das Schema für Ihre teilweise strukturierten Daten, erstellt ETL-Code zum Transformieren, Bereinigen und Optimieren Ihrer Daten und lädt Ihr Data Warehouse regelmäßig neu.

Vorbereiten und Laden von Daten zu Analysezwecken

Einheitliche Ansicht Ihrer Daten in mehreren Datenspeichern

Sie können mithilfe des AWS Glue-Datenkatalogs schnell mehrere AWS-Datensätze durchsuchen, ohne die Daten zu verschieben. Die Daten sind nach der Katalogisierung sofort zum Durchsuchen und Abfragen mit Amazon Athena, Amazon EMR und Amazon Redshift Spectrum bereit.

Erstellen einer einheitlichen Ansicht Ihrer Daten

Abfrage eines Amazon S3-Data-Lakes

Data-Lakes werden immer häufiger zum Speichern und Analysieren strukturierter und unstrukturierter Daten genutzt. Wenn Sie einen Amazon S3-Data-Lake verwenden, kann AWS Glue alle Ihre Daten sofort zu Analysezwecken bereitstellen, ohne sie zu verschieben. AWS Glue-Crawler scannen Ihren Data-Lake und stellen die kontinuierliche Synchronisierung des Glue-Datenkatalogs mit den zugrundeliegenden Daten sicher. Sie können Ihren Data-Lake dadurch mit Amazon Athena und Amazon Redshift Spectrum abfragen. Der AWS Glue-Datenkatalog eignet sich auch als externer Apache Hive Metastore für Big Data-Anwendungen, die auf Amazon EMR ausgeführt werden.

Ereignisgesteuerte ETL-Pipelines

AWS Glue kann Ihre ETL-Aufträge basierend auf einem Ereignis wie dem Abrufen eines neuen Datensatzes ausführen. Sie können zum Auslösen Ihre ETL-Aufträge beispielsweise eine AWS Lambda-Funktion nutzen, um sie auszuführen, sobald in Amazon S3 neue Daten verfügbar sind. Darüber hinaus haben Sie die Möglichkeit, den neuen Datensatz im Rahmen Ihrer ETL-Aufträge im AWS Glue-Datenkatalog zu speichern.

Automatisieren von ETL-Aufträgen bei neuen Daten

Erste Schritte mit AWS Glue

Die ersten Schritte mit AWS Glue sind einfach. Melden Sie sich einfach bei der AWS Management Console an, und rufen Sie in der Analysekategorie "Glue" auf.

Sind Sie zum Starten Ihres ETL-Service bereit?

Erste Schritte mit AWS Glue

ERSTE SCHRITTE MIT AWS

Erfahren Sie, wie Sie in wenigen Minuten mit der AWS-Nutzung beginnen können

KOSTENLOSES AWS KONTINGENT

Verschaffen Sie sich 12 Monate kostenlos praktische Erfahrung mit AWS