AWS Glue
Cloud AWS
Registrati per l'anteprima

AWS Glue è un servizio ETL completamente gestito che rende facile il trasferimento di dati fra i tuoi datastore. AWS Glue semplifica e automatizza le difficili e lunghe attività di identificazione, conversione, mappatura e pianificazione dei processi dei dati. AWS Glue ti guida attraverso il processo di trasferimento dei tuoi dati con una console di facile uso che ti consente di identificare le origini dei tuoi dati, prepararli per l'analisi e caricarli in modo affidabile dalle origini alle destinazioni.

AWS Glue è integrato con Amazon S3, Amazon RDSAmazon Redshift, e può essere collegato a qualsiasi datastore compatibile con JDBC. AWS Glue effettua automaticamente ricerche per indicizzazione nelle tue origini dati, ne identifica i formati e suggerisce schemi e trasformazioni, per evitarti di passare tempo a programmare manualmente i flussi di dati. Tutte queste trasformazioni possono essere modificate, se necessario, utilizzando strumenti e tecnologie che già conosci, come Python, Spark, Git e il tuo ambiente di sviluppo integrato preferito (IDE), e condividerli con altri utenti di AWS Glue. AWS Glue pianifica i tuoi processi ETL, effettua il provisioning e ricalibra tutta la tua infrastruttura, in modo che vengano eseguiti in modo rapido ed efficiente su qualsiasi scala. Non hai bisogno di gestire server e paghi solo per le risorse utilizzate dai processi ETL.

Introduzione ad AWS Glue (2:17)

video-thumbnail-aws-glue-launch-reinvent2016
Introduzione ad AWS Glue

Per ricevere informazioni sulla disponibilità del servizio, registrati qui e ti informeremo per e-mail.

Fase 1. Crea il tuo catalogo dati

Prima di tutto, devi utilizzare la Console di gestione AWS per registrare le tue origini dati con AWS Glue. AWS Glue effettua ricerche per indicizzazione nelle tue origini dati e crea un catalogo dati utilizzando classificatori predefiniti per molti formati di origine comuni, fra cui JSON, CSV, Parquet e altri. Puoi anche aggiungere i tuoi classificatori o selezionarli dalla community AWS Glue per aggiungerli alle tue ricerche.


Fase 1. Crea automaticamente il tuo catalogo dati
Fase 1. Crea automaticamente il tuo catalogo dati

Fai clic per ingrandire l'immagine


Fase 2. Genera e modifica le trasformazioni

Poi seleziona un'origine dati e una destinazione e AWS Glue genererà un codice Python per estrarre i dati dall'origine, trasformarli in modo che corrispondano allo schema della destinazione e caricarli nella destinazione. Il codice generato automaticamente gestisce gli errori comuni, come i dati non validi o gli errori hardware. Puoi modificare questo codice utilizzando il tuo IDE preferito ed eseguire test con i tuoi dati di esempio. Puoi anche esplorare il codice condiviso da altri utenti di AWS Glue e inserirlo nei tuoi processi.


Fase 2. Genera le trasformazioni
Fase 2. Genera le trasformazioni

Fai clic per ingrandire l'immagine


Fase 3. Pianifica ed esegui i processi

Infine, puoi usare la flessibile utilità di pianificazione di AWS Glue per eseguire i flussi su basi ricorrenti, in risposta ai trigger, o anche in risposta agli eventi di AWS Lambda. AWS Glue distribuisce automaticamente i processi ETL su nodi di Apache Spark, in modo che il tempo di esecuzione di ETL rimanga costante con la crescita del volume di dati. AWS Glue coordina l'esecuzione dei processi nella sequenza giusta e riprova automaticamente in caso di errore. AWS Glue ricalibra in modo elastico l'infrastruttura necessaria per completare i processi nei tempi e ridurre al minimo i costi.


Fase 3. Pianifica ed esegui i processi
Fase 3. Pianifica ed esegui i processi

Fai clic per ingrandire l'immagine


Fatto.

È tutto! Quando i processi ETL sono in produzione, AWS Glue ti consente di tenere traccia delle modifiche ai metadata quali le definizioni di schemi e i formati dei dati, per permetterti di tenere aggiornati i processi ETL.

reinvent-hkt-banner-01

AWS re:Invent è la più grande conferenza dedicata alla community globale di AWS. Questa conferenza permette di approfondire i servizi AWS e apprendere best practice. Il servizio AWS Glue è stato annunciato al re:Invent 2016. Guarda la sessione di seguito per ulteriori informazioni su AWS Glue e altre analisi correlate, oppure riproduci la playlist con tutte le sessioni sui Big Data.

AWS Glue è un servizio ETL completamente gestito che semplifica la comprensione delle origini dati, la preparazione dei dati e il relativo caricamento nei datastore. In questa sessione, presenteremo AWS Glue, forniremo una panoramica dei suoi componenti e illustreremo in che modo utilizzare il servizio per semplificare e automatizzare i processi di estrazione, trasformazione e caricamento dei dati. Parleremo inoltre delle modalità e delle tempistiche per registrarsi all'anteprima.

Guarda il video »

 

Per poter analizzare Big Data in modo rapido ed efficiente è necessario disporre di un data warehouse ottimizzato per gestire set di dati di grandi dimensioni e relative risorse. Amazon Redshift è un servizio di data warehousing rapido e con una capacità di più petabyte che semplifica l'analisi dei dati ad un costo nettamente inferiore rispetto alle soluzioni tradizionali. In questa sessione, daremo uno sguardo approfondito al data warehousing con Amazon Redshift per l'analisi di Big Data. Saranno illustrate best practice per usare al meglio la tecnologia a colonne e le funzionalità di elaborazione in parallelo di Amazon Redshift per ottenere prestazioni delle query e throughput elevati. Discuteremo inoltre di come progettare schemi ottimizzati, caricare i dati in modo efficiente e utilizzare le funzioni di gestione del carico di lavoro.

Guarda il video »

 

Volume, frequenza e varietà di Big Data prodotti al mondo sono in costante crescita. Utenti finali e aziende non si limitano più a richiedere elaborazione in batch, ma necessitano sempre più spesso di analisi aggiornate al secondo (a volte anche al millisecondo) sui loro dati. AWS offre diverse tecnologie per risolvere i loro problemi di Big Data. Ma quali servizi è più conveniente utilizzare, perché, quando e come? In questa sessione, ridurremo l'elaborazione di Big Data, per semplicità, a un bus di dati suddiviso in diverse fasi: acquisizione, memorizzazione, elaborazione e visualizzazione. Quindi, spiegheremo come scegliere la tecnologia più adatta in ciascuna fase sulla base di criteri quali la struttura dei dati, la latenza delle query, i costi, la velocità delle richieste, le dimensioni degli elementi, il volume di dati, la durabilità e così via. Infine, forniremo architetture di riferimento, modelli di progettazione e best practice per mettere insieme queste tecnologie e risolvere i problemi relativi ai Big Data a costi ragionevoli.

Guarda il video »

 

Registrati per accedere al programma di anteprima di AWS Glue in questa pagina. Una volta approvata la richiesta, potrai provare gratuitamente il servizio.

Registrati per l'anteprima