Wat is AWS-lijm en hoe gebruik je het?

Inhoudsopgave:

Wat is AWS-lijm en hoe gebruik je het?
Wat is AWS-lijm en hoe gebruik je het?
Anonim

AWS Glue is een beheerde extract-, transformatie- en laadservice (ETL) die gegevens kan verwerken die zijn opgeslagen in S3 of DynamoDB en deze kan converteren naar verschillende formaten of schema's voor eenvoudiger gebruik in andere services zoals Athena.

Waarom AWS-lijm gebruiken?

AWS Glue is bedoeld voor mensen die te veel gegevens hebben om te verwerken. Misschien heb je een hele vloot van servers, en elk van hen spuwt logbestanden uit. U neemt deze gegevens op in S3 voor eenvoudige opslag, maar er is veel van en het moet eerst worden verwerkt voordat het met Athena wordt geanalyseerd. Misschien bent u alleen geïnteresseerd in een paar kolommen uit de gegevens en wilt u de rest weggooien.

AWS Glue kan dat aan; het zit tussen je S3-gegevens en Athena, en verwerkt gegevens net zoals een hulpprogramma zoals

sed

of

awk dat op de opdrachtregel zou doen. Door een crawler in te stellen, kunt u gegevens die zijn opgeslagen in S3 importeren in uw gegevenscatalogus, dezelfde catalogus die door Athena wordt gebruikt om query's uit te voeren. U kunt deze gegevens vervolgens wijzigen om de onnodige kolommen te verwijderen of tussen indelingen te converteren.

AWS Glue kan CSV en andere gescheiden formaten ook automatisch converteren naar het kolomformaat Apache Parquet, wat ten zeerste wordt aanbevolen voor iedereen die met Athena werkt, omdat het uw kosten met een orde van grootte kan verlagen omdat er veel minder voor nodig is te verwerken gegevens.

Hoe te beginnen

Ga naar de AWS Glue Console en selecteer 'Aan de slag'. Selecteer op het tabblad 'Crawlers' de optie 'Creëer crawler' en geef het een naam. Kies "Data Stores" als het importtype en configureer het om gegevens te importeren uit de S3-bucket waar uw gegevens worden bewaard.

De AWS-lijmconsole
De AWS-lijmconsole

Maak vervolgens een nieuwe IAM-gebruiker voor de crawler om als te werken. Maak het vanuit dit dialoogvenster en selecteer het vervolgens in de lijst (mogelijk moet u op de knop Vernieuwen naast de lijst drukken).

Kies uw IAM-rol
Kies uw IAM-rol

U kunt uw crawler een schema geven met behulp van de standaard

cron-syntaxis, of door een van de vooraf gedefinieerde opties te selecteren. Je kunt het ook handmatig vanaf de console laten draaien als je dat wilt.

Geef je crawler een schema
Geef je crawler een schema

Kies een uitvoerdatabase uit uw gegevenscatalogus. Als je Athena eerder hebt gebruikt, heb je misschien een aangepaste database, maar zo niet, dan zou de standaard goed moeten werken. De crawler maakt een tabel voor zichzelf om gegevens in op te slaan.

Gegevens converteren

Zodra uw gegevens zijn geïmporteerd in uw gegevenscatalogusdatabase, kunt u deze gebruiken in andere AWS Glue-functies. Als u bijvoorbeeld uw gegevens wilt verwerken, kunt u een nieuwe taak maken op het tabblad "Vacatures" om gegevensconversie af te handelen.

Geef de taak een naam en selecteer uw IAM-rol. Selecteer "Een voorgesteld script gegenereerd door AWS Glue" als het script dat de taak uitvoert, tenzij u er handmatig een wilt schrijven.

Geef de taak een naam en selecteer uw IAM-rol
Geef de taak een naam en selecteer uw IAM-rol

Selecteer op het volgende tabblad de tabel waarin uw gegevens door de crawler zijn geïmporteerd. Klik op volgende en selecteer vervolgens "Schema wijzigen" als het transformatietype.

Je kunt ervoor kiezen om nieuwe bestanden te maken, of in plaats daarvan de huidige bij te werken met het nieuwe schema. Als je naar Parquet of andere formaten converteert, moet je nieuwe bestanden maken.

Vanaf de volgende pagina kun je configureren waar alle magie gebeurt. Elke kolom in het bronbestand wordt toegewezen aan een kolom in het uitvoerbestand. U kunt kolommen verwijderen en nieuwe toevoegen als u dat wilt. Standaard is het een één-op-één-toewijzing, dus als u alleen tussen indelingen converteert, kunt u deze pagina negeren.

Converteren tussen formaten
Converteren tussen formaten

Vervolgens wordt u naar de scripteditor gebracht, waar AWS een script heeft voorgeladen dat de juiste transformatie voor u uitvoert. Je kunt het handmatig uitvoeren vanaf dit tabblad in de console, of het instellen met een trigger om volgens een vast schema te werken.

Athena kan ook worden geconfigureerd om gegevens te laden van een AWS Glue-crawler, in plaats van van een vast pad in S3. U kunt het ook gebruiken om nauwkeuriger te bepalen welke gegevens worden geïmporteerd.

Populair onderwerp