Een Lakehouse: Data Warehouse en Data Lake in één

4 maart 2022

Zo pak je de migratie aan

Door Jerrold Stolk (Technology Lead Data & Analytics) en Dylan van Riel (Architect Data & Analytics)

Data Warehouses leveren binnen organisaties al jarenlang dé inzichten waarmee belangrijke beslissingen worden ondersteund. Hoewel door Massive Parrallel Processing (MPP)-architectuur de mogelijkheid is ontstaan om in Data Warehouses makkelijk grote hoeveelheden data te verwerken, zijn Data Warehouses vooral gericht op gestructureerde data. Nu (middel-)grote organisaties steeds vaker te maken krijgen met ongestructureerde data én streaming data, lopen zij tegen de beperkingen van hun Data Warehouse aan. In de eerste blog in deze reeks van twee, leest je wat een Lakehouse-architectuur is en waarom dit de volgende stap in de datagedreven procesvoering binnen deze organisaties is. In deze tweede blog vertellen wij je hoe je de migratie naar een Lakehouse aanpakt.

Voorbereiding
Wanneer een organisatie de keuze maakt voor een Lakehouse-architectuur om te komen tot een toekomstbestendig dataplatform, is het moment aangebroken om de migratie vorm te geven. Om de migratie succesvol te laten verlopen, is een goede voorbereiding vereist. Deze voorbereiding bestaat in ieder geval uit de volgende vijf stappen:

1. Use-case: welke interne vragen beantwoorden we met deze migratie en hoe sluit dit aan bij onze (IT-)strategie?
2. Assessment: is de huidige omgeving geschikt voor lift & shift migratie?
3. Migratie-ontwerp: welke aanpak passen we toe per onderdeel?
4. Evaluatie: is het migratieplan klaar om uitgevoerd te worden?
5. Uitvoering: het daadwerkelijk uitvoeren van de migratie.

Een Lakehouse: Data Warehouse en Data Lake in één Zo pakt u de migratie aan 1

Platform en beveiliging

Na de voorbereiding van stap 1 t/m 4, is de eerste stap bij het daadwerkelijk uitvoeren van de migratie het opzetten van het platform. Hier gaat het om het inrichten van de Landing Zones, waarop het dataplatform opgebouwd wordt. Microsoft raadt hiervoor Data en Data Management Landing Zones aan, onderdeel van het Cloud Adoption Framework. Deze aanpak is ook verwerkt in de Motion10 PitWall. Onderdeel van de platform-uitrol is ook de opzet van de beveiliging. Voordat de migratie start moet duidelijk zijn wie waartoe gerechtigd is. Dit staat centraal bij het opzetten van de behulp van onder andere firewalls, Network Security Groups en Private Endpoints.

Datamigratie

Wanneer het platform staat, is het tijd voor de datamigratie. Deze bevat twee sub-stappen: het migreren van de historie en het opzetten van de laadprocessen. In elke adviseren wij een side-by-side-migratie, boven een in-place-migratie. Dit betekent dat het nieuwe dataplatform naast het bestaande platform opgezet wordt, waardoor testen en valideren eenvoudig is. Zo kun je eenvoudig het nieuw opgezette dataplatform 1-op-1 vergelijken met het al bestaande platform.

  • Migreren van de historie
    Bij het migreren van de historie wordt alle relevante data uit het het originele Data Warehouse gekopieerd naar het Data Lake. Wanneer data vanuit een Data Warehouse gekopieerd wordt, is de bron veelal een database-omgeving. Om deze te ontsluiten raden we een metadata-gedreven extractie aan. Hierbij wordt door middel van een ETL-tool een kopie per tabel in het Data Lake gemaakt, in een vooraf gedefinieerde structuur.
  • Opzetten van de laadprocessen
    Bij het opzetten van de laadprocessen is het noodzakelijk om de data uit beide omgevingen gelijk te houden door deze bij te laden. Hiervoor moeten de laadprocessen uit het Data Warehouse opgezet worden in het Data Lake. Ook hiervoor raden we een metadata-gedreven oplossing aan, die in dit geval direct verbindt met de bron: het Data Warehouse. Wanneer er bij de migratie van een on premise-oplossing overgestapt wordt naar een cloud-oplossing, is in veel gevallen een Gateway benodigd.

 

Datatransformaties

De volgende stap in het migreren van een Data Warehouse naar een Lakehouse, is het ombouwen van de datatransformaties. Ook deze bevat twee substappen: migratie van de transformatieprocessen en het herbouwen van de dataprocessen. De beslissing hiervoor dient al in de fase genomen te worden en is afhankelijk van de antwoorden op de volgende vragen:

  • In welke taal of met welke tooling zijn de transformatieprocessen ontwikkeld?
    • SQL-taal is eenvoudiger te migreren dan een grafische tool als SQL Server Integration Services (SSIS).
  • Hoe volwassen zijn deze transformatieprocessen?
    • Wanneer de huidige transformatieprocessen niet meer 100% aansluiten bij de doelstellingen, is het aan te raden deze in een nieuwe vorm te herbouwen.

Wanneer voor herbouw gekozen wordt, is dit het moment om ook de datagelaagdheid te herzien. Veel Lakehouses maken gebruik van een medaillon-architectuur, met Bronze-, Silver- en Gold-lagen. De processen kunnen hierbij herzien worden, door preparatielogica te isoleren in de transformatie van Bronze naar Silver. Business logica wordt onderdeel van de transformatie van Silver naar Gold.

Een Lakehouse: Data Warehouse en Data Lake in één Zo pakt u de migratie aan

Of nu voor een migratie of herbouw van de datatransformaties gekozen wordt, de locatie waar de getransformeerde data wordt opgeslagen moet sowieso gewijzigd worden. Dit is anders bij een Lakehouse dan bij een Data Warehouse. De getransformeerde data in de Silver- en Gold-lagen wordt ook weer opgeslagen in het Data Lake.

Dataproducten

De toegevoegde waarde van een dataplatform uit zich in de opgeleverde dataproducten. Wanneer de data- en transformatieprocessen succesvol zijn gemigreerd, zijn dezelfde datasets in de nieuwe omgeving beschikbaar. Dit is het moment om de dataproducten om te bouwen naar de nieuwe omgeving. Hierbij is een onderscheid te maken in managed reporting en self-service analytics.

Bij managed reporting zijn de dataproducten in beheer van een centraal rapportageteam. Dit team kan zelf het omzetten van de data verzorgen, door de dataproducten te verwijzen naar de nieuwe omgeving.

Voor self-service gebruik dienen gebruikers in drie fasen ingelicht te worden over de verandering:

  • Vooraf inlichten dat het dataplatform gaat veranderen, en waarom;
  • Na migratie inlichten dat de nieuwe omgeving beschikbaar is, en dat dataproducten omgezet moeten worden voor de uiterste migratiedatum;
  • Na deze datum worden gebruikers ingelicht dat hun rapportages niet meer werken als deze niet omgebouwd zijn.

De overgang naar deze nieuwe situatie kan begeleid worden door beheerders van de meest gebruikte dataproducten actief te motiveren hun dataproducten om te bouwen. De metadata van de datasets dient gemigreerd te worden van de oude naar de nieuwe omgeving. Dit betekent dat de beschrijving van datasets, attributen en de data lineage omgezet moet worden naar de nieuwe omgeving. Deze activiteit kan worden belegd bij een data governance organisatie.

Lakehouse-architectuur binnen jouw organisatie?

Wil je meer weten over de belangrijkste voordelen en uitdagingen van Lakehouse-architectuur, of wil je direct aan de slag? Motion10 ondersteunt je in elk stadium: van vrijblijvende oriëntatie tot concrete implementatie. Neem contact op met Jerrold Stolk, Technology Lead Data & Analytics, of met jouw Motion10 Accountmanager.

Neem contact op