4 maart 2022
Door Jerrold Stolk (Technology Lead Data & Analytics) en Dylan van Riel (Architect Data & Analytics)
Data Warehouses leveren binnen organisaties al jarenlang dé inzichten waarmee belangrijke beslissingen worden ondersteund. Hoewel door Massive Parrallel Processing (MPP)-architectuur de mogelijkheid is ontstaan om in Data Warehouses makkelijk grote hoeveelheden data te verwerken, zijn Data Warehouses vooral gericht op gestructureerde data. Nu (middel-)grote organisaties steeds vaker te maken krijgen met ongestructureerde data én streaming data, lopen zij tegen de beperkingen van hun Data Warehouse aan. In de eerste blog in deze reeks van twee, leest u wat een Lakehouse-architectuur is en waarom dit de volgende stap in de datagedreven procesvoering binnen deze organisaties is. In deze tweede blog vertellen wij u hoe u de migratie naar een Lakehouse aanpakt.
Voorbereiding
Wanneer een organisatie de keuze maakt voor een Lakehouse-architectuur om te komen tot een toekomstbestendig dataplatform, is het moment aangebroken om de migratie vorm te geven. Om de migratie succesvol te laten verlopen, is een goede voorbereiding vereist. Deze voorbereiding bestaat in ieder geval uit de volgende vijf stappen:
1. Use-case: welke interne vragen beantwoorden we met deze migratie en hoe sluit dit aan bij onze (IT-)strategie?
2. Assessment: is de huidige omgeving geschikt voor lift & shift migratie?
3. Migratie-ontwerp: welke aanpak passen we toe per onderdeel?
4. Evaluatie: is het migratieplan klaar om uitgevoerd te worden?
5. Uitvoering: het daadwerkelijk uitvoeren van de migratie.
Na de voorbereiding van stap 1 t/m 4, is de eerste stap bij het daadwerkelijk uitvoeren van de migratie het opzetten van het platform. Hier gaat het om het inrichten van de Landing Zones, waarop het dataplatform opgebouwd wordt. Microsoft raadt hiervoor Data en Data Management Landing Zones aan, onderdeel van het Cloud Adoption Framework. Deze aanpak is ook verwerkt in de Motion10 PitWall. Onderdeel van de platform-uitrol is ook de opzet van de beveiliging. Voordat de migratie start moet duidelijk zijn wie waartoe gerechtigd is. Dit staat centraal bij het opzetten van de behulp van onder andere firewalls, Network Security Groups en Private Endpoints.
Wanneer het platform staat, is het tijd voor de datamigratie. Deze bevat twee sub-stappen: het migreren van de historie en het opzetten van de laadprocessen. In elke adviseren wij een side-by-side-migratie, boven een in-place-migratie. Dit betekent dat het nieuwe dataplatform naast het bestaande platform opgezet wordt, waardoor testen en valideren eenvoudig is. Zo kunt u eenvoudig het nieuw opgezette dataplatform 1-op-1 vergelijken met het al bestaande platform.
De volgende stap in het migreren van een Data Warehouse naar een Lakehouse, is het ombouwen van de datatransformaties. Ook deze bevat twee substappen: migratie van de transformatieprocessen en het herbouwen van de dataprocessen. De beslissing hiervoor dient al in de fase genomen te worden en is afhankelijk van de antwoorden op de volgende vragen:
Wanneer voor herbouw gekozen wordt, is dit het moment om ook de datagelaagdheid te herzien. Veel Lakehouses maken gebruik van een medaillon-architectuur, met Bronze-, Silver- en Gold-lagen. De processen kunnen hierbij herzien worden, door preparatielogica te isoleren in de transformatie van Bronze naar Silver. Business logica wordt onderdeel van de transformatie van Silver naar Gold.
Of nu voor een migratie of herbouw van de datatransformaties gekozen wordt, de locatie waar de getransformeerde data wordt opgeslagen moet sowieso gewijzigd worden. Dit is anders bij een Lakehouse dan bij een Data Warehouse. De getransformeerde data in de Silver- en Gold-lagen wordt ook weer opgeslagen in het Data Lake.
De toegevoegde waarde van een dataplatform uit zich in de opgeleverde dataproducten. Wanneer de data- en transformatieprocessen succesvol zijn gemigreerd, zijn dezelfde datasets in de nieuwe omgeving beschikbaar. Dit is het moment om de dataproducten om te bouwen naar de nieuwe omgeving. Hierbij is een onderscheid te maken in managed reporting en self-service analytics.
Bij managed reporting zijn de dataproducten in beheer van een centraal rapportageteam. Dit team kan zelf het omzetten van de data verzorgen, door de dataproducten te verwijzen naar de nieuwe omgeving.
Voor self-service gebruik dienen gebruikers in drie fasen ingelicht te worden over de verandering:
De overgang naar deze nieuwe situatie kan begeleid worden door beheerders van de meest gebruikte dataproducten actief te motiveren hun dataproducten om te bouwen. De metadata van de datasets dient gemigreerd te worden van de oude naar de nieuwe omgeving. Dit betekent dat de beschrijving van datasets, attributen en de data lineage omgezet moet worden naar de nieuwe omgeving. Deze activiteit kan worden belegd bij een data governance organisatie.
Wilt u meer weten over de belangrijkste voordelen en uitdagingen van Lakehouse-architectuur, of wilt u direct aan de slag? Motion10 ondersteunt u in elk stadium: van vrijblijvende oriëntatie tot concrete implementatie. Neem contact op met Jerrold Stolk, Technology Lead Data & Analytics, of met uw Motion10 Accountmanager.
Neem contact op