3 november 2021
Door Jerrold Stolk (Technology Lead Data & Analytics) en Dylan van Riel (Architect Data & Analytics)
Data Warehouses leveren binnen organisaties al jarenlang dé inzichten waarmee belangrijke beslissingen worden ondersteund. Hoewel door Massive Parrallel Processing (MPP)-architectuur de mogelijkheid is ontstaan om in Data Warehouses makkelijk grote hoeveelheden data te verwerken, zijn Data Warehouses vooral gericht op gestructureerde data. Nu (middel)grote organisaties steeds vaker te maken krijgen met ongestructureerde data én streaming data, lopen zij tegen de beperkingen van hun Data Warehouse aan. In deze eerste blog in een reeks van twee, leest u over de volgende stap in de datagedreven procesvoering binnen deze organisaties: Lakehouse-architectuur.
Omdat Data Warehouses niet geschikt zijn voor de opslag van ongestructureerde data en streaming data, wordt hiervoor vaak een Data Lake gebruikt. Een Data Lake is een opslagplaats voor ruwe data in verschillende formaten. Het voordeel van een Data Lake is dat het goedkoop is en alle dataformaten ondersteunt. Het nadeel van een Data Lake is het ontbreken van de volgende belangrijke features:
Het ontbreken van deze features maakt dat een Data Lake níet de oplossing is voor het verwerken van data tot inzichten. Daarom hebben veel organisaties zowel een Data Lake als een Data Warehouse in gebruik. Dit is geen ideale situatie, want dit leidt tot silovorming van datastromen: op gestructureerde data (via het Data Warehouse) en op ongestructureerde data en streaming data (via het Data Lake). Veel van deze organisaties zoeken een oplossing voor het tegengaan van deze silovorming. Deze oplossing is Lakehouse-architectuur.
Een Lakehouse is een open architectuur die de eigenschappen van een Data Lake en een Data Warehouse combineert. Dit doet een Lakehouse door de datastructuren en datamanagementeigenschappen van een Data Warehouse te implementeren op een Data Lake. Hiermee ontstaat een win-win situatie: de voordelen van een Data Warehouse én de voordelen van een Data Lake.
De belangrijkste voordelen van een Lakehouse zijn:
U vraagt zich nu wellicht af: hoe bied ik alle data uit een Lakehouse overzichtelijk aan voor gebruik? In een Lakehouse is zowel data opgeslagen in ruwe vorm, als in verwerkte vorm met businesslogica erin. Dit onderscheid in volwassenheid in datasets is belangrijk: ruwe datasets zijn minder bruikbaar voor standaardrapportages en KPI’s, terwijl verwerkte data wellicht data uitsluit die interessant is voor Data Science.
Een veelgebruikte oplossing hiervoor is medaillon-architectuur, waarin data onderscheiden wordt in Gold Data, Silver Data en Bronze Data. Net als bij medailles in de sport is goud beter dan zilver en zilver beter dan brons. Bij medaillon-architectuur wordt ruwe data gelabeld als Bronze data en verwerkte data als Silver Data of Gold Data.
Voor het begrijpen en verwerken van Bronze Data is meer expertise nodig dan voor het begrijpen verwerken van Gold Data. Daarnaast kan Bronze Data onbedoeld meer gevoelige data bevatten dan Gold Data. Zodoende is het verstandig om de toegang tot deze soorten data af te schermen met rollen en groepen. Bijvoorbeeld: Bronze Data zijn alleen toegankelijk voor Data Engineers of Data Scientists. Daarvoor bieden de Acces Control Lists (ACL’s) in Azure Data Lake Storage uitkomst. Daarmee kunnen rechten per laag, bronsysteem of domein ingericht worden.
De meeste nieuwe dataplatformen die wij voor klanten implementeren, volgen de Lakehouse- architectuur. Een Lakehouse past goed bij organisaties die behoefte hebben aan een breed inzetbaar analytics-platform. Binnen een Lakehouse worden verschillende soorten use cases ondersteund, variërend van Data-Exploratie tot Data Science, Rapportages en Business Intelligence. Daarvoor is bij uw gebruikers een hoge datageletterdheid en uitgebreide kennis van datagedreven werken vereist.
Daarom is voor sommige organisaties een Data Warehouse nog steeds de beste keuze. Een Data Warehouse past goed bij organisaties die zich op de middellange termijn enkel willen richten op Rapportages en Business Intelligence. Binnen een Data Warehouse is de complexiteit van een dataplatform lager, waardoor bij de gebruikers minder hoge datageletterdheid en minder uitgebreide kennis van datagedreven werken vereist is.
Als een Lakehouse voor uw organisatie de juiste beslissing is, is het zaak om de juiste migratiestrategie te bepalen. In de tweede blog in deze serie nemen we u mee in het bepalen van de beste migratiestrategie, de benodigde skillset en de andere manier van denken die essentieel is bij het volgen van de Lakehouse-architectuur.
In de tweede blog van Jerrold en Dylan vertellen zij hoe u de migratie naar een Lakehouse aanpakt. Lees hier meer.
Wilt u meer weten over de belangrijkste voordelen en uitdagingen van Lakehouse-architectuur, of wilt u direct aan de slag? Motion10 ondersteunt u in elk stadium: van vrijblijvende oriëntatie tot concrete implementatie. Neem contact op met Jerrold Stolk, Technology Lead Data & Analytics, of met uw Motion10 Accountmanager.
Neem contact op