Een Lakehouse: Data Warehouse en Data Lake in één

3 november 2021

Door Jerrold Stolk (Technology Lead Data & Analytics) en Dylan van Riel (Architect Data & Analytics)

Data Warehouses leveren binnen organisaties al jarenlang dé inzichten waarmee belangrijke beslissingen worden ondersteund. Hoewel door Massive Parrallel Processing (MPP)-architectuur de mogelijkheid is ontstaan om in Data Warehouses makkelijk grote hoeveelheden data te verwerken, zijn Data Warehouses vooral gericht op gestructureerde data. Nu (middel)grote organisaties steeds vaker te maken krijgen met ongestructureerde data én streaming data, lopen zij tegen de beperkingen van hun Data Warehouse aan. In deze eerste blog in een reeks van twee, leest u over de volgende stap in de datagedreven procesvoering binnen deze organisaties: Lakehouse-architectuur.

Omdat Data Warehouses niet geschikt zijn voor de opslag van ongestructureerde data en streaming data, wordt hiervoor vaak een Data Lake gebruikt. Een Data Lake is een opslagplaats voor ruwe data in verschillende formaten. Het voordeel van een Data Lake is dat het goedkoop is en alle dataformaten ondersteunt. Het nadeel van een Data Lake is het ontbreken van de volgende belangrijke features:

  • Het ondersteunen van ACID-transacties
  • Het afdwingen van datakwaliteit
  • Een vast schema

Het ontbreken van deze features maakt dat een Data Lake níet de oplossing is voor het verwerken van data tot inzichten. Daarom hebben veel organisaties zowel een Data Lake als een Data Warehouse in gebruik. Dit is geen ideale situatie, want dit leidt tot silovorming van datastromen: op gestructureerde data (via het Data Warehouse) en op ongestructureerde data en streaming data (via het Data Lake). Veel van deze organisaties zoeken een oplossing voor het tegengaan van deze silovorming. Deze oplossing is Lakehouse-architectuur.

Wat is een Lakehouse?

Een Lakehouse is een open architectuur die de eigenschappen van een Data Lake en een Data Warehouse combineert. Dit doet een Lakehouse door de datastructuren en datamanagementeigenschappen van een Data Warehouse te implementeren op een Data Lake. Hiermee ontstaat een win-win situatie: de voordelen van een Data Warehouse én de voordelen van een Data Lake.

Een Lakehouse: Data Warehouse en Data Lake in één 1

 

Wat zijn de belangrijkste voordelen van een Lakehouse?

De belangrijkste voordelen van een Lakehouse zijn:

  • Gecentraliseerde opslag van data alleen op het Data Lake, in plaats van verspreid over databases;
  • Een geforceerd schema voor de data, waarmee structuur afgedwongen wordt en integriteit geborgd wordt;
  • Het gebruik van BI-tools direct op de data is mogelijk, waardoor de kosten en de doorlooptijd van het creëren van deze oplossingen gereduceerd worden;
  • De storage is gescheiden van compute, wat leidt tot een meer schaalbaar en beheersbaar platform, waarvan de kosten beter inzichtelijk zijn;
  • Het gebruik van open datatypen, zoals Parquet, voor opslag. Door middel van API’s kan in verschillende talen (SQL/Python/R/etc.) direct met de data geïnteracteerd worden;
  • De ondersteuning van verschillende datatypen, zoals ongestructureerde data en streaming data.
  • De ondersteuning van verschillende workloads, zoals Data Science, Machine Learning, Business Intelligence en Analytics. Verschillende tools zijn nodig om deze workloads uit te voeren, maar uiteindelijk gebruiken ze allemaal data uit dezelfde opslag: het Lakehouse;
  • Door middel van real-time rapportages op data in het Lakehouse kunnen sneller inzichten gecreëerd worden (End-to-End-streaming).

Hoe biedt u data uit een Lakehouse overzichtelijk aan voor gebruik?

U vraagt zich nu wellicht af: hoe bied ik alle data uit een Lakehouse overzichtelijk aan voor gebruik? In een Lakehouse is zowel data opgeslagen in ruwe vorm, als in verwerkte vorm met businesslogica erin. Dit onderscheid in volwassenheid in datasets is belangrijk: ruwe datasets zijn minder bruikbaar voor standaardrapportages en KPI’s, terwijl verwerkte data wellicht data uitsluit die interessant is voor Data Science.

Een veelgebruikte oplossing hiervoor is medaillon-architectuur, waarin data onderscheiden wordt in  Gold Data, Silver Data en Bronze Data. Net als bij medailles in de sport is goud beter dan zilver en zilver beter dan brons. Bij medaillon-architectuur wordt ruwe data gelabeld als Bronze data en verwerkte data als Silver Data of Gold Data.

Voor het begrijpen en verwerken van Bronze Data is meer expertise nodig dan voor het begrijpen verwerken van Gold Data. Daarnaast kan Bronze Data onbedoeld meer gevoelige data bevatten dan Gold Data. Zodoende is het verstandig om de toegang tot deze soorten data af te schermen met rollen en groepen. Bijvoorbeeld: Bronze Data zijn alleen toegankelijk voor Data Engineers of Data Scientists. Daarvoor bieden de Acces Control Lists (ACL’s) in Azure Data Lake Storage uitkomst. Daarmee kunnen rechten per laag, bronsysteem of domein ingericht worden.

Migratie naar Lakehouse: de way to go?

De meeste nieuwe dataplatformen die wij voor klanten implementeren, volgen de Lakehouse- architectuur. Een Lakehouse past goed bij organisaties die behoefte hebben aan een breed inzetbaar analytics-platform. Binnen een Lakehouse worden verschillende soorten use cases ondersteund, variërend van Data-Exploratie tot Data Science, Rapportages en Business Intelligence. Daarvoor is bij uw gebruikers een hoge datageletterdheid en uitgebreide kennis van datagedreven werken vereist.

Daarom is voor sommige organisaties een Data Warehouse nog steeds de beste keuze. Een Data Warehouse past goed bij organisaties die zich op de middellange termijn enkel willen richten op Rapportages en Business Intelligence. Binnen een Data Warehouse is de complexiteit van een dataplatform lager, waardoor bij de gebruikers minder hoge datageletterdheid en minder uitgebreide kennis van datagedreven werken vereist is.

Als een Lakehouse voor uw organisatie de juiste beslissing is, is het zaak om de juiste migratiestrategie te bepalen. In de tweede blog in deze serie nemen we u mee in het bepalen van de beste migratiestrategie, de benodigde skillset en de andere manier van denken die essentieel is bij het volgen van de Lakehouse-architectuur.

In de tweede blog van Jerrold en Dylan vertellen zij hoe u de migratie naar een Lakehouse aanpakt. Lees hier meer.

 

Lakehouse-architectuur binnen uw organisatie?

Wilt u meer weten over de belangrijkste voordelen en uitdagingen van Lakehouse-architectuur, of wilt u direct aan de slag? Motion10 ondersteunt u in elk stadium: van vrijblijvende oriëntatie tot concrete implementatie. Neem contact op met Jerrold Stolk, Technology Lead Data & Analytics, of met uw Motion10 Accountmanager.

Neem contact op