Data mesh oplossing voor probleem schaalbaarheid dataplatformen

16 juli 2021

Jerrold Stolk

Technology Lead Data & Analytics

Data mesh oplossing voor probleem schaalbaarheid dataplatformen

Data mesh is hot in de wereld van dataplatformen. Begrijpelijk, want data mesh biedt de oplossing voor een langlopend probleem: de schaalbaarheid van dataplatformen. Wellicht kan data mesh ook binnen jouw organisatie voor een doorbraak zorgen. In deze blog vertel ik je wat de belangrijkste voordelen en uitdagingen van een data mesh architectuur zijn.

De term data mesh is geïntroduceerd door ThoughtWorks consultant Zhamak Dehghani. Het is een architectuur waarbij gedistribueerde dataproducten door data engineers en data product owners in domeinteams ontwikkeld en beheerd worden. Hierbij wordt gebruik gemaakt van een gedeelde infrastructuur om data te hosten, te prepareren en aan te bieden. Omdat centrale data teams massaal (h)erkennen dat ze tegen limieten aanlopen, is data mesh uitgegroeid tot een belangrijke trend in de wereld van dataplatformen. Hoe heeft deze situatie kunnen ontstaan?

Data warehouse
In de jaren ’80 kwam het data warehouse op: een centrale data-omgeving om vanuit te rapporteren. Het was het antwoord op de vraag hoe een totaalbeeld te krijgen van de staat van een organisatie. Deze centralisatie bracht op zijn beurt nieuwe uitdagingen met zich mee, bijvoorbeeld op het gebied van technologie, kennis en bemensing. Tenslotte is het logische gevolg van een steeds groter dataplatform, een steeds grotere server en een steeds groter team.

Parallel processing
Voor de technische uitdaging kwam rond het jaar 2000 de oplossing: parallel processing, op onder meer het Hadoop ecosysteem. Voor de komst van parallel processing was de meest gebruikte oplossing voor performance problemen een grotere server: scale up. Met de komst van parallel processing konden meerdere servers ingezet worden om het dataplatform te hosten: scale out.

Schaalbaarheidsprobleem nog niet opgelost
Maar met een data warehouse en parallel processing is het schaalbaarheidsprobleem voor de kennis en bemensing nog niet opgelost. Nog steeds is er met een groter dataplatform een groter centraal team nodig met centraal verzamelde kennis van data engineering: scale up. Dit is de reden waarom in IT-omgevingen vaak verticale splitsingen worden gemaakt, waarbij data engineers en data analisten in verschillende teams werken. Het nadeel van deze splitsing is dat voor elk dataproduct verschillende teams nodig zijn.

Volwaardige oplossing schaalbaarheidsprobleem
Hét grote voordeel van data mesh is dat het voorziet in een volwaardige scale out oplossing: het opsplitsen van het centrale data team en de kennis hieromheen in domeinteams met elk hun eigen expertise. Zo zijn domeinteams in staat binnen hun eigen expertisegebieden optimale businesswaarde te leveren. Als geen ander kennen domeinteams de definities van producten of klanten en zij kunnen deze entiteiten ook vormgeven. Met de juiste standaarden, tools en kennis zijn domeinteams in staat om zelf dataproducten te leveren en centraal aan te bieden. Samengevat komt dit op het volgende neer:

  • Het domeinteam beheert de datakwaliteit en kan die goed monitoren en verbeteren;
  • Het domeinteam kent de juiste definities en kan die goed toepassen en delen;
  • Het domeinteam kent de datagebruikers en kan die goed bedienen en ontzorgen;
Schaalbaarheidsprobleem dataplatformen opgelost met data mesh 1

De uitdagingen
Daarentegen brengt op zijn beurt ook data mesh uitdagingen met zich mee. Essentiële vragen die elke organisatie voorafgaand aan een implementatie van data mesh moet hebben beantwoord, zijn:

  • Hoe (de)centraal is mijn organisatie ingericht?
  • Wat is de omvang van mijn organisatie?

Een implementatie van data mesh is alleen zinvol als de voordelen van decentralisatie opwegen tegen de investering in het opzetten van het platform en de standaarden. Daarom is data mesh een passende oplossing voor (met name) organisaties met meerdere divisies en/of een internationaal karakter.

Nieuwe rol van IT-teams
Ook vereist data mesh een nieuwe rol van de IT-teams, zowel ondersteunend als controlerend. De IT-teams moeten de domeinteams ondersteunen met het platform en de juiste tools. Daarnaast moeten zij de domeinteams controleren door toezicht te houden op de toepassing van uniforme standaarden.

Ondersteunend
Met meerdere domeinteams die elk hun eigen dataproducten opleveren, is goede ondersteuning noodzakelijk op de volgende gebieden: standaarden voor toegankelijke beschrijving van dataproducten, ondersteuning voor moderne tooling en begrijpelijke datatransformatie-standaarden.

Controlerend
Waarschijnlijk stelde je zichzelf al de vraag: hoe controle te houden in een omgeving met meerdere onafhankelijke teams? Het antwoord: standaardisatie en beleid. Door standaarden op te stellen kan gegarandeerd worden dat er geen wildgroei aan code en beschrijvingen ontstaat. Bij de aansturing van domeinteams is vastomlijnd beleid nodig: het mag niet mogelijk zijn code of documentatie te releasen die niet voldoet aan standaarden rond naamgeving, structuur en tagging.

Data mesh in de Azure cloud

Data mesh is geen cloud dienst die je even aan- of uitzet. Het is een combinatie van een goede aanpak met de juiste tools. Bij optimale toepassing van een data mesh architectuur in de Azure cloud leveren de volgende services maximale toegevoegde waarde:

  • Azure Purview: een centrale plek voor data governance, waarin beschrijvingen van data producten en de herkomst hiervan (lineage) ondersteund worden
  • Azure Synapse: een schaalbaar cloud dataplatform, met een gebruiksvriendelijke interface voor een uniforme dataverwerking
  • Azure Data Lake: een schaalbare en kostenefficiënte opslagmogelijkheid
  • Azure Machine Learning: ondersteuning voor machine learning en de borging van de processen hieromheen
  • Azure Policies: deze zijn beschikbaar voor bovenstaande services en dwingen een gestandaardiseerde way of working af

Data mesh binnen jouw organisatie?

Wil je meer weten over de belangrijkste voordelen en uitdagingen van, of direct aan de slag met, data mesh binnen jouw organisatie? Motion10 help je verder in elk stadium: van vrijblijvende oriëntatie tot concrete implementatie. Neem hiervoor contact op met Jerrold Stolk, Technology Lead Data & Analytics, of met jouw Motion10 Accountmanager.