Datagedrevenheid

10 september 2019

Gijs in 't Veld,

Voormalig CTO en Principal Consultant

Wat data-gedreven zijn betekent

Het nieuwste buzzword op het gebied van Data & AI is “data-gedreven”. Een organisatie moet data-gedreven worden. Om meer concurrerend te worden en een digitale transformatie te kunnen doorlopen en daardoor nog meer onderscheidend te worden. Wat betekent data-gedreven zijn nu eigenlijk? En wat komt er bij kijken?

Ware data

Data verzamelen en centraal beschikbaar stellen via een modern datawarehouse klinkt relatief eenvoudig. Je sluit de bronnen aan, transformeert ze naar een eenduidig model en ontsluit dit naar dashboards. Dit kan tegenwoordig data zijn van allerlei variëteiten en volumes, dus ook niet-relationele. De cloud services om deze transformaties uit te voeren (ELT) zijn sinds de laatste paar jaar behoorlijk geavanceerd. Het probleem zit echter vaak in dingen als eenduidige data definities en datakwaliteit.

Eenduidige data definities realiseren is een uitdaging die met name in een complex applicatielandschap ontstaat. Bijna bij elke organisatie dus. Landschappen waar bijvoorbeeld meerdere ERP systemen draaien. Omdat er aan fusies en overnames is gedaan.Wat betekent dan bijvoorbeeld “bruto prijs” in zo’n geval? Is die definitie overal het zelfde? En zo niet (meestal dus), hoe krijgen we dat dan getransformeerd naar wel een eenduidige definitie in het datawarehouse? Zodat daarover gerapporteerd kan worden?

Datakwaliteit is weer een ander issue. Dit ontstaat vaak door slechte (maatwerk) applicaties. Meestal door invoerschermen die wat “relaxed” zijn met invoercontroles. Of door het veel voorkomende “misbruik” van velden in een database. Waardoor het ontstaat dat in de ene implementatie van de applicatie veld x betekenis y heeft en in de andere applicatie betekenis z. Hoe ga je daar nu eenduidig over kunnen rapporteren? En analyseren? Bij big data is het probleem nog wat groter. Want je kunt nog zo veel data verzamelen; als de kwaliteit niet goed is, kun je er ook niets fatsoenlijks mee voorspellen. Valt niet mee!

Dashboardjes kieken?

Veel datawarehouses, moderne of niet, worden gebruikt om rapportjes en dashboardjes te voeden. Natuurlijk is dat een belangrijke functie; menig manager stuurt zijn afdeling of bedrijf op basis van deze informatie, door in een wekelijkse of maandelijkse meeting op basis van deze informatie acties uit te zetten. Vaak heeft zo’n manager ook nog wel een goed onderbuik gevoel en ziet dat er iets niet goed is in zo’n rapport of dashboard. Omdat het niet goed aanvoelt. Er kan dan altijd handmatig bijgestuurd worden.

Maar wat gebeurt er als data niet alleen in een dashboard of rapport eindigt, maar ook gebruikt wordt om automatisch actie te ondernemen? Dus bijvoorbeeld in predictive scenario’s. Of nog geavanceerder: In prescriptive scenario’s, waarbij de manager eigenlijk door de data verteld wordt wat hij moet doen om een bepaalde doelstelling te behalen. De manager zal de onderliggende logica vaak al niet meer doorgronden en zal dus volledig moeten vertrouwen op de data en de algoritmes. Dat zal in het begin even wennen zijn!

Echt sturen op data

In dit soort geavanceerde scenario’s zijn goede data definities en datakwaliteit dus cruciaal en is het zelfs gevaarlijk als dit niet op orde is. Dat betekent dat governance op het dataplatform de nodige aandacht vereist. Het dataplatform, bestaande uit technologie die overweg kan met zowel gestructureerde als niet-gestructureerde data, en zowel relationele als niet-relationele data, is het centrale punt waar je de governance op orde moet hebben. Zaken als architectuurprincipes, data transformatiepatronen, kwaliteitsstandaarden, en onderhoud op de standaard modellen. Dat is waar governance om  draait. Dit is waar ook een onderwerp als masterdata haar plekje moet hebben. En waar je de datacatalogus moet hebben draaien en up-to-date houden. Dit is waar betrouwbare data kan worden gevonden. En waar je op kunt sturen.

Net als bij security en privacy vraagstukken, geldt dat data-gedreven worden iets is wat niet alleen een technisch feestje is, maar juist ook een organisatorische uitdaging.  Waarbij strakke handhaving op het gebied van data compleetheid en datakwaliteit nodig is; iets waarop je door je leidinggevende en je collega’s aangesproken kan worden indien nodig. Dat is met name voor de cowboys (en girls) in de organisatie een uitdaging. Maar veel wordt juist gewonnen met het op een correcte manier ontstaan van data. Gelukkig ontstaat steeds meer data door IoT devices en niet door menselijk handelen, maar totdat dat 100% is zullen we hier volop aandacht aan moeten besteden, in de hele organisatie.

Het vergt een bepaalde gedrevenheid in de organisatie om dit voor elkaar te krijgen en te houden. Een data-gedrevenheid!

Shadow IT uit de schaduw halen