Data post mortem

Januari 2020

Gijs in 't Veld,

Voormalig CTO en Principal Consultant

Data science en Advanced Analytics kunnen niet zonder een hoge datakwaliteit

Data-gedreven werken is voor de meeste organisaties iets wat op de roadmap staat. Meer en meer kunnen sturen op data, waarbij het kunnen voorspellen van toekomstige scenario’s en het kunnen voorschrijven welke acties moeten worden ondernomen om bepaalde doelstellingen te bereiken de heilige graal is. Maar hoe bereik je dat?

Datakwaliteit

Om dit te kunnen bewerkstelligen is het verzamelen van zo veel mogelijk data niet het enige wat er moet gebeuren. Bij veel organisaties is datakwaliteit een probleem. Dit wordt met name veroorzaakt door bron-applicaties met een niet optimale user experience, zodat vaak verkeerde, verkeerd geformatteerde of niet complete informatie in databases terechtkomt. Dit soort problemen kunnen of beter gezegd, zouden eigenlijk niet in een dataplatform opgelost worden.

Meer weten over Data governance en het continu verbeteren van de datakwaliteit? Lees dan dit artikel over masterdata management.

Wat een dataplatform wel kan doen, is rapporteren over de datakwaliteit. En de trends in datakwaliteit. Zodat vervolgens de eigenaren van de bron applicaties actie kunnen ondernemen en zo langzamerhand de kwaliteit kunnen verbeteren waardoor de informatie die uit de data kan worden gehaald steeds betrouwbaarder wordt.

Gebrek aan datakwaliteit is het grootste issue als het gaat om betrouwbare voorspellingen kunnen doen. Bij het analyseren van, en rapporteren over datakwaliteit kan al prima gebruik worden gemaakt van de AI mogelijkheden in het dataplatform. Zo wordt datakwaliteit steeds beter inzichtelijk en kost het ook minder moeite om het te analyseren.

Fail fast met Data Science?

Belangrijk is ook om te kunnen leren van het falen van data gerelateerde projecten. Als het gaat om data science is het lastig om dit snel te kunnen doen. De ervaring leert dat data science erg arbeidsintensief is, veel experimenteren vereist en dat het dus lang kan duren alvorens er enige resultaten beschikbaar komen. En die resultaten kunnen (enorm) tegenvallen.

Het kan dus betekenen dat er een streep wordt getrokken door zo’n project. En dat doe je het liefst zo snel mogelijk, zodat het zo min mogelijk geld kost. Het is ook moeilijk om van te voren een business case te bedenken. En opdrachten die als uitgangspunt hebben “hier heb je een berg data, ga eens kijken of je er iets interessants in kunt vinden” zijn natuurlijk helemaal onzeker. Het is dus belangrijk dat dit soort trajecten voor het nageslacht goed worden vastgelegd om toekomstige trajecten van betere input te kunnen voorzien.

Data post mortem: Leren van anderen

De afgelopen jaren zijn er met name in de retail aardig wat faillissementen geweest. Denk aan V&D, Hudson’s Bay, Coolcat, Intertoys, etc. Ik weet niet waar de data blijft die die organisaties over de jaren hebben verzameld, maar dit lijkt mij een aardige bron van informatie. Waar veel organisaties van kunnen leren als het gaat om verkeerde keuzes voorkomen.

Bij deze een oproep: Kunnen we de data die die organisaties hebben verzameld, als onderdeel van de afhandeling van het faillissement door de curator publiekelijk beschikbaar maken? Als open data? Zodat iedereen er van kan leren om daarmee de kans op volgende mislukkingen te verkleinen?

 

Shadow IT uit de schaduw halen