De enige juiste manier om succesvolle big data projecten uit te voeren

Inclusief valkuilen en best practices, op basis van observaties bij diverse multinationals, mkb-bedrijven & innovatieve start-ups.

Vele organisaties hebben de eerste stappen gezet op het gebied van big data / data science, echter blijft het vaak bij een proof-of-concept of een zeer geavanceerd machine learning model dat blijft hangen op de afdeling Analytics, zonder dat de business er daadwerkelijk (geautomatiseerd) meerwaarde uithaalt en data-gedreven beslissingen worden genomen. Kan je in dat geval stellen dat het big data project succesvol is? Niet echt. Te veel big data projecten zijn dus eigenlijk niet succesvol. Tijd voor verandering.

Vanuit mijn rol als Commercieel Manager bij BigData Republic spreek ik dagelijks diverse managers en specialisten van uiteenlopende bedrijven. Denk aan grote multinationals als Shell, ING, Ahold of KLM, maar ook zeer uiteenlopende MKB-bedrijven, innovatieve start-ups en uiteraard het nauwe contact met mijn collega’s van BigData Republic. Wat blijkt? Vele organisaties, of ze nu al jaren aan data science doen of net zijn begonnen, worstelen met dezelfde uitdagingen.

Observaties

Vaak ontbreekt het bij een organisatie aan alignment tussen de company strategy, de wens van de business uit, de oplevering van het data science team en de IT productie systemen. Mijn collega Koen Verschuren (CTO) heeft dit recent helder samengevat in onderstaande afbeelding:

Op basis hiervan kunnen 4 valkuilen worden benoemd:

1. De wens van business unit en de geformuleerde use-case wordt niet (correct) uitgevoerd door de data scientist –> Geen innovatie en een mogelijke achterstand op de concurrentie.

2. De data scientist levert een werkend model op, maar voldoet niet aan de wensen van de business unit –> Geen business-value.

3. De data scientist levert een model op dat voldoet aan de wensen van de business, maar komt niet in productie –> Geen impact.

4. Het model draait in productie, voldoet aan de wens van de business, maar de oplossing is niet in lijn met de company strategy die bepaalt hoe beslissingen worden genomen –> Geen commitment.

Geconcludeerd kan worden dat een big data / data science project alleen succesvol kan zijn wanneer er alignment is tussen de company strategy, de wens van de business uit, de oplevering van het data science team en de IT productie systemen.

Een andere valkuil en veelgemaakte verkeerde keuze is de data scientist het hele traject van A tot Z te laten uitvoeren. Over het algemeen heeft deze persoon niet de benodigde vaardigheden om een big data platform op te zetten en de modellen in productie te zetten. Bij BigData Republic maken we bewust onderscheid tussen Big Data Strategists, Data Scientists, Big Data Engineers en Big Data Architecten, allen met zeer verschillende achtergronden en vaardigheden.

Ook merk ik dat regelmatig de technologische oplossing als uitgangspunt wordt beschouwd, in plaats van het beoogde doel van de big data projecten. Schaf nooit zomaar een Hadoop cluster aan als startpunt, maar zorg dat de technologie aansluit bij de business wens. Helaas gebeurt het te vaak dat een organisatie veel geld in technologieën heeft geïnvesteerd en dit uiteindelijk een suboptimale oplossing blijkt te zijn voor de later gedefinieerde use-cases.

Best practices

Hoe zorg je voor de benodigde alignment, waarbij verschillende disciplines komen kijken? Grofweg kan de aanpak worden verdeeld in 4 fases.

Fase 1: Wanneer data-gedreven beslissingen onderdeel is van de company strategy, is het van belang iemand als Big Data Strategist aan te wijzen om met de verschillende stakeholders in gesprek te gaan. Op basis van de doelstellingen, kansen en mogelijkheden worden de meest geschikte use-cases opgesteld en nagegaan of dit niet beperkt wordt door de datakwaliteit of eventuele datarestricties. Zoals reeds aangegeven: start met het beoogde doel van de big data projecten in plaats van de technologische oplossing als uitgangspunt. Bij BigData Republic doen we dit door middel van een “use-case discovery” traject waarbij we in 1 week kunnen zorgen voor alignment tussen de company strategy en de use-cases die voor de business unit worden uitgevoerd.

Fase 2: Vanaf hier is het de taak aan de Data Scientist om de use-case uit te werken en een voorspellend model op te leveren. Belangrijk hierbij is vanaf het eerste moment er rekening mee te houden dat het model uiteindelijk in productie moet komen. “Is een geavanceerd neural network of deep-learning black box oplossing wel geschikt voor onze productiesystemen?”, “Hoe gaan we van een R-script naar een productie-waardige taal?”, “Is R wel de beste keuze voor onze data scientists, of sluit Python beter aan bij de doelstellingen?”. Slechts enkele voorbeelden van vragen om bij aanvang van het project goed over na te denken.

Fase 3: Wanneer het model is opgeleverd zijn we aangekomen bij de volgende uitdaging: het model in productie zetten. Het data science model zomaar in dezelfde taal naar productie brengen is meestal geen verstandige keuze. Wanneer de Data Scientist ook big data engineering vaardigheden heeft en zeer bekwaam is met productie-waardige talen als Java en Scala is er een geen extra specialist nodig, echter zijn deze personen (helaas) nogal schaars. Mocht je deze specialist wel in dienst hebben, koester hem of haar en zorg dat deze persoon zich voor langere tijd aan je organisatie bindt.

Zodoende is in de productiefase de rol van de Big Data Engineer essentieel. Meer informatie over de verschillende manieren om een data science model in productie te zetten staat beschreven in een eerdere post van mijn collega:

https://www.bigdatarepublic.nl/data-science-in-productie

Fase 4: Wanneer het model door de business wordt gebruikt en het daadwerkelijk waarde oplevert, is de kans groot dat big data niet meer weg te denken is uit de organisatie. Om optimaal data-gedreven beslissingen te kunnen nemen, is de volgende stap het opzetten van een Data Science Lab of een gehele big data infrastructuur. Dit is over het algemeen niet besteed aan een Data Scientist of een Big Data Engineer, vandaar dat in deze fase de Big Data Architect onmisbaar is. Zaken als schaalbaarheid en security spelen hierbij een belangrijke rol en zijn cruciaal voor de organisatie, vandaar het belang om de juiste specialist voor de juiste doeleinden in te zetten.

Conclusie

  • Zorg voor commitment om data-gedreven beslissingen te mogen nemen.
  • Zorg voor use-cases die aansluiten bij de wens van de business unit om daadwerkelijk business value toe te voegen. Uitgangspunt is het doel van de big data projecten. Technologie volgt later.
  • Start met data science projecten om tot innovatie te komen en een achterstand op de concurrentie te voorkomen.
  • Zet de opgeleverde data science modellen in productie zodat de innovatie en het harde werk daadwerkelijk impact heeft.
  • Pak een big data project stap voor stap aan met een multidisciplinair team van ervaren specialisten.

In de titel beweerde ik dat dit de enige juiste manier is om succesvolle big data projecten uit te voeren, maar uiteraard zullen er genoeg andere visies zijn. Vragen, feedback of opmerkingen? Graag. Stuur me een berichtje per email via bart.wetselaar@bigdatarepublic.nl.