Nu alsmaar meer bedrijven hun eigen big data ontdekken, duiken Data Lakes vaker op als oplossing voor het opslaan, begrijpen en vooral gebruiken van big data. Maar wat zijn data lakes eigenlijk, en hoe kunnen marketeers en bedrijven er hun voordeel uit halen? We vroegen het aan Vincent Crochet, data scientist bij Google Cloud expert Fourcast.
Iedereen beseft intussen hoe belangrijk data zijn, zeker in de marketingwereld. Elk bedrijf beschikt erover. Maar niet iedere marketeer weet hoe je al die data moet bundelen en bewaren, laat staan wat je ermee moet aanvangen. Nochtans kan je volgens Vincent Crochet een goudmijn creëren als je al die data op één plek samenbrengt: een data lake.
Eerst brengen we data samen, dan leren we uit die data en pas daarna beslissen we precies wat met de data gaan aanvangen
“Data zitten nu vaak opgesloten in zogenaamde data silo’s”, legt Vincent Crochet uit. “Denk bijvoorbeeld aan applicaties zoals een CRM, Google Analytics, Salesforce, marketing automation tool, Social media management systeem, spreadsheets en ga zo maar verder. Binnen die silo’s bieden data wel relevante inzichten waarop campagnes gebaseerd kunnen worden. Maar door data over silo’s heen te bundelen, maken we veel complexere inzichten mogelijk. Die kunnen onze campagnes en globale marketingprestaties drastisch verbeteren. Dat is net wat een data lake doet: data over al die silo’s heen bundelen, samenbrengen op 1 plaats, los van elke beperking in structuur, grootte of tijd. Als marketeer kan je vervolgens met die gebundelde data aan de slag.”
Connecting the dots
Ingewikkeld? Niet noodzakelijk, zegt Vincent Crochet. Hij verduidelijkt met een voorbeeld: “Een vriendin wou onlangs een laptop kopen. Ze opende haar vertrouwde elektronica webshop en kocht er een Macbook. Tot daar verliep alles prima. Maar in de daaropvolgende dagen kreeg ze op alle websites die ze bezocht advertenties te zien voor diezelfde Macbook, vaak zelfs veel voor veel lagere prijzen. Dat is natuurlijk een frustrerende ervaring voor klanten, en het bewijs dat bedrijven hun klanten niet helemaal kennen, of er onvoldoende op inspelen.”
Liesbeth Hermans, digital marketing manager bij Fourcast
Een grote uitdaging voor elke zich respecterende marketeer is dan ook een passend antwoord bieden op deze vragen: hoe krijg ik toegang tot relevante data? Wat kan ik gaan doen met die data, en hoe krijg ik er inzicht in? Tot enkele jaren geleden was het enige valabele antwoord op die vraag: in een data warehouse. Maar sinds kort zijn data lakes er als nieuwe optie bijgekomen. Om te weten welke van de twee een bedrijf nodig heeft, moeten we ze dus eerst definiëren en met elkaar vergelijken. Een kolfje naar de hand van data scientist Vincent Crochet.
Data lakes vs data warehouses
“Als je data lakes in een zin zou moeten omschrijven”, vat Crochet de koe bij de horens, “dan zijn het eenvoudigweg plekken waar je alle mogelijke data van een bedrijf of organisatie samenbrengt. De data in een data lake zijn echt nog in een ruw formaat. Ze zijn onverwerkt en ongestructureerd, en kunnen de meest uiteenlopende vormen aannemen: tekst, afbeeldingen, .csv-files,… In een data warehouse bepaal je op voorhand wat je er uit wil halen, en ga je op die basis alle data al volledig verwerken en structureren. Ze hebben allemaal dezelfde vorm en hetzelfde formaat.”
In een data lake kan je op eender welk moment eender welk soort data toevoegen, zomaar zonder doel of strategie
Liesbeth Hermans, digital marketing manager bij Fourcast, verduidelijkt met een uit het leven gegrepen metafoor: “Ik vergelijk het graag met groentesoep maken. Je kan een data warehouse nog het best vergelijken met een winkel waar groentesoep wordt verkocht. De soep is er al voor je klaargemaakt. De flessen hebben bovendien allemaal dezelfde grootte en zijn allemaal op dezelfde manier gerangschikt, zodat je er snel en makkelijk kan gaan winkelen en enkel nog je soep hoeft op te eten. Data lakes moet je daarentegen eerder zien als een enorme hoeveelheid rauwe groenten in hun natuurlijke, oorspronkelijke vorm. Je kan er groente uit kiezen om soep te maken, maar ook een slaatje of een stoofpot. Met een data lake kies jij op eender welk moment zelf de ingrediënten en wat je ermee wil bereiken. Bij een warehouse zijn de ingrediënten al op voorhand geselecteerd om één netjes afgelijnd product te maken.”
Het nut van data lakes
“Doordat je in een data lake op eender welk moment eender welk soort data kan toevoegen, heb je geen doel of strategie nodig en hoef je data dus ook niet te verwerken om ze aan je lake toe te voegen. Daardoor kan je enorme hoeveelheden data veel sneller en makkelijker bewaren. Je stopt het er voorlopig gewoon in, en later zie je wat je ermee kan doen qua analyse. Die retroactiviteit blijkt nu enorm waardevol, bijvoorbeeld bij bedrijven die met Internet of Things bezig zijn. Kijk bijvoorbeeld naar fabrieken die vol met sensoren hangen. Ze meten de druk, de temperatuur, het weer en ga zo maar door. Maar ze weten niet noodzakelijk welke informatie momenteel veel waarde heeft. Als ze al deze ruwe, uiteenlopende informatie in één datalake samenbrengen, kunnen ze artificiële intelligentie op die informatie loslaten. Die kan dan berekenen welk voordeel er kan gehaald worden als er een bepaalde waarde verandert. Bijvoorbeeld als de temperatuur hier vijf graden hoger ligt, dan zal dat ons hier veel kosten besparen.
In een data lake is het proces dus omgekeerd: eerst brengen we data samen waarvan we nog niet noodzakelijk weten hoe we het exact gaan gebruiken, dan leren we uit die data en pas daarna beslissen we precies wat met de data gaan aanvangen.”
Data Lakes in de praktijk
Nu steeds meer bedrijven het nut van data lakes inzien, komen er ook meer toepassingen bovendrijven. De meest voor de hand liggende toepassing ligt volgens Crochet in marketing. “Met data lakes bereik je makkelijker een soort van supercharged marketing, hyper-geïndividualiseerde marketing op basis van persoonlijke data die uit de meest uiteenlopende bronnen zijn samengebracht in een lake. Met krachtige technologie zoals Artificiële intelligentie en Machine Learning kan je als marketeer enorm nuttige inzichten krijgen in je data en dus je klant of toekomstige klant. Het is echt ‘connecting the dots’, de technologie legt verbanden bloot waar je vaak niet aan had gedacht toen je begon met het data lake.
Zo brengt het Amerikaanse Verizon tegenwoordig uiteenlopende data van zijn klanten samen met eigen informatie in één lake en laat daar real time analyse op los. Zo kunnen ze voorspellen wanneer een klant zal willen overstappen naar een andere provider, en bieden ze die klant dan een promotie aan om hem bij te houden.”
Een data lake hoeft niet iets enorm te zijn waar je jaren aan moet werken vooraleer je er waarde uit kan halen
Hoe snel en krachtig die analyses kunnen werken, toont Liesbeth Hermans aan met een ludiek voorbeeld uit het Amerikaanse basketbal: “March Madness is de Amerikaanse competitie waarmee de nationale kampioen van het college basketbal wordt verkozen. Tijdens een van die wedstrijden heeft men werkelijk alle gegevens die men kon vinden over die wedstrijd in de eerste helft in een data lake verzameld: hoe de wedstrijd was verlopen, wie welke actie had ondernomen en hoe, maar ook alle mogelijke gegevens uit wedstrijden uit het verleden. Tijdens de korte break heeft een Google algoritme de gegevens in de data geanalyseerd en een prognose gegeven voor de tweede helft van de wedstrijd. Die prognose was verbazingwekkend accuraat.”
Dat voorbeeld toont ook meteen aan dat een data lake project niet iets enorms hoeft te zijn waar je jaren aan moet werken vooraleer je er waarde uit kan halen. Het is toch iets wat constant in beweging is, en waar je stap voor stap verder mee kan gaan om nieuwe inzichten te verwerven en marketing actie te ondernemen. Je kan er al relatief snel mee van start gaan.
Wil jij ontdekken of een data lake haalbaar is voor jouw bedrijf, en welke voordelen zo’n meer jou kan opleveren? Download hier de Fourcast gids vol inspiratie en ga vandaag nog aan de slag!