Automatisering en Artificiële Intelligentie worden vaak in één adem genoemd. Automatisering is dan ook een van de belangrijkste eigenschappen van AI, het maakt menselijke interventie zo goed als overbodig. Tegelijkertijd is er op de arbeidsmarkt veel vraag naar een specifiek beroep: data scientists. Maar waarom zijn deze mensen dan nog nodig als alles toch geautomatiseerd wordt?
Beroep van de toekomst
De laatste jaren zien we AI in steeds meer aspecten van ons leven opduiken. De technologie wil in alle lagen van de samenleving voor meer efficiëntie zorgen, zodat onze dagelijkse activiteiten er goed bij zouden varen: van boodschappen doen en bankieren tot de gezondheidszorg of de productieketen in de industrie. Eén eigenschap keert telkens terug: de nood aan menselijke interventie wordt tot een absoluut minimum herleid.
Toch is die interventie nog wel nodig en de arbeidsmarkt beschouwt data scientist zelfs als hét beroep van de toekomst. Er is in de bedrijfswereld bijzonder veel vraag naar dit soort profiel en het aantal beschikbare arbeidskrachten is erg beperkt. Data scientists zijn dan ook de mensen die zelflerende systemen helpen ontwikkelen en AI dus eigenlijk mogelijk maken. Maar kunnen ze hun eigen werk dan niet automatiseren?
Wat doet een data scientist?
Wanneer we over Artificiële Intelligentie spreken, denken we vaak aan robots: de ontwikkeling van robots die een elektronische kopie van onszelf zijn of een piepkleine nanobot die de werking van ons lichaam 24/7 opvolgt. Maar AI verwijst ook naar minder tastbare technologieën die banken bijvoorbeeld helpen om fraude te bestrijden of waarmee winkels hun klanten naar de juiste producten leiden.
Hoe dan ook bestaat AI uit twee belangrijke componenten: hardware die onze menselijke zintuigen tracht te imiteren, en software die de capaciteiten van ons brein simuleert. De hardware zal in veel toepassingen een klassieke server of computer zijn.
Data scientists focussen op de ontwikkeling van de softwarecomponent van AI. Voor we van AI kunnen spreken, moet de software immers nog een stapje verder gaan en de verwerkte data gebruiken om slimmer te worden. Dat proces noemen we Machine Learning. Data moeten verzameld, verwerkt en geanalyseerd worden, zodat systemen automatisch leren en voorspellingen kunnen doen. Hiervoor ontwikkelen data scientists algoritmen. Ze zijn dus de trainers van het brein van AI.
Machine Learning komt neer op het halen van inzichten en informatie uit data. Eigenlijk is de basis hiervan niet zo nieuw. Zo werd in 1996 de term KDD (Knowledge Discovery from Data or Databases) geïntroduceerd. Dat proces beschrijft al hoe we kennis uit data kunnen halen. We beginnen altijd met het kiezen van de juiste data om een bepaald probleem op te lossen. Wie bijvoorbeeld een systeem wil bouwen om fraude te detecteren, moet eerst transacties verzamelen. Vervolgens moet de data voorbereid worden alvorens er algoritmen op worden losgelaten.
Voorbereiden van data
Een belangrijk proces in het voorbereiden van data noemen we ‘featurisatie’. Dit wil zeggen dat we een betekenisvolle set van features op basis van ruwe data verzamelen en zo de kwaliteit van de data en de prestaties van het machine learning-model gaan verbeteren. Hier zijn data scientists het langst mee bezig, want de hoofdregel bij AI luidt ‘garbage in, garbage out’. Dit hele proces kan gelukkig wel geautomatiseerd worden. Bij SAS heet dit intelligente systeem een ‘Feature Machine’. Het gaat de kwaliteit van data automatisch beoordelen op basis van allerlei potentiële problemen en vervolgens een nieuwe set features vervaardigen.
Ook het toepassen van algoritmen en het trainen van modellen gebeurt al quasi automatisch. Data scientists gooien de voorbereide data in de machine, en moeten vervolgens vooral wachten tot ze de resultaten kunnen valideren. Het werk van data scientists wordt er niet gemakkelijker op gemaakt als je beseft dat er bijzonder veel algoritmen mogelijk zijn. Maar dankzij een soort superalgoritme kan een systeem met een ruime variëteit aan gecontroleerde algoritmen automatisch getraind worden om er vervolgens het best presterende model uit te pikken.
Decision science
Als zowel de voorbereiding van data als de toepassing van algoritmes flink geautomatiseerd is, komen we terug bij de vraag: waarom hebben we nog data scientists nodig? We mogen echter niet vergeten dat er naast het ontwikkelen en uitrollen van modellen nog een derde stap is. Er kan pas sprake zijn van waardecreatie wanneer dankzij data goede beslissingen worden genomen. Jim Goodnight, de oprichter van SAS, zei niet voor niets ooit het volgende: “Het zijn niet de data die een organisatie sturen, wel de beslissingen.”
Het zijn niet de data die een organisatie sturen, wel de beslissingen
Intelligente systemen zijn dus niet intelligent omdat ze data efficiënt verwerken, maar wel omdat ze de juiste beslissingen nemen. Een zelfrijdende auto moet niet alleen data kunnen analyseren, maar ook effectief zonder botsingen rondrijden. Het nanobotje moet de vitale parameters van je lichaam analyseren, maar ook waarschuwen wanneer je naar de dokter moet gaan.
Dit verlengstuk van data science noemen we ‘Decision Science’. Het verwijst naar de kunst om data science en de resultaten uit data te combineren met menselijke expertise en de gewonnen inzichten in de praktijk te benutten. Inzichten moeten ook vertaald worden naar beslissingen die eindgebruikers kunnen toepassen, bijvoorbeeld in bedrijfsprocessen. Modellen genereren immers alleen maar waarschijnlijkheden en het is lastig om deze te interpreteren als je niet over een wiskundige achtergrond in de beschikt.
Menselijke intelligentie blijft cruciaal
Dat verklaart dus ook de populariteit van data scientists. Het werk mag niet stoppen bij het bouwen van een model dat een proces automatiseert. In veel bedrijven ligt de nadruk nog te vaak op data en op de manier waarop die data verwerkt worden. Veel belangrijker is de vraag wat we met de resultaten gaan doen. Data zijn slechts een middel, maar het doel van het proces bestaat uit het nemen van goed geïnformeerde beslissingen. Zolang data dit niet ondersteunen, mogen we niet stellen dat ze waarde genereren voor bedrijven of voor toepassingen in ons dagelijkse leven.
In veel bedrijven ligt de nadruk nog te vaak op data en op de manier waarop die data verwerkt worden. Veel belangrijker is de vraag wat we met de resultaten gaan doen
Op dit moment is het potentieel van AI nog relatief beperkt en kunnen we er doorgaans maar één specifiek probleem mee aanpakken. In de toekomst hopen we dat AI situaties kan benaderen zoals wij dat als mensen zouden doen. We beschouwen AI als de kracht om onze menselijke capaciteiten uit te breiden, maar we mogen niet vergeten dat vandaag ook het omgekeerde noodzakelijk blijft: menselijke intelligentie is essentieel voor goede AI. Het is het geheime ingrediënt dat AI echt intelligent maakt. Data scientists zijn daarom de cruciale link tussen mens en AI.