Machine learning algoritmes voorspellen levensloop niet beter dan eenvoudige vergelijkingsmodellen

Steeds snellere computers, de almaar toenemende beschikbaarheid van data en de grote toename van experts op het gebied van data science en machine learning hebben op verschillende terreinen tot successen geleid. Met zoveel data, rekenkracht en geschoolde datawetenschappers mag je veronderstellen dat het heel goed mogelijk moet zijn om levensloop te voorspellen in een duidelijk afgebakende context, zoals bijvoorbeeld het voorspellen van het gemiddelde eindcijfer (grade point average) van kinderen. In een recent onderzoek dat is verschenen in de ‘Proceedings of the National Academy of Sciences komt een groot, internationaal team van onderzoekers evenwel tot een ontnuchterende conclusie. Dr. Louis Raes, universitair docent Economie aan Tilburg University, heeft aan dit onderzoek meegewerkt.


Meer dan honderd teams van onderzoekers uit uiteenlopende disciplines, zoals sociologie, economie, ingenieurswetenschappen, computerwetenschappen en natuurkunde, wedijverden om de beste voorspellingen te doen in een nieuwe ronde van het Amerikaanse langlopende Fragile Families and Child Wellbeing-onderzoek. En zelfs de beste voorspellingen bleken slechts marginaal beter te zijn dan voorspellingen op basis van een eenvoudig model.


De onderzoeksopzet

Een kleine groep onderzoekers verbonden aan Princeton University ontwierp een in machine learning populaire onderzoeksopzet: de methode van de gemeenschappelijke opdracht (‘common taks method’). De onderzoekers maakten gebruik van het gegeven dat data uit de meest recente ronde van het hoogwaardige, longitudinale onderzoeksproject Fragile Families and Child Wellbeing al wel was verzameld, maar nog niet openbaar toegankelijk. Vervolgens rekruteerden ze een grote en diverse groep onderzoekers om met behulp van dezelfde data dezelfde zes (onbekende) resultaten te voorspellen. Het stond de deelnemende onderzoekers vrij elke benadering te gebruiken die zij geschikt achtten. Sommige gebruikten geavanceerde machine learning-algoritmes, andere baseerden zich op bevindingen in de omvangrijke wetenschappelijke literatuur die gebruikt maakt van deze data om voorspellende modellen te construeren. De onderzoekers konden hun voorspellingen uploaden en deze voorspellingen werden vervolgens geëvalueerd door de beheerders van de data.


Onnauwkeurige voorspellingen

De resultaten waren ontnuchterend. Zelfs de beste voorspellingen waren niet bijzonder nauwkeurig. Daarnaast geven de ingediende voorspellingen aanleiding tot de volgende observaties. In de eerste plaats gebruikten onderzoeksteams zeer uiteenlopende benaderingen om voorspellingen te doen, zowel wat betreft het verwerken van data als wat betreft statistische leertechnieken. Ondanks deze verschillen in aanpak zijn de voorspellingen echter relatief vergelijkbaar: het verschil tussen de meest afwijkende voorspellingen was kleiner dan het verschil tussen de beste voorspelling van elk resultaat en het daadwerkelijke resultaat. In de tweede plaats valt op dat alle teams sommige observaties weliswaar goed voorspellen, maar andere observaties juist erg slecht.

Toepassing van leeralgoritmes

Dit onderzoek dwingt sociale wetenschappers tot reflectie op de vooruitgang die ze geboekt hebben: er zijn meer dan 750 onderzoeken gepubliceerd die zijn gebaseerd op de data uit het Fragile Families and Child Wellbeing-onderzoeksproject, maar het lijkt desondanks vrijwel onmogelijk nauwkeurige voorspellingen te doen op basis van dezelfde data. In bredere zin roept dit onderzoek vragen op over het toepassen van statistische leeralgoritmes in andere contexten binnen het sociale domein. Eén vermeldenswaardige uitkomst is namelijk dat in dit onderzoek een eenvoudig vergelijkingsmodel met slechts enkele predictoren het nauwelijks slechter deed dan de beste ingediende voorspellingen en vaak zelfs beter dan veel ingediende voorspellingen. Met andere woorden, als beleidsmakers voornemens zijn voorspellende modellen in te zetten, doen zij er misschien verstandig aan te overwegen of complexe en vaak moeilijk te begrijpen modellen wel lonend zijn.


Het artikel ‘Measuring the predictability of life outcomes with a scientific mass collaboration’ is verschenen in PNAS (Proceedings of the National Academy of Sciences of the United States of America) op 30 maart 2020


Bron: Tilburg University

Redactie Medicalfacts/ Janine Budding

Ik heb mij gespecialiseerd in interactief nieuws voor zorgverleners, zodat zorgverleners elke dag weer op de hoogte zijn van het nieuws wat voor hen relevant kan zijn. Zowel lekennieuws als nieuws specifiek voor zorgverleners en voorschrijvers. Social Media, Womens Health, Patient advocacy, patient empowerment, personalized medicine & Zorg 2.0 en het sociaal domein zijn voor mij speerpunten om extra aandacht aan te besteden.

Ik studeerde fysiotherapie en Health Care bedrijfskunde. Daarnaast ben ik geregistreerd Onafhankelijk cliëntondersteuner en mantelzorgmakelaar. Ik heb veel ervaring in diverse functies in de zorg, het sociaal domein en medische-, farmaceutische industrie, nationaal en internationaal. En heb brede medische kennis van de meeste specialismen in de zorg. En van de zorgwetten waaruit de zorg wordt geregeld en gefinancierd. Ik ga jaarlijks naar de meeste toonaangevende medisch congressen in Europa en Amerika om mijn kennis up-to-date te houden en bij te blijven op de laatste ontwikkelingen en innovaties. Momenteel studeer ik toegepaste psychologie.

De berichten van mij op deze weblog vormen geen afspiegeling van strategie, beleid of richting van een werkgever noch zijn het werkzaamheden van of voor een opdrachtgever of werkgever.

Recente artikelen