Popup-Niks-missen-2.png

OPINIE

15 april 2021

Zuivering van algoritme verhult juist vooroordelen

Subtitel

Etniciteit niet meer gebruiken als risicofactor? Het klinkt zuiver, maar kan zich volgens Ylja Remmits en hoogleraar Sander Klous als een boemerang tegen de algoritmemaker keren.

Bij het gebruik van algoritmes bestaat het risico dat er vooroordelen in sluipen. Van een aantal overheidsalgoritmes is zelfs bekend dat eigenschappen zoals afkomst expliciet worden gebruikt als risico-indicator, bijvoorbeeld in de Leefbaarometer en in het project ‘Zicht op ondermijning’. De aanhoudende kritiek hierop leidt ertoe dat er een nieuwe versie komt van beide algoritmes waarin etniciteit niet meer als factor wordt meegenomen. Dit is echter onvoldoende om te voorkomen dat bestaande vooroordelen alsnog in een algoritme belanden. Erger nog, het leidt waarschijnlijk in plaats van minder tot meer bevooroordeling in algoritmes.

Het weglaten van afkomst als indicator zal er niet voor zorgen dat vooroordelen op basis van afkomst geen invloed meer hebben op het algoritme. Het verschil is wel dat er minder duidelijk zicht op is. De Leefbaarometer wordt bijvoorbeeld voor een deel gebaseerd op een beoordeling van de leefbaarheid door bewoners. Dat afkomst van bewoners een indicator blijkt van de ervaren leefbaarheid, geeft aan dat er een relatie is tussen deze eigenschappen. Het bestaan van die relatie zou erop kunnen duiden dat vooroordelen een rol spelen.

Afkomst niet weglaten

Als dat inderdaad zo is, helpt het niet om afkomst uit het algoritme weg te laten. Een groot aantal andere gegevens hangt namelijk samen met iemands afkomst. Denk aan adres, opleiding of sociaal-economische status. Deze gegevens noemen we proxies. Omdat bij de ontwikkeling van het algoritme nog steeds gebruik wordt gemaakt van de door de bewoners ervaren leefbaarheid, zullen vooroordelen via proxies net zo hard in het algoritme terugkomen. Het is nu alleen een stuk ingewikkelder om ze aan te tonen, omdat we de expliciete informatie over afkomst missen.

De oplossing is niet het weglaten van deze indicatoren, maar juist het inzetten op de juiste manier. We kunnen deze informatie gebruiken om relaties zoals die in het bovenstaande voorbeeld te berekenen en dus inzichtelijk te maken. Dat is de eerste stap in het herkennen van mogelijke vooroordelen in de data. Daarnaast kunnen we met behulp van zogeheten eerlijkheidscriteria vaststellen of een algoritme verschillende groepen gelijk behandelt. Er zijn vele criteria waarmee dat kan. Zo kunnen we berekenen of een algoritme voor verschillende groepen gemiddeld dezelfde uitkomst geeft of dat een algoritme voor verschillende groepen even vaak een fout antwoord geeft. In het geval van de Leefbaarometer kunnen we bijvoorbeeld de uitkomsten vergelijken voor (fictieve) wijken waarin alle eigenschappen gelijk zijn, behalve de afkomst van de inwoners.

Toegang juist nodig

De inzichten die bovenstaande methodes verschaffen kun je gebruiken om algoritmes zo te bouwen of te trainen dat stigmatiserende indicatoren geen rol meer spelen in de uitkomst. Om eerlijke algoritmes te bouwen hebben datawetenschappers dus juist toegang tot deze gegevens nodig. Veel commerciële partijen hebben deze informatie niet of mogen deze vanwege privacywetgeving niet gebruiken. Een overheidspartij, die informatie over bijvoorbeeld afkomst wel heeft en mag gebruiken voor statistische analyses, zou deze ook moeten inzetten in de strijd voor eerlijkere algoritmes.

Welke indicatoren zien we als mogelijk stigmatiserend of discriminerend?

Naast technische oplossingen vraagt het bouwen van eerlijke algoritmes ook maatschappelijke en ethische afwegingen. Welke indicatoren zien we als mogelijk stigmatiserend of discriminerend? Hoe heeft beleid dat gebaseerd wordt op uitkomsten van dit algoritme gevolgen voor kwetsbare groepen? Wanneer vinden we verschillende uitkomsten tussen groepen acceptabel? Hierbij is context erg belangrijk, opleidingsniveau als indicator bijvoorbeeld kan soms stigmatiserend werken, maar kan in de context van werk en inkomen juist eerlijk zijn.

Weglaten van mogelijk discriminerende of stigmatiserende indicatoren uit algoritmes is niet de manier om tot eerlijke algoritmes te komen. Zorgvuldig gebruik van deze informatie om onbedoelde relaties en eerlijkheid te meten is dat wel.

Ylja Remmits en Sander Klous zijn beiden werkzaam bij KPMG, Klous is ook hoogleraar big data ecosystemen.

 

Reageren?

Houd je bij het onderwerp, en toon respect: commerciële uitingen, smaad, schelden en discrimineren zijn niet toegestaan. De redactie gaat niet in discussie over verwijderde reacties.

Deze vraag is om te controleren dat u een mens bent, om geautomatiseerde invoer (spam) te voorkomen.