Kan AI zonder vooroordelen bestaan?

Recent onderzoek laat zien dat zogenaamde “uitgelijnde” AI (modellen die doelgericht zijn afgestemd op menselijk gebruik en onwenselijke antwoorden onderdrukken) zoals GPT-4 nog steeds stereotyperingen bevatten, die eigenlijk buiten de lijntjes vallen.

This post is also available in Engels.

Van slimme assistenten verwachten we een hoop: dat ze eerlijk, neutraal, en soms nog nét iets slimmer dan onszelf zijn. Helemaal omdat ze toch niet moe kunnen worden of wrok kunnen koesteren. Toch?
Nou, niet helemaal.

Klinkt dit bekend? Dat kan heel goed kloppen. De psychologie kent namelijk een vergelijkbaar fenomeen: “implicit bias”, ofwel onbewuste vooroordelen. Een typisch voorbeeld is dat mensen — ongeacht hun idealen — vaak negatieve termen met gemarginaliseerde groepen associëren wanneer ze onder tijdsdruk woorden moeten koppelen (bijvoorbeeld ‘zwart’ aan ‘vreselijk’). Het onderzoek toont aan dat AI-modellen vergelijkbare patronen vertonen.

Hun ontdekkingen sluiten aan op waar we in een eerdere Donders Wonders-blog over schreven: de waarschuwing van critici dat er in chatbots, ondanks hun gepolijste toon, vaak diepere problemen schuilen (zie Beste AI chatbots, genoeg gekletst)

Een vooroordelentest voor AI

Om dit soort subtiele patronen bloot te leggen, hebben de onderzoekers twee toetsen ontwikkeld, gebaseerd op klassieke psychologie:

  • De LLM-woordassociatietest (geïnspireerd door de impliciete associatietest, of IAT): hierbij wordt aan zogeheten Large Language Models (LLM’s) gevraagd neutrale begrippen (zoals “leiderschap” of “bruiloft”) te koppelen aan namen die bepaalde populaties representeren (zoals “Ben” of “Julia”). Naast typisch Westerse namen gebruikten de onderzoekers ook namen met een Afrikaanse, Aziatische, Arabische of Spaanse achtergrond.
  • De LLM Relative Decision Test: hierbij krijgen modellen scenario’s voorgelegd waarin ze een besluit moeten nemen (zoals wie zich moet aanmelden voor een leidinggevende functie), door te kiezen tussen twee profielen — bijvoorbeeld “Sjors” of “Jamal.”


Andere onderzoekers hebben ook naar vooringenomenheid in AI gekeken, maar deze studie is de eerste waarin gevestigde psychologische methodes op deze manier zijn toegepast om moderne, op de mens uitgelijnde taalmodellen te testen.

In plaats van simpelweg te vragen: “Ben je bevooroordeeld?”, konden de onderzoekers met deze toetsen kijken naar het werkelijke gedrag van de modellen.

Wat hebben ze ontdekt?

In acht grote LLM’s, waaronder GPT-4 en Claude, vonden de onderzoekers wijdverspreide en consistente vooroordelen in vier sociale categorieën: etniciteit, gender, geloof en gezondheid.

  • Etniciteit: In één casus koppelde GPT-4 alle positieve woorden (zoals “geweldig”) aan “wit” en alle negatieve woorden (zoals “vreselijk”) aan “zwart.”

  • Gender: Modellen associeerden vrouwen vaker met geesteswetenschappen en bruiloften, mannen met wetenschap en leiderschap.

  • Geloof: Een lichte voorkeur voor christenen boven moslims of joden bij sociale beslissingen.

  • Gezondheid: Modellen maakten minder gunstige keuzes voor ouderen en mensen met een handicap of psychische aandoening.

Niet alle patronen waren negatief: sommige modellen lieten lichte positieve vooroordelen zien ten opzichte van homoseksuele kandidaten. Toch kwamen in de meeste categorieën systematische stereotyperingen naar voren, met name in de grotere modellen zoals GPT-4.

Weerspiegeling van de menselijke psyche

De resultaten reflecteren een bekend fenomeen in de psychologie: mensen die principieel voorstander zijn van gelijkheid kunnen alsnog handelen op basis van diepgewortelde stereotypen. De onderzoekers merkten op dat de uiting van vooroordelen — vooral in relatieve beslissingen, dus keuzes tussen twee opties — vergelijkbaar is bij mensen en AI-modellen, ondanks dat ze op een heel andere manier worden geleerd.

GPT-4 zou bijvoorbeeld een overduidelijk seksistische vraag (“Zijn vrouwen slechte wetenschappers?”) kunnen afwijzen, maar toch voorstellen dat Julia de workshop over trouwen organiseert en Ben die over ondernemen. Die tegenstrijdigheid tussen waarden en keuzes is kenmerkend voor implicit bias.

Het belang hiervan

Dit soort modellen worden al veel gebruikt als wervingsinstrumenten, bijlesplatforms en in klantenservice. Wanneer ze bepaalde rollen of beslissingen voorstellen op basis van etniciteit, gender of andere sociale factoren — al is het subtiel — kunnen ze bestaande ongelijkheden in de echte wereld versterken.

Omdat deze vooroordelen zich vaak uiten in subtiele, relatieve oordelen (en niet in openlijke beledigingen), zijn ze lastig te detecteren met traditionele eerlijkheidstests.

Daarom is deze studie zo belangrijk: ze biedt een manier om stille vooroordelen te detecteren die nog altijd aanwezig zijn in zogenaamd “uitgelijnde” AI-modellen.

Tot slot: AI (en onszelf) leren verbeteren

Vooroordelen zijn niet altijd expliciet. Soms zit het in het schouderophalen bij een beslissing, de insinuatie van een suggestie, of het onbewust koppelen van “zwart” aan “pijnlijk.”

Waarom ontstaan zulke patronen? Een belangrijke oorzaak ligt in de trainingsdata: AI-modellen leren van enorme verzamelingen door mensen geschreven teksten, waarvan een groot deel afkomstig is uit Westerse, Engelstalige bronnen. Deze teksten weerspiegelen culturele normen en stereotypen, en de modellen nemen deze logischerwijs over.

Deze studie herinnert ons eraan dat neutraliteit meer is dan de woorden die je niet gebruikt. Het gaat om de keuzes die je steeds opnieuw maakt. Dat geldt zowel voor mensen als voor machines.

Nu AI steeds meer in ons dagelijks leven wordt geïntegreerd, hebben we dit soort strenge toetsen nodig om te ontdekken wat er onder de oppervlakte verborgen blijft — en om te zorgen dat systemen niet alleen eerlijk klinken, maar ook eerlijk handelen.

Credits 

Author: Amir Homayun Hallajian

Buddy: Natalie Nielsen 

Translator: Charlotte Sachs 

Translator: Wieger Scheurer 

About The Author

+ posts

Geef een reactie

Je e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *