Twee weken geleden deden een paar onderzoekers van de Stanford University een opzienbarende bewering. Aan de hand van honderdduizenden foto’s van een datingwebsite zeiden ze een gezichtsherkenningssysteem te hebben getraind waarmee ze konden vaststellen of iemand hetero of homo was door alleen maar naar hem te kijken. Het werk werd voor het eerst gepubliceerd door The Economist, en andere publicaties volgden al snel, met koppen als “New AI can guess whether you’re gay or straight from a photograph” en “AI Can Tell If You’re Gay From a Photo, and It’s Terrifying.”
Zoals je misschien al geraden had, is het niet zo simpel als dat. (En om duidelijk te zijn, op basis van dit werk alleen kan AI niet zeggen of iemand homo of hetero is aan de hand van een foto). Maar het onderzoek weerspiegelt de algemene vrees voor kunstmatige intelligentie: dat het nieuwe wegen opent voor bewaking en controle, en dat het bijzonder schadelijk kan zijn voor gemarginaliseerde mensen. Een van de auteurs van het artikel, Dr Michal Kosinski, zegt dat het zijn bedoeling is alarm te slaan over de gevaren van AI, en waarschuwt dat gezichtsherkenning binnenkort niet alleen iemands seksuele geaardheid zal kunnen identificeren, maar ook hun politieke opvattingen, criminaliteit, en zelfs hun IQ.
Met uitspraken als deze zijn sommigen bang dat we een oud geloof met een slechte geschiedenis nieuw leven inblazen: dat je karakter kunt afleiden uit het uiterlijk. Deze pseudowetenschap, fysionomie, was brandstof voor het wetenschappelijk racisme van de 19e en 20e eeuw, en gaf morele dekking aan enkele van de ergste impulsen van de mensheid: het demoniseren, veroordelen, en uitroeien van medemensen. Critici van Kosinski’s werk beschuldigen hem ervan de schuifmaat van de 19e eeuw te vervangen door de neurale netwerken van de 21e, terwijl de professor zelf zegt dat hij geschokt is door zijn bevindingen, en blij is dat zijn ongelijk bewezen wordt. “Het is een controversieel en verontrustend onderwerp, en het is ook verontrustend voor ons,” vertelt hij aan The Verge.
Maar is het mogelijk dat pseudowetenschap de wereld weer binnensluipt, vermomd in een nieuw jasje dankzij AI? Sommige mensen zeggen dat machines gewoon meer over ons kunnen lezen dan wijzelf, maar wat als we ze trainen om onze vooroordelen uit te voeren, en zo oude ideeën die we terecht hebben verworpen, nieuw leven inblazen? Hoe kunnen we het verschil zien?
Kan AI echt seksuele geaardheid herkennen?
Eerst moeten we kijken naar de studie die centraal staat in het recente debat, geschreven door Kosinski en zijn co-auteur Yilun Wang. De resultaten zijn slecht gerapporteerd, waarbij veel van de hype voortkomt uit onjuiste voorstellingen van de nauwkeurigheid van het systeem. Het artikel stelt: “Gegeven een enkele gezichtsopname, kon het systeem correct onderscheid maken tussen homoseksuele en heteroseksuele mannen in 81 procent van de gevallen, en in 71 procent van de gevallen voor vrouwen.” Deze percentages stijgen wanneer het systeem vijf foto’s van een individu krijgt: tot 91 procent voor mannen, en 83 procent voor vrouwen.
Op het eerste gezicht klinkt dit als “AI kan 81 procent van de tijd vertellen of een man homo of hetero is door naar zijn foto te kijken.” (Zo luidde de kop.) Maar dat is niet wat de cijfers betekenen. De AI had niet 81 procent gelijk toen hij willekeurige foto’s te zien kreeg: hij werd getest op een paar foto’s, een van een homo en een van een hetero, en vervolgens werd gevraagd welke persoon meer kans had om homo te zijn. Het raadde 81 procent van de tijd juist voor mannen en 71 procent van de tijd voor vrouwen, maar de structuur van de test betekent dat het begon met een basislijn van 50 procent – dat is wat het zou krijgen als het willekeurig zou raden. En hoewel het significant beter was dan dat, zijn de resultaten niet hetzelfde als zeggen dat het 81 procent van de tijd iemands seksuele geaardheid kan identificeren.
Zoals Philip Cohen, een socioloog aan de Universiteit van Maryland die een blogpost schreef waarin hij de paper bekritiseerde, The Verge vertelde: “Mensen zijn bang voor een situatie waarin je een privéleven hebt en je seksuele geaardheid niet bekend is, en je gaat naar een vliegveld of een sportevenement en een computer scant de menigte en identificeert of je homo of hetero bent. Maar er is niet veel bewijs dat deze technologie dat kan.”
Kosinski en Wang maken dit zelf duidelijk tegen het einde van het artikel, wanneer ze hun systeem testen aan de hand van 1.000 foto’s in plaats van twee. Ze vragen de AI om uit te zoeken wie het meest waarschijnlijk homo is in een dataset waarin 7 procent van de foto’s homo is, wat ruwweg overeenkomt met de verhouding hetero- en homoseksuele mannen in de Amerikaanse bevolking. Wanneer het systeem wordt gevraagd om de 100 personen te selecteren die het meest waarschijnlijk homo zijn, krijgt het slechts 47 van de 70 mogelijke hits. De overige 53 zijn foutief geïdentificeerd. En bij de vraag om een top 10 aan te wijzen, zijn er negen juist.
Als je een slechte speler was die dit systeem probeerde te gebruiken om homo’s te identificeren, kon je niet zeker weten of je de juiste antwoorden kreeg. Hoewel, als je het zou gebruiken voor een voldoende grote dataset, zou je de meeste antwoorden wel eens juist kunnen hebben. Is dit gevaarlijk? Als het systeem gebruikt wordt om homo’s als doelwit te gebruiken, ja, natuurlijk. Maar de rest van de studie suggereert dat het programma nog meer beperkingen heeft.
Wat kunnen computers echt zien dat mensen niet kunnen zien?
Het is ook niet duidelijk welke factoren het gezichtsherkenningssysteem gebruikt om tot een oordeel te komen. De hypothese van Kosinski en Wang is dat het vooral structurele verschillen identificeert: vrouwelijke kenmerken in de gezichten van homoseksuele mannen en mannelijke kenmerken in de gezichten van homoseksuele vrouwen. Maar het is mogelijk dat de AI in de war wordt gebracht door andere stimuli – zoals gezichtsuitdrukkingen op de foto’s.
Dit is met name relevant omdat de in het onderzoek gebruikte foto’s afkomstig waren van een dating website. Greggor Mattson, hoogleraar sociologie aan het Oberlin College, wijst er in een blogpost op dat dit betekent dat de foto’s zelf bevooroordeeld zijn, omdat ze speciaal zijn geselecteerd om iemand van een bepaalde seksuele geaardheid aan te trekken. Ze spelen bijna zeker in op onze culturele verwachtingen van hoe homo’s en hetero’s eruit zouden moeten zien, en om hun toepasbaarheid nog verder te beperken, waren alle proefpersonen blank, zonder inclusie van biseksuele of zelf geïdentificeerde trans personen. Als een hetero man de meest stereotype “mannelijke” foto van zichzelf kiest voor een datingsite, zegt dat meer over wat hij denkt dat de maatschappij van hem verlangt dan over een verband tussen de vorm van zijn kaak en zijn seksuele geaardheid.
Om er zeker van te zijn dat hun systeem alleen naar de gezichtsstructuur keek, gebruikten Kosinski en Wang software met de naam VGG-Face, dat gezichten codeert als reeksen getallen en dat wordt gebruikt voor taken als het herkennen van beroemdheden op schilderijen. Met dit programma, zo schrijven ze, kunnen ze “de rol van voorbijgaande kenmerken” zoals belichting, pose en gezichtsuitdrukking minimaliseren.
Maar onderzoeker Tom White, die werkt aan AI-gezichtssystemen, zegt dat VGG-Face eigenlijk heel goed is in het oppikken van deze elementen. White wees hierop op Twitter, en legde The Verge via e-mail uit hoe hij de software had getest en met succes had gebruikt om onderscheid te maken tussen gezichten met uitdrukkingen als “neutraal” en “gelukkig,” evenals poses en achtergrondkleur.
Sprekend met The Verge, zegt Kosinski dat hij en Wang expliciet zijn geweest dat dingen zoals gezichtshaar en make-up een factor kunnen zijn in de besluitvorming van de AI, maar hij blijft erbij dat gezichtsstructuur het belangrijkst is. “Als je kijkt naar de algemene eigenschappen van VGG-Face, heeft het de neiging om heel weinig gewicht toe te kennen aan voorbijgaande gelaatstrekken,” zegt Kosinski. “We leveren ook bewijs dat niet-transient gezichtskenmerken voorspellend lijken te zijn voor seksuele geaardheid.”
Het probleem is dat we het niet zeker weten. Kosinski en Wang hebben het programma dat ze hebben gemaakt niet vrijgegeven, noch de foto’s die ze hebben gebruikt om het te trainen. Ze hebben hun AI wel getest op andere fotobronnen, om te zien of het een factor identificeert die alle homo’s en hetero’s gemeen hebben, maar deze tests waren beperkt en ook gebaseerd op een bevooroordeelde dataset – Facebook profielfoto’s van mannen die pagina’s als “I love being Gay,” en “Gay and Fabulous.”
Doen mannen in deze groepen dienst als redelijke proxies voor alle homoseksuele mannen? Waarschijnlijk niet, en Kosinski zegt dat het mogelijk is dat zijn werk fout is. “Er zullen veel meer studies moeten worden uitgevoerd om dat te verifiëren,” zegt hij. Maar het is moeilijk te zeggen hoe men selectiebias volledig zou kunnen elimineren om een sluitende test uit te voeren. Kosinski vertelt The Verge: “Je hoeft niet te begrijpen hoe het model werkt om te testen of het correct is of niet.” Het is echter de acceptatie van de ondoorzichtigheid van algoritmen die dit soort onderzoek zo beladen maakt.
Als AI niet kan laten zien dat het werkt, kunnen we het dan vertrouwen?
AI-onderzoekers kunnen niet volledig uitleggen waarom hun machines de dingen doen die ze doen. Dit is een uitdaging die het hele vakgebied doorkruist en soms wordt aangeduid als het “zwarte doos”-probleem. Vanwege de methoden die worden gebruikt om AI te trainen, kunnen deze programma’s hun werk niet op dezelfde manier laten zien als normale software dat doet, hoewel onderzoekers eraan werken om dit te veranderen.
In de tussentijd leidt het tot allerlei soorten problemen. Een veel voorkomend probleem is dat seksistische en racistische vooroordelen van mensen in de trainingsgegevens worden opgevangen en door de AI worden gereproduceerd. In het geval van Kosinski en Wang stelt de “zwarte doos” hen in staat een bepaalde wetenschappelijke sprong in het duister te maken. Omdat ze er zeker van zijn dat hun systeem vooral gezichtsstructuren analyseert, zeggen ze dat hun onderzoek aantoont dat gezichtsstructuren seksuele geaardheid voorspellen. (“Study 1a showed that facial features extracted by a can be used to accurately identify the sexual orientation of both men and women.”)
Experts say this is a misleading claim that isn’t supported by the latest science. Er kan een gemeenschappelijke oorzaak zijn voor gezichtsvorm en seksuele geaardheid – de meest waarschijnlijke oorzaak is de balans van hormonen in de baarmoeder – maar dat betekent niet dat gezichtsvorm betrouwbaar seksuele geaardheid voorspelt, zegt Qazi Rahman, een academicus aan King’s College London die de biologie van seksuele geaardheid bestudeert. “Biologie is een beetje genuanceerder dan we het vaak toedichten,” vertelt hij aan The Verge. “Het gaat hier om de sterkte van de associatie.”
Het idee dat seksuele geaardheid primair voortkomt uit de biologie is op zichzelf al controversieel. Rahman, die gelooft dat seksuele geaardheid vooral biologisch is, prijst het werk van Kosinski en Wang. “Het is geen junk science,” zegt hij. “Het is meer wetenschap die iemand niet leuk vindt.” Maar als het gaat om het voorspellen van seksuele geaardheid, zegt hij dat er een heel pakket van “atypisch geslachtsgedrag” is dat moet worden overwogen. “
Het reduceren van de kwestie van seksuele geaardheid tot een enkele, meetbare factor in het lichaam heeft een lange en vaak roemloze geschiedenis. Zoals Matton in zijn blogpost schrijft, hebben benaderingen zich uitgestrekt van “19e-eeuwse metingen van de clitorissen van lesbiennes en de heupen van homoseksuele mannen, tot laat 20e-eeuwse beweringen dat ze ‘homo-genen’, ‘homohersenen’, ‘homo-ringvingers’, ‘lesbische oren’ en ‘homo-hoofdhaar’ hebben ontdekt.” De impact van dit werk is gemengd, maar op zijn slechtst is het een instrument van onderdrukking: het geeft mensen die seksuele minderheden willen ontmenselijken en vervolgen een “wetenschappelijk” voorwendsel.
Jenny Davis, docent sociologie aan de Australian National University, beschrijft het als een vorm van biologisch essentialisme. Dit is de overtuiging dat zaken als seksuele geaardheid geworteld zijn in het lichaam. Deze benadering, zegt ze, is tweesnijdend. Aan de ene kant “doet het iets politiek nuttigs: de schuld loskoppelen van het verlangen naar hetzelfde geslacht. Maar aan de andere kant versterkt het de gedevalueerde positie van dat soort verlangen,” door hetroseksualiteit als norm te stellen en homoseksualiteit te framen als “minder waardevol … een soort ziekte.”
En als we het onderzoek van Kosinski en Wang in deze context bezien, krijgt de door AI aangedreven gezichtsherkenning een nog duisterder aspect – namelijk, zeggen sommige critici, als onderdeel van een trend naar de terugkeer van de fysionomie, aangedreven door AI.
Jouw karakter, zo duidelijk als de neus op je gezicht
Eeuwenlang hebben mensen geloofd dat het gezicht de sleutel tot het karakter bevatte. Dit idee vindt zijn oorsprong in het oude Griekenland, maar was vooral invloedrijk in de 19e eeuw. Voorstanders van fysionomie suggereerden dat door het meten van zaken als de hoek van iemands voorhoofd of de vorm van hun neus, ze konden bepalen of een persoon eerlijk of crimineel was. Vorig jaar beweerden Chinese AI-onderzoekers dat ze hetzelfde konden doen met gezichtsherkenning.
Hun onderzoek, gepubliceerd als “Automated Inference on Criminality Using Face Images”, veroorzaakte een kleine opschudding in de AI-gemeenschap. Wetenschappers wezen op gebreken in de studie en concludeerden dat het werk menselijke vooroordelen over wat een “gemeen” of “aardig” gezicht is, reproduceerde. In een breed gedeelde repliek, getiteld “Physiognomy’s New Clothes”, schreven Google-onderzoeker Blaise Agüera y Arcas en twee co-auteurs dat we in de komende jaren “meer onderzoek moeten verwachten dat vergelijkbare … valse claims van wetenschappelijke objectiviteit heeft om menselijke vooroordelen en discriminatie ‘wit te wassen’.” (Google weigerde Agüera y Arcas beschikbaar te stellen voor commentaar op dit rapport.)
Kosinski en Wang erkennen in hun artikel duidelijk de gevaren van fysionomie, door op te merken dat de praktijk “nu universeel, en terecht, wordt verworpen als een mix van bijgeloof en racisme vermomd als wetenschap.” Maar, zo vervolgen zij, alleen omdat een onderwerp “taboe” is, wil dat nog niet zeggen dat het geen basis in waarheid heeft. Ze zeggen dat omdat mensen in staat zijn om kenmerken zoals persoonlijkheid in het gezicht van andere mensen te lezen met een “lage nauwkeurigheid”, machines in staat zouden moeten zijn om hetzelfde te doen, maar dan nauwkeuriger.
Kosinski zegt dat zijn onderzoek geen fysionomie is omdat het gebruik maakt van rigoureuze wetenschappelijke methoden, en zijn paper haalt een aantal studies aan die aantonen dat we (met wisselende nauwkeurigheid) eigenschappen over mensen kunnen afleiden door naar hen te kijken. “Ik werd opgevoed en wijsgemaakt dat het absoluut onmogelijk is dat het gezicht informatie bevat over je intieme eigenschappen, omdat fysionomie en frenologie slechts pseudowetenschappen waren,” zegt hij. “Maar het feit dat ze dingen beweerden zonder enige basis in de feiten, dat ze dingen verzonnen, betekent niet dat deze dingen niet echt zijn.” Hij is het ermee eens dat fysionomie geen wetenschap is, maar zegt dat er misschien waarheid zit in de basisconcepten die computers kunnen onthullen.
Voor Davis komt dit soort houding voort uit een wijdverbreid en verkeerd geloof in de neutraliteit en objectiviteit van AI. “Kunstmatige intelligentie is in feite niet kunstmatig,” vertelt ze aan The Verge. “Machines leren zoals mensen leren. We worden onderwezen via cultuur en absorberen de normen van de sociale structuur, en dat doet kunstmatige intelligentie ook. Dus het zal opnieuw creëren, versterken en doorgaan op de trajecten die we het hebben geleerd, die altijd bestaande culturele normen zullen weerspiegelen.”
We hebben al seksistische en racistische algoritmen gemaakt, en dit soort culturele vooroordelen en fysionomie zijn eigenlijk gewoon twee kanten van dezelfde medaille: beide vertrouwen op slecht bewijs om anderen te beoordelen. Het werk van de Chinese onderzoekers is een extreem voorbeeld, maar het is zeker niet het enige. Er is al minstens één startup actief die beweert met gezichtsherkenning terroristen en pedofielen te kunnen opsporen, en er zijn er nog veel meer die “emotionele intelligentie” analyseren en AI-gestuurd toezicht houden.
Het hoofd bieden aan wat komen gaat
Maar om terug te komen op de vragen die de alarmerende krantenkoppen over Kosinski en Wangs paper opriepen: gaat AI gebruikt worden om seksuele minderheden te vervolgen?
Dit systeem? Nee. Een ander? Misschien.
Het werk van Kosinski en Wang is niet ongeldig, maar de resultaten moeten serieus worden gekwalificeerd en verder worden getest. Zonder dat weten we van hun systeem alleen dat het met enige betrouwbaarheid het verschil kan zien tussen homo’s en hetero’s op een bepaalde datingsite. We weten niet of het een biologisch verschil heeft ontdekt dat alle homo’s en hetero’s gemeen hebben; we weten niet of het zou werken met een bredere reeks foto’s; en het werk toont niet aan dat seksuele geaardheid kan worden afgeleid met niets meer dan, laten we zeggen, een meting van de kaak. Het heeft de menselijke seksualiteit niet ontcijferd, net zomin als AI-chatbots de kunst van een goed gesprek hebben ontcijferd. (Dat beweren de auteurs ook niet.)
Het onderzoek is gepubliceerd om mensen te waarschuwen, zegt Kosinski, maar hij geeft toe dat het een “onvermijdelijke paradox” is dat je om dat te doen moet uitleggen hoe je hebt gedaan wat je hebt gedaan. Alle hulpmiddelen die in het artikel worden gebruikt, zijn voor iedereen beschikbaar om te vinden en zelf samen te stellen. Onderzoeker Jeremy Howard concludeert op de deep learning onderwijssite Fast.ai: “Het is waarschijnlijk redelijk om aan te nemen dat veel organisaties al soortgelijke projecten hebben voltooid, maar zonder ze in de academische literatuur te publiceren.”
We hebben het al gehad over startups die aan deze technologie werken, en het is niet moeilijk om regimes te vinden die dit zouden gebruiken. In landen als Iran en Saoedi-Arabië staat op homoseksualiteit nog steeds de doodstraf; in veel andere landen betekent homo zijn dat je door de staat wordt opgejaagd, gevangengezet en gemarteld. Recente berichten spreken over de opening van concentratiekampen voor homo’s in de Tsjetsjeense Republiek, dus wat als iemand daar besluit zijn eigen AI gaydar te maken en profielfoto’s van Russische sociale media te scannen?
Hier wordt duidelijk dat de nauwkeurigheid van systemen als die van Kosinski en Wang niet echt het punt is. Als mensen geloven dat AI kan worden gebruikt om seksuele voorkeur te bepalen, zullen ze het gebruiken. Met dat in gedachten is het belangrijker dan ooit dat we de beperkingen van kunstmatige intelligentie begrijpen, om te proberen gevaren te neutraliseren voordat ze mensen beginnen te beïnvloeden. Voordat we machines onze vooroordelen bijbrengen, moeten we eerst onszelf onderwijzen.