Digital Society Forum Digital Society Forum
Entretien 05/03/2019

L'intelligence artificielle a des biais sexistes... mais ce n'est pas une fatalité

Image par Adrien Bernheim
De plus en plus, recherches et études pointent vers un fait troublant : les technologies d’IA contribuent à reconduire les inégalités entre les femmes et les hommes, et le plus souvent à l’insu de leurs créateurs. Comment cela arrive-t-il ? Et comment redresser le tir ?
Deux jeunes scientifiques, Flora Vincent, chercheuse en microbiologie, et Aude Bernheim , chercheuse en génétique, co-fondatrices de WAX Science , qui travaille sur les questions d’égalité femmes-hommes dans les sciences et lutte contre les stéréotypes genrés en la matière, ont écrit "L’intelligence artificielle, pas sans elles", paru dans la collection du Laboratoire de l’Egalité aux éditions Belin. Ce petit ouvrage très efficace rassemble l’état des connaissances en la matière et ouvre des pistes pour mettre l’IA au service d’une société plus égalitaire. Entretien avec les auteures.

Vous commencez par faire le constat de la sous-représentation des femmes dans les champs de l’intelligence artificielle. En 2018, on compte seulement 10% de femmes dans les cursus en informatique. Seules 20% des mathématiciens français sont des femmes. Pourtant, les femmes étaient nombreuses aux débuts de l’informatique. Comment en est-on arrivé aux taux historiquement bas actuels ?

Flora Vincent : Les femmes étaient très présentes aux débuts de l’informatique, mais comme « petites mains » peu payées. Elles étaient surtout chargées de faire des calculs longs et fastidieux à la main. On mettait en avant le fait que c’était un travail qui demandait d’être précis, minutieux et organisé.... Mais cette représentation a peu à peu disparu au moment où le marketing et la perception culturelle de la programmation a changé, au moment de l’apparition des ordinateurs personnels. Quand ils sont arrivés sur le marché dans les années 1980, les publicités sont devenues très genrées et ont orienté l’usage des ordinateurs vers les garçons. Le secteur est devenu commercialement intéressant et il a été perçu comme un domaine d’excellence. Comme dans de nombreux autres domaines, celui-ci s’est masculinisé à mesure qu’il gagnait en prestige.



Aude Bernheim : Cette présence oubliée des femmes est très significative. On entend parfois dire que la parité homme-femme arrivera d’elle-même. Mais l’histoire des femmes dans l’informatique montre que c’est faux. Je crois qu’on est aujourd’hui au plus bas de la présence des femmes dans l’informatique ! Cela montre bien que l’arrivée de la parité n’est pas un processus inéluctable.

Flora Vincent : Quant à savoir comment ça se maintient aujourd’hui, il est intéressant de regarder les travaux menés par l’université Carnegie Mellon. Carnegie voulait savoir pourquoi les femmes n’entraient pas dans les écoles d’informatique et pourquoi elles en sortaient. Ils ont enquêté auprès des étudiants et étudiantes et revu de fond en comble leur programme, le contenu des formations, la communication, le suivi et le mentoring des étudiant. Le nombre d’inscrites en licence d’informatique est passé de 9% à 42 % et le taux d’abandon après deux ans d’étude de 60% à 10%. Ce qui montre bien que la sous-représentation des filles est complètement environnementale – et réversible.

Vous avez choisi d’écrire sur la non-présence des femmes dans l’IA. Est-ce qu’il y a des enjeux particuliers, propres à l’IA ?

Flora Vincent : Oui ! En ce qui concerne la sous-représentation des femmes dans le secteur de l’intelligence artificielle, les causes, les constats, les solutions potentielles sont assez partagées avec d’autres sciences et technologies. Mais avec l’IA, il y a une différence d’échelle et d’impact. On ne parle pas d’un médicament qui sera utilisé par un petit nombre de patients, mais d’une technologie qui va inonder la terre entière. Avec l’IA, n’importe quelle inégalité sera propagée à très grande échelle, dans le temps et dans l’espace.

Aude Bernheim : La plupart des gens pensent que les technologies sont scientifiques et neutres. Nous insistons toujours pour rappeler que les technologies sont inventées et faites par des humains. Cela engendre nécessairement des biais — dans l’IA aussi. Mais il est difficile, quand on ne connaît pas ces sujets, de percevoir comment la subjectivité peut entrer dans les systèmes technologiques eux-mêmes.

Amazon obligé de retirer un logiciel d’IA d'aide au recrutement discriminant les femmes , Google translate qui propose des traductions reprenant des stéréotypes genrés dans certaines langues... Votre livre donne de nombreux exemples de « biais sexistes » survenant dans des algorithmes. Comment émergent-ils ?

Flora Vincent : La conception des intelligences artificielles et les algorithmes qui les sous-tendent suivent en général des étapes assez normées. Et à chaque étape peuvent survenir des biais. Commençons par le moment de formalisation de l’objectif de l’algorithme, qui est une suite de décisions encodées par un script.
Imaginons un proviseur qui cherche un algorithme pour savoir quel est le meilleur élève de la classe. Il va d’abord falloir formalisation la question en un modèle mathématique. Cette étape est très subjective, car on peut la formaliser de nombreuses façons différentes : le meilleur élève sera-t-il celui qui réussit le mieux l’examen final, qui a eu la meilleure moyenne sur l’année ou sur un trimestre donné ?

Aude Bernheim : Chacun de ces choix peut être affecté d’un biais genré sans qu’on n’en ait conscience. On sait aujourd’hui qu’il y a des matières à l’école où les garçons ont de moins bons résultats, en lecture par exemple. Si vous créez un algorithme qui donne de forts coefficients à la lecture, vous risquez de créer une inégalité. Or, si on n’est pas formé à reconnaître ces biais, on n’a aucune idée qu’ils existent.

Flora Vincent : Ensuite, il y a les bases de données. Une fois qu’on a écrit son algorithme, on utilise un jeu de données d’entraînement pour l’optimiser et on demande à l’algorithme de prédire des résultats sur un jeu de données qu’il n’a jamais vues. Prenons l’exemple d’un algorithme de reconnaissance faciale. S’il a été entraîné sur des bases de données largement composées de photos d’hommes blancs d’une trentaine d’années, il sera peut-être très performant pour certaines photos... mais n’arrivera pas à identifier un visage asiatique. Ou confondra des personnes noires avec des gorilles. La chercheuse Joy Buolamwini a montré comment certains logiciels de reconnaissance faciale peinaient à identifier des visages noirs.
Et tous ces biais peuvent être évités avec des bases de données diversifiées, pas uniquement composées de photos du même type.



Aude Bernheim : Une étude analysant la base de données ImageNet montrait que les Etats-Unis y étaient surreprésentés plus de 45 % des images d’ImageNet sont produites par les USA (qui ne représentent que 4% de la pop mondiale), alors que les images venues d’Inde et de Chine (37 % de la pop mondiale) contribuent 3% au corpus. Conséquence : une femme indienne en robe de mariée est étiquetée comme « performance artistique, costume ». Parce que dans ce référencement, une robe de mariée c’est une robe blanche. La façon dont les Etats-Unis sont représentés devient celle dont les algorithmes voient le monde.

Flora Vincent : Autre exemple : les recherches images qui peuvent renforcer les stéréotypes . On estime qu’aux US, environ 50 % des écrivains sont des femmes. Or si tu tapes « writer » dans Google, environ 30 % des images sont des femmes !



Aude Bernheim : Constituer ces bases de données prend beaucoup de temps et d’argent. Or dans le milieu de l’IA, il y a beaucoup de start-ups qui développent de petits algorithmes, basés sur l’utilisation de ressources communes. Si celles-ci sont biaisées, tout le reste se trouve biaisé.
En réalité, ce sont les GAFA qui se débrouillent le mieux sur ces questions, car ils ont le temps et l’argent pour s’intéresser à ces problèmes.
Dans le cas des logiciels de traduction, Google a entendu certaines des critiques faites et propose désormais, pour la traduction de certains mots, le masculin et le féminin. Même s’il ne le fait pas encore pour les textes : j’ai récemment voulu traduire ma bio anglaise vers le français. Elle commence par « I’m a scientist » et le logiciel a traduit tout le texte directement au masculin…

Il existe aussi un phénomène de « contagion des biais » : ceux-ci se propagent. Pouvez-vous expliquer comment ?

Flora Vincent : Quand un algorithme apprend dans sa base de données que les femmes gagnent en moyenne 27% de moins que les hommes et qu’il doit faire une proposition de salaire à poste égal et compétences égales, il va reproduire les biais qu’il a appris. Une étude sur les publicités ciblées de Google a ainsi montré que celles-ci proposaient aux femmes des postes moins rémunérés.
Le problème c’est qu’il y a ensuite propagation et amplification. Reprenons l’exemple de la base de données ImSitu. Dans cette base de données, il y a beaucoup plus d’images de femmes dans une cuisine que d’hommes dans une cuisine : 33% de photos de femmes en plus. L’algorithme va intégrer ça et ensuite, quand il devra identifier des images de personnes dans une cuisine, dont le sexe n’est pas reconnaissable, l’identifiera plus souvent comme une femme. Cela va encore renforcer la présence d’images annotées comme femme dans une cuisine dans la base de données.
Autre exemple : les traductions de Google se basent beaucoup sur la fréquence d’apparition d’un mot dans les bases de données d’origine. Si le mot ingénieur est beaucoup plus associé au sexe masculin qu’au féminin, ça va encore augmenter l’occurrence d’une traduction au masculin. Cela va amplifier encore le biais d’origine.

Mais ça pose une question centrale : à quoi ressemblerait un algorithme équitable dans une société elle-même biaisée ?

Aude Bernheim : Nous n’avons pas la réponse à cette question. Pour nous, c’est une question de recherche, qui doit engager des recherches d’un nouveau genre : sociologie, philosophie, informatique et maths. Mais des gens s’intéressent à ça. En janvier 2019 s’est tenue la conférence FAT : Fairness, Accountability and Transparency qui réfléchit à ces questions.



Pour nous, il y a plusieurs réponses. Dans certains cas, on pourra choisir de continuer à représenter la réalité telle qu’elle est, avec ses biais, parce que c’est ce qui apparaîtra le plus juste. Dans d’autres — et c’est une des thèses que nous développons — on pourra décider de biaiser les algorithmes, pour faire avancer la société. L’important est de connaître les limites de cette démarche et de savoir comment ça biaise. Il faut donc d’abord développer des outils pour savoir comment les algorithmes discriminent certains types de population.

Ca pose une autre question compliquée : est-ce que c’est aux développeurs de faire ces arbitrages ?

Aude Bernheim : Je ne pense pas. Ces choix devraient être faits par la personne qui demande l’algorithme. Mais les développeurs doivent aussi être formés à poser ces questions. Aujourd’hui, dans les cursus en informatique, ces questions ne sont même pas abordées !

Flora Vincent : Les développeurs ne feront pas ça d’eux-mêmes : il faut des normes, des audits et des moyens de contrôler qui a fait quoi, quelles bases de données ont été utilisées. En biologie, on fait très attention à ce qu’on fait, on a des cours d’éthique — par conviction bien sûr, mais aussi parce qu’il y a une pression et des conséquences, un comité d’éthique au CNRS et que si on fait une erreur, on est radié de la communauté, ça sort dans la presse…

Est-ce qu’on peut imaginer traduire des procédures éthiques existant dans d’autres domaines -dans le champ des algorithmes et de l’intelligence artificielle ?

Aude Bernheim : Trancher des questions éthiques compliquées, ce n’est pas la première fois que des sociétés doivent le faire. Il existe des processus pour créer des processus : il faut réunir des gens, les faire réfléchir puis avoir des institutions qui assurent leur mise en place ! Il y a déjà la Commission Nationale Informatique et Libertés ou encore le Comité Consultatif National d’Ethique.

Flora Vincent : En biologie, on a connu ça avec l’avènement du génie génétique par exemple : comment on pouvait transformer la génétique des organismes. Lors de la conférence d’Asilomar en 1975, des scientifiques se sont assis autour d’une table pour réfléchir aux impacts de la technologie qu’ils avaient entre les mains et mettre en place des garde-fous. On observe quelque chose de similaire : beaucoup d’acteurs de l’IA, des scientifiques, des techniciens, sont au premier plan pour voir qu’ils ont une bombe entre les mains. Plusieurs acteurs sont déjà en train d’y réfléchir.

Vous écrivez que l’IA peut aussi « donner de nouvelles armes pour débusquer les biais, les mesurer, les rendre visibles et les corriger »…

Flora Vincent : L’IA est un outil extraordinaire pour faire de l’investigation à grande échelle, car elle permet de récolter énormément de données en peu de temps et de faire beaucoup de statistiques. C’est une loupe surpuissante pour faire du diagnostic quantitatif, à très haut débit, sur tout un tas de données : des textes, des images, des flux... et examiner de manière quantitative les inégalités hommes-femmes dans la société.
L’exemple c’est un outil développé par la Geena Davis Fondation, avec l’aide de Google, qui permet d’analyser la présence à l’écran des femmes dans les films. En analysant les 200 films les plus rentables de 2014 et 2015, les chercheurs ont montré que les hommes étaient deux fois plus à l’écran que les femmes, et parlaient aussi deux fois plus.
(une étude publiée par INA Global , utilisant des outils d’intelligence artificielle, a montré qu’en France, les femmes parlent deux fois moins que les hommes à la télé comme à la radio, ndlr)
L’IA permet de faire des constats chiffrés, extrêmement puissants, qui coupent court à tout argument subjectif. Et ça, ça donne une toute autre force de frappe en matière d’arguments. C'est sûrement dû à notre formation, mais nous sommes des scientifiques et on aime les chiffres pour être convaincues.




Les commentaires

Pour réagir à cet article, je me connecte Je m’inscris

Soyez le premier à réagir !

S’inscrire et participer

Inscrivez vous sur le Digital Society Forum pour commenter et réagir sur les articles et être informé des événements à venir

DSF