Les données utilisées pour entrainer les modèles de langage ne sont pas exemptes de biais politiques, d’autant plus lorsqu’elles émanent de médias et de réseaux sociaux. Pour autant, ces intelligences artificielles ne sont pas toutes polarisées de la même manière.
Des chercheurs de l’université de Washington, de l’université Carnegie Mellon et de l’université Xi’an Jiaotong ont comparés 14 grands modèles de langage (LLMs), et constaté que « les modèles ChatGPT et GPT-4 d’OpenAI étaient plus libéraux [libertarians, en VO, ndlr] de gauche, tandis que le modèle LLaMA de Meta était plus autoritaire de droite », résume à gros traits la MIT Technology Review.
Leur recherche, décrite dans un article évalué par des pairs, a remporté l’un des prix du meilleur article lors de la conférence de l’Association for Computational Linguistics qui s’est tenue le mois dernier.
Les livres plus conservateurs que le web ?
Les chercheurs avaient demandé aux LLMs d’approuver ou de désapprouver 62 déclarations politiquement sensibles sur divers sujets, tels que le féminisme et la démocratie, et constaté que les modèles BERT, développés par Google, étaient plus conservateurs sur le plan social que les modèles GPT d’OpenAI, souligne la MIT Technology Review :
« Contrairement aux modèles GPT, qui prédisent le mot suivant dans une phrase, les modèles BERT prédisent les parties d’une phrase en utilisant les informations environnantes dans un texte. Leur conservatisme social pourrait s’expliquer par le fait que les anciens modèles BERT ont été formés sur des livres, qui ont tendance à être plus conservateurs, alors que les nouveaux modèles GPT ont été formés sur des textes Internet plus libéraux, supposent les chercheurs dans leur article. »
Des LLMs entrainés à être encore plus biaisés
Les chercheurs ont également découvert que les modèles d’IA évoluent au fil du temps et de leurs mises à jour. Le modèle GPT-2 d’OpenAI, par exemple, a exprimé son soutien à l’idée de « taxer les riches », alors que GPT-3, plus récent, ne l’a pas fait.
Les chercheurs ont ensuite réentraîné GPT-2 d’OpenAI et RoBERTa de Meta sur des ensembles de données constitués d’articles de médias d’information et de données de médias sociaux provenant de sources de droite et de gauche. L’équipe, qui voulait voir si les données d’entraînement influençaient les préjugés politiques, a constaté que ce processus contribuait à renforcer encore davantage les préjugés et biais des IA :
« Les modèles formés à partir de données de gauche étaient plus sensibles aux discours haineux ciblant les minorités ethniques, religieuses et sexuelles aux États-Unis, telles que les Noirs et les personnes LGBTQ+. Les modèles formés à partir de données de droite étaient plus sensibles aux discours de haine visant les hommes blancs chrétiens. »
Les modèles étaient également plus à même d’identifier les fausses informations émanant de l’autre bord politique, mais aussi moins sensibles à celles provenant de l’orientation politique dans laquelle elles avaient été entraînées.
Un modèle linguistique ne peut être exempt de préjugés
L’étude a cela dit été limitée du fait de n’avoir testé que des modèles relativement anciens et de petite taille, tels que GPT-2 et RoBERTa, explique Ruibo Liu, chercheur chez DeepMind, qui a étudié les biais politiques dans les modèles de langage de l’IA, mais n’a pas participé à l’étude.
Les universitaires n’ayant pas accès au fonctionnement interne des systèmes d’IA de pointe tels que ChatGPT et GPT-4, il est de plus impossible d’étudier jusqu’où ces derniers pourraient, eux aussi, être polarisés et biaisés de la sorte.
« Nous pensons qu’aucun modèle linguistique ne peut être totalement exempt de préjugés politiques », résume l’une des chercheuses, Chan Park, doctorante à l’université Carnegie Mellon.
Accusé par certains commentateurs de droite de refléter une vision du monde « libérale », OpenAI s’est « engagé à traiter cette question de manière rigoureuse et à faire preuve de transparence quant à nos intentions et à nos progrès » :
« Nos lignes directrices précisent explicitement que les évaluateurs ne doivent favoriser aucun groupe politique. Les préjugés qui peuvent néanmoins émerger du processus décrit ci-dessus sont des bogues, pas des fonctionnalités [bugs, not features, ndlr]. »
« Il est très difficile d’éliminer complètement les biais d’une vaste base de données », tempère Soroush Vosoughi, professeur adjoint d’informatique au Dartmouth College, qui n’a pas participé à l’étude.