Julien Boelaert (Université de Lille) et quatre chercheurs en sociologie du CREST (Samuel Coavoux, Etienne Ollion, Ivaylo Petev et Patrick Präg) ont récemment publié, au format preprint, l’article “Machine Bias. Generative Large Language Models Have a Worlview of Their Own“.
Ce travail est repris dans un article du Monde paru le 23 mai 2024 : “Quand l’intelligence artificielle s’immisce dans les sondages“.
Nous voulions en savoir un peu plus sur ces travaux. Samuel Coavoux a bien souhaité répondre à nos questions :
Pourquoi vous êtes vous mis à travailler sur la capacité des modèles de langage à imiter les populations ?
Il y a environ un an, dès les débuts de l’engouement pour les assistants conversationnels comme ChatGPT, nous avons vu paraître les premiers papiers évoquant la possibilité de remplacer les humains dans les enquêtes de sciences sociales. Cela semblait à la fois impressionnant et irréaliste. Mais du fait de la force de la promesse de l’IA, on pouvait s’attendre à ce que des entreprises tentent de remplacer les répondants des enquêtes de sciences sociales. Cela n’a pas manqué : on a vu paraître des entreprises vendant des “études” réalisées avec des IA génératives. Mais pour quels résultats ? On a voulu tester cela.
Quel était l’objectif de cet article ?
Notre objectif premier étant donc de voir s’il était possible d’utiliser les modèles de langage actuels pour simuler des populations. On se disait qu’il devait y avoir de forts biais lié; ne serait-ce que ceux en lien avec le fait que les données d’internet mobilisées pour entraîner ces modèles sur-représentent certaines populations. Ces modèles sont entraînés sur des corpus avant tout anglophones.
On a donc voulu, nous aussi, poser des questions à ces modèles (GPT, Llama, Mixtral, …) et on les a comparé à des personnes réelles. Mais les premiers résultats nous ont surpris : en fait, le biais est à la fois fort et difficile à prévoir. Contrairement à ce que nous pensions, les hommes américains blancs de classes moyennes ne sont pas particulièrement mieux représentés que les autres. A la place, tout se passe comme si chaque modèle de langage avait une vision très opiniâtres de ce que devait être l’opinion majoritaire, et en variait un peu. C’est ce que nous avons appelé ‘Machine bias“. Il y avait déjà des tendances dans la littérature, des gens qui avaient repéré l’étroitesse d’esprit des modèles, mais aucun n’avait systématiquement étudié cela, ni n’en avait tiré les conséquences.
Comment avez-vous mené cette recherche collectivement ?
Ce travail est le résultat d’une collaboration au sein de l’équipe de sociologie du CREST, avec un membre extérieur, Julien Boelaert. Julien a été particulièrement moteur : il est sans doute l’un des meilleurs connaisseurs des modèles de langage parmi les utilisateurs de ces outils dans les sciences sociales. L’article a aussi bénéficié des synergies dans l’équipe de sociologie entre les spécialistes des sciences sociales computationnelles et ceux des enquêtes sur la stratification sociale.
Quand l’IA s’immisce dans les sondages
Julien Boelaert (Université de Lille) et quatre chercheurs en sociologie du CREST (Samuel Coavoux, Etienne Ollion, Ivaylo Petev et Patrick Präg) ont récemment publié, au format preprint, l’article “Machine Bias. Generative Large Language Models Have a Worlview of Their Own“.
Ce travail est repris dans un article du Monde paru le 23 mai 2024 : “Quand l’intelligence artificielle s’immisce dans les sondages“.
Nous voulions en savoir un peu plus sur ces travaux. Samuel Coavoux a bien souhaité répondre à nos questions :
Pourquoi vous êtes vous mis à travailler sur la capacité des modèles de langage à imiter les populations ?
Il y a environ un an, dès les débuts de l’engouement pour les assistants conversationnels comme ChatGPT, nous avons vu paraître les premiers papiers évoquant la possibilité de remplacer les humains dans les enquêtes de sciences sociales. Cela semblait à la fois impressionnant et irréaliste. Mais du fait de la force de la promesse de l’IA, on pouvait s’attendre à ce que des entreprises tentent de remplacer les répondants des enquêtes de sciences sociales. Cela n’a pas manqué : on a vu paraître des entreprises vendant des “études” réalisées avec des IA génératives. Mais pour quels résultats ? On a voulu tester cela.
Quel était l’objectif de cet article ?
Notre objectif premier étant donc de voir s’il était possible d’utiliser les modèles de langage actuels pour simuler des populations. On se disait qu’il devait y avoir de forts biais lié; ne serait-ce que ceux en lien avec le fait que les données d’internet mobilisées pour entraîner ces modèles sur-représentent certaines populations. Ces modèles sont entraînés sur des corpus avant tout anglophones.
On a donc voulu, nous aussi, poser des questions à ces modèles (GPT, Llama, Mixtral, …) et on les a comparé à des personnes réelles. Mais les premiers résultats nous ont surpris : en fait, le biais est à la fois fort et difficile à prévoir. Contrairement à ce que nous pensions, les hommes américains blancs de classes moyennes ne sont pas particulièrement mieux représentés que les autres. A la place, tout se passe comme si chaque modèle de langage avait une vision très opiniâtres de ce que devait être l’opinion majoritaire, et en variait un peu. C’est ce que nous avons appelé ‘Machine bias“. Il y avait déjà des tendances dans la littérature, des gens qui avaient repéré l’étroitesse d’esprit des modèles, mais aucun n’avait systématiquement étudié cela, ni n’en avait tiré les conséquences.
Comment avez-vous mené cette recherche collectivement ?
Ce travail est le résultat d’une collaboration au sein de l’équipe de sociologie du CREST, avec un membre extérieur, Julien Boelaert. Julien a été particulièrement moteur : il est sans doute l’un des meilleurs connaisseurs des modèles de langage parmi les utilisateurs de ces outils dans les sciences sociales. L’article a aussi bénéficié des synergies dans l’équipe de sociologie entre les spécialistes des sciences sociales computationnelles et ceux des enquêtes sur la stratification sociale.
Samuel Coavoux interviewé à propos de ses recherches par Louise Mohammedi, pour le journal Le Monde.
Publié le 17 mai 2024
Samuel Coavoux interviewé à propos de ses recherches par Louise Mohammedi, pour le journal Le Monde.
Publié le 17 mai 2024
Franck Malherbet nommé membre du groupe d’experts sur le salaire minimum de croissance
Franck Malherbet nommé membre du groupe d’experts sur le salaire minimum de croissance
Podcast : Céline Grislain-Letrémy était l’invitée de l’émission “Les voix de l’économie” sur Radio Classique.
Céline Grislain-Letrémy, est économiste-chercheur senior à la Banque de France et chercheur affilié au Centre de Recherche en Économie et Statistique (CREST).
Émission du lundi 6 mai 2024
Podcast : Céline Grislain-Letrémy était l’invitée de l’émission “Les voix de l’économie” sur Radio Classique.
Céline Grislain-Letrémy, est économiste-chercheur senior à la Banque de France et chercheur affilié au Centre de Recherche en Économie et Statistique (CREST).
Émission du lundi 6 mai 2024
CEPR Paris Report 2: Europe’s Economic Security
Rédaction du chapitre “Identifying European Trade dependencies” de Pierre Rousseaux et Isabelle Méjean (Sciences Po).
CEPR DP19021 “Market Expansion and Business Stealing With Differentiated Products Using a Nested Logit” by Christophe Bellego and Andreea Enache
25 April 2024