L’éthique de l’IA générative dans le domaine de la recherche bénéficierait des modèles de langage à source ouverte
Un article de Nature suggère que les scientifiques devraient avoir une attitude prudente face à la multiplication des nouveaux grands modèles de langage, qui constamment annoncent des performances de plus en plus extraordinaires.
Le hic est que ces innovations sont gérées par des entreprises qui proposent un modèle propriétaire et fermé. Cela veut dire qu'elles ne divulguent pas le modèle sous-jacent pour le soumettre à une inspection ou une vérification indépendante. Conséquemment, il est virtuellement impossible pour les chercheurs et le public de savoir quels documents ont été utilisés pour créer les susdits modèles.
Dans une perspective éthique, il serait donc préférable de concevoir des modèles de langage transparents, à source ouverte, qui ne dépendent pas des faveurs d'une entreprise et qui assurent leur reproductibilité. Cela devient plus que pertinent, apparemment, à un moment où l'on constate que les milieux scientifiques s'empressent d'intégrer des modèles propriétaires dans leurs recherches.
Cette situation, qui est vue comme problématique, pourrait mettre en péril les acquis, durement obtenus, en matière d'éthique de la recherche et de reproductibilité des résultats des études. Ce dernier élément est crucial, car il permet aux scientifiques de modifier leur produit ou de corriger et personnaliser les données de formation – c'est-à-dire, les codes – et donc la pertinence et l'exactitude des résultats, à tout moment. Nature signale que l'engagement de la communauté des scientifiques dans l'inspection de ces modèles contribue, sur le long terme, à les rendre plus robustes.
En outre, les implications éthiques associées à l'utilisation des grands modèles de langage propriétaires seraient, aux dires de Nature, troublantes pour l'éthique de la recherche. En effet, puisque ces modèles sont opaques, il n'est pas possible de savoir avec quelle sorte de matériel ils ont été formés. Par exemple, ils pourraient avoir utilisé des messages directs entre utilisateurs sur des plateformes de médias sociaux, ou des contenus rédigés par des enfants, qui ne sont pas légalement autorisés à consentir au partage de leurs données.
Il faudrait donc investir dans la conception de grands modèles de langage à source ouverte pour les rendre compétitifs face aux modèles propriétaires qui offrent, certes, plusieurs avantages aux scientifiques, comme le fait d'être très pratiques et de pouvoir être utilisés immédiatement. Il faudrait donc prévoir une évolution semblable à celle des logiciels statistiques, qui au départ étaient majoritairement propriétaires, mais qui au fil du temps ont cédé leur place aux versions à source ouverte telles que R ou Python.
L'article de Nature mentionne comme exemple la conception de BLOOM, un grand modèle de langage à source ouverte qui a été développé par la société d'intelligence artificielle Hugging Face, basée à New York, avec la collaboration de plus de 1 000 chercheurs bénévoles, un travail qui a pu compter sur le financement partiel du gouvernement français.
Un article de Nature suggère que les scientifiques devraient avoir une attitude prudente face à la multiplication des nouveaux grands modèles de langage, qui constamment annoncent des performances de plus en plus extraordinaires.
Le hic est que ces innovations sont gérées par des entreprises qui proposent un modèle propriétaire et fermé. Cela veut dire qu'elles ne divulguent pas le modèle sous-jacent pour le soumettre à une inspection ou une vérification indépendante. Conséquemment, il est virtuellement impossible pour les chercheurs et le public de savoir quels documents ont été utilisés pour créer les susdits modèles.
Dans une perspective éthique, il serait donc préférable de concevoir des modèles de langage transparents, à source ouverte, qui ne dépendent pas des faveurs d'une entreprise et qui assurent leur reproductibilité. Cela devient plus que pertinent, apparemment, à un moment où l'on constate que les milieux scientifiques s'empressent d'intégrer des modèles propriétaires dans leurs recherches.
Cette situation, qui est vue comme problématique, pourrait mettre en péril les acquis, durement obtenus, en matière d'éthique de la recherche et de reproductibilité des résultats des études. Ce dernier élément est crucial, car il permet aux scientifiques de modifier leur produit ou de corriger et personnaliser les données de formation – c'est-à-dire, les codes – et donc la pertinence et l'exactitude des résultats, à tout moment. Nature signale que l'engagement de la communauté des scientifiques dans l'inspection de ces modèles contribue, sur le long terme, à les rendre plus robustes.
En outre, les implications éthiques associées à l'utilisation des grands modèles de langage propriétaires seraient, aux dires de Nature, troublantes pour l'éthique de la recherche. En effet, puisque ces modèles sont opaques, il n'est pas possible de savoir avec quelle sorte de matériel ils ont été formés. Par exemple, ils pourraient avoir utilisé des messages directs entre utilisateurs sur des plateformes de médias sociaux, ou des contenus rédigés par des enfants, qui ne sont pas légalement autorisés à consentir au partage de leurs données.
Il faudrait donc investir dans la conception de grands modèles de langage à source ouverte pour les rendre compétitifs face aux modèles propriétaires qui offrent, certes, plusieurs avantages aux scientifiques, comme le fait d'être très pratiques et de pouvoir être utilisés immédiatement. Il faudrait donc prévoir une évolution semblable à celle des logiciels statistiques, qui au départ étaient majoritairement propriétaires, mais qui au fil du temps ont cédé leur place aux versions à source ouverte telles que R ou Python.
L'article de Nature mentionne comme exemple la conception de BLOOM, un grand modèle de langage à source ouverte qui a été développé par la société d'intelligence artificielle Hugging Face, basée à New York, avec la collaboration de plus de 1 000 chercheurs bénévoles, un travail qui a pu compter sur le financement partiel du gouvernement français.