Le faible alignement des valeurs humaines avec la puissance de calcul de l’IA pourrait avoir des effets catastrophiques
Quanta magazine souligne la pertinence de concevoir des systèmes d’intelligence artificielle (IA) alignés avec les valeurs des êtres humains pour faire en sorte qu’ils puissent comprendre quelles sont les intentions qui animent les instructions des programmeurs.
Étant donné l’ambiguïté des êtres humains, les systèmes intelligents font souvent une interprétation erronée des instructions, ce qui mène à des résultats inattendus. Les chercheurs notent qu’il y aurait un risque existentiel dans cette difficulté des algorithmes à discerner ce que les programmeurs veulent vraiment qu’ils fassent.
Selon un article de Stuart Russell, le modèle traditionnel de l’IA – dans lequel les systèmes sont conçus pour optimiser un objectif fixe et connu –, bien qu’il ait connu une très grande réussite, deviendra progressivement intenable au cours des prochaines décennies. Cela s’expliquerait par la difficulté de spécifier complètement et correctement des objectifs dans les applications du monde réel. Il y aurait donc un problème d’incertitude dans le comportement des systèmes intelligents pour l’atteinte des objectifs.
À plus court terme, les spécialistes remarquent que les pertes d’emplois, les préjugés, les violations de la vie privée et la propagation de la désinformation représentent autant d’exemples des multiples risques posés par une IA non alignée avec les valeurs humaines. Cependant, les risques deviendraient bien plus sévères avec le développement imminent de ce qu’on appelle la « super intelligence artificielle ». Selon les observateurs, celle-ci dépasserait de loin les capacités cognitives de l’être humain et serait, de surcroît, capable de veiller à sa propre survie, à son autoamélioration et à l’acquisition de ressources afin d’atteindre son objectif final.
C’est pourquoi il y aurait de nombreux chercheurs qui travaillent activement sur des projets d’alignement des valeurs. Il y aurait une multiplicité de projets en cours qui portent, par exemple, sur la tentative de transmettre des principes de philosophie morale aux machines ainsi que sur la conception de modèles de langage relativement aux jugements éthiques externalisés. Malheureusement, aucun de ces projets ne semble avoir réussi à apprendre aux machines à raisonner dans des situations réelles.
Ultimement, l’obstacle se trouverait dans le comportement souvent irrationnel des êtres humains, qui serait fréquemment en contradiction avec leurs valeurs. De plus, les valeurs sont évolutives et peuvent changer au cours de la vie d’une personne et sur un horizon générationnel. Bref, les chercheurs n’arrivent pas à se mettre d’accord sur les valeurs que les machines devraient essayer d’apprendre.
Les scientifiques pensent que la voie la plus prometteuse est une technique d’apprentissage automatique connue sous le nom d’apprentissage par renforcement inverse. Dans cette approche, les systèmes intelligents ne seraient pas programmés pour maximiser un résultat, mais plutôt pour « observer » le comportement des humains afin d’en déduire leurs préférences, leurs objectifs et leurs valeurs.
Quanta magazine souligne la pertinence de concevoir des systèmes d’intelligence artificielle (IA) alignés avec les valeurs des êtres humains pour faire en sorte qu’ils puissent comprendre quelles sont les intentions qui animent les instructions des programmeurs.
Étant donné l’ambiguïté des êtres humains, les systèmes intelligents font souvent une interprétation erronée des instructions, ce qui mène à des résultats inattendus. Les chercheurs notent qu’il y aurait un risque existentiel dans cette difficulté des algorithmes à discerner ce que les programmeurs veulent vraiment qu’ils fassent.
Selon un article de Stuart Russell, le modèle traditionnel de l’IA – dans lequel les systèmes sont conçus pour optimiser un objectif fixe et connu –, bien qu’il ait connu une très grande réussite, deviendra progressivement intenable au cours des prochaines décennies. Cela s’expliquerait par la difficulté de spécifier complètement et correctement des objectifs dans les applications du monde réel. Il y aurait donc un problème d’incertitude dans le comportement des systèmes intelligents pour l’atteinte des objectifs.
À plus court terme, les spécialistes remarquent que les pertes d’emplois, les préjugés, les violations de la vie privée et la propagation de la désinformation représentent autant d’exemples des multiples risques posés par une IA non alignée avec les valeurs humaines. Cependant, les risques deviendraient bien plus sévères avec le développement imminent de ce qu’on appelle la « super intelligence artificielle ». Selon les observateurs, celle-ci dépasserait de loin les capacités cognitives de l’être humain et serait, de surcroît, capable de veiller à sa propre survie, à son autoamélioration et à l’acquisition de ressources afin d’atteindre son objectif final.
C’est pourquoi il y aurait de nombreux chercheurs qui travaillent activement sur des projets d’alignement des valeurs. Il y aurait une multiplicité de projets en cours qui portent, par exemple, sur la tentative de transmettre des principes de philosophie morale aux machines ainsi que sur la conception de modèles de langage relativement aux jugements éthiques externalisés. Malheureusement, aucun de ces projets ne semble avoir réussi à apprendre aux machines à raisonner dans des situations réelles.
Ultimement, l’obstacle se trouverait dans le comportement souvent irrationnel des êtres humains, qui serait fréquemment en contradiction avec leurs valeurs. De plus, les valeurs sont évolutives et peuvent changer au cours de la vie d’une personne et sur un horizon générationnel. Bref, les chercheurs n’arrivent pas à se mettre d’accord sur les valeurs que les machines devraient essayer d’apprendre.
Les scientifiques pensent que la voie la plus prometteuse est une technique d’apprentissage automatique connue sous le nom d’apprentissage par renforcement inverse. Dans cette approche, les systèmes intelligents ne seraient pas programmés pour maximiser un résultat, mais plutôt pour « observer » le comportement des humains afin d’en déduire leurs préférences, leurs objectifs et leurs valeurs.