Les articles scientifiques sont convoités par les concepteurs de modèles d’intelligence artificielle générative
Un article de Naturecommente le fait que les concepteurs de modèles d’intelligence artificielle (IA) générative achètent à des éditeurs universitaires l’accès à des articles de recherche qui contiennent des données très convoitées en raison de leur qualité. Cette pratique soulèverait toutefois des questionnements très sérieux sur l’utilisation d’œuvres publiées et parfois protégées par le droit d’auteur. En fait, certains chercheurs auraient réagi avec consternation à de telles transactions conclues sans consultation des auteurs.
Par exemple, l’article mentionne que tout récemment, Taylor & Francis, un éditeur universitaire britannique, aurait signé un accord de 10 millions de dollars avec Microsoft. Cela permettrait à cette entreprise technologique américaine d’accéder aux données de l’éditeur pour améliorer ses systèmes d’IA. De plus, on a découvert que l’éditeur américain Wiley aurait gagné 23 millions de dollars en permettant à une entreprise anonyme de former des modèles d’IA générative avec son contenu.
L’engouement pour les articles de recherche universitaires s’expliquerait par leur longueur et la haute densité d’informations qu’ils offrent. Cela donnerait aux modèles de langage une bien meilleure capacité à raisonner sur des sujets scientifiques. La pratique d’acheter des ensembles de données de haute qualité serait d’ailleurs en pleine croissance. En fait, les experts anticipent qu’à terme, la plupart des articles de recherche seront utilisés pour former un grand modèle de langage. De surcroît, il serait impossible de supprimer un article qui a déjà été utilisé comme données de formation dans un modèle, une fois que le modèle a été conçu.
L’article note également que de nombreuses entreprises qui conçoivent des modèles d’IA générative ont gardé secrète une grande partie de leurs données de formation. De ce fait, selon les experts, il serait très difficile de prouver qu’un modèle d’IA générative a utilisé un certain article en particulier. Cependant, les chercheurs seraient en train d’explorer des moyens techniques permettant aux auteurs de détecter si leur contenu est utilisé.
Une façon de procéder est de demander au modèle une phrase inhabituelle d’un texte et de voir si le résultat correspond aux mots du texte original. Si c’est le cas, on disposerait d’une preuve solide que l’article en question fait partie de l’ensemble d’apprentissage. On note cependant que la non-correspondance ne serait pas preuve du contraire nécessairement. En effet, les concepteurs pourraient tout simplement coder le modèle de langage pour filtrer les réponses et contourner les correspondances trop évidentes avec les données d’apprentissage.
Une autre technique de vérification – connue sous le nom d’attaque par inférence d’appartenance – repose sur l’idée que les résultats d’un modèle seront plus fiables lorsque ce dernier verra quelque chose qu’il a déjà vu auparavant, soit, les données de formation. Il s’agirait en fait d’une sorte de piège où les scientifiques interrogent le modèle d’apprentissage automatique formé pour prédire si un exemple particulier était ou non contenu dans l’ensemble de données de formation du modèle.
Un article de Naturecommente le fait que les concepteurs de modèles d’intelligence artificielle (IA) générative achètent à des éditeurs universitaires l’accès à des articles de recherche qui contiennent des données très convoitées en raison de leur qualité. Cette pratique soulèverait toutefois des questionnements très sérieux sur l’utilisation d’œuvres publiées et parfois protégées par le droit d’auteur. En fait, certains chercheurs auraient réagi avec consternation à de telles transactions conclues sans consultation des auteurs.
Par exemple, l’article mentionne que tout récemment, Taylor & Francis, un éditeur universitaire britannique, aurait signé un accord de 10 millions de dollars avec Microsoft. Cela permettrait à cette entreprise technologique américaine d’accéder aux données de l’éditeur pour améliorer ses systèmes d’IA. De plus, on a découvert que l’éditeur américain Wiley aurait gagné 23 millions de dollars en permettant à une entreprise anonyme de former des modèles d’IA générative avec son contenu.
L’engouement pour les articles de recherche universitaires s’expliquerait par leur longueur et la haute densité d’informations qu’ils offrent. Cela donnerait aux modèles de langage une bien meilleure capacité à raisonner sur des sujets scientifiques. La pratique d’acheter des ensembles de données de haute qualité serait d’ailleurs en pleine croissance. En fait, les experts anticipent qu’à terme, la plupart des articles de recherche seront utilisés pour former un grand modèle de langage. De surcroît, il serait impossible de supprimer un article qui a déjà été utilisé comme données de formation dans un modèle, une fois que le modèle a été conçu.
L’article note également que de nombreuses entreprises qui conçoivent des modèles d’IA générative ont gardé secrète une grande partie de leurs données de formation. De ce fait, selon les experts, il serait très difficile de prouver qu’un modèle d’IA générative a utilisé un certain article en particulier. Cependant, les chercheurs seraient en train d’explorer des moyens techniques permettant aux auteurs de détecter si leur contenu est utilisé.
Une façon de procéder est de demander au modèle une phrase inhabituelle d’un texte et de voir si le résultat correspond aux mots du texte original. Si c’est le cas, on disposerait d’une preuve solide que l’article en question fait partie de l’ensemble d’apprentissage. On note cependant que la non-correspondance ne serait pas preuve du contraire nécessairement. En effet, les concepteurs pourraient tout simplement coder le modèle de langage pour filtrer les réponses et contourner les correspondances trop évidentes avec les données d’apprentissage.
Une autre technique de vérification – connue sous le nom d’attaque par inférence d’appartenance – repose sur l’idée que les résultats d’un modèle seront plus fiables lorsque ce dernier verra quelque chose qu’il a déjà vu auparavant, soit, les données de formation. Il s’agirait en fait d’une sorte de piège où les scientifiques interrogent le modèle d’apprentissage automatique formé pour prédire si un exemple particulier était ou non contenu dans l’ensemble de données de formation du modèle.