Des données artificielles pour contourner l’épuisement des données d’entraînement des modèles d’intelligence artificielle
Un article de Forbes analyse les possibilités offertes par les « fausses données », alors que les jeunes pousses (startups) s’inquiètent du manque éventuel de données disponibles pour entraîner les modèles d’intelligence artificielle (IA) de l’avenir.
En effet, les entreprises consomment massivement toute sorte de données pour concevoir de grands modèles de langage capables d’alimenter une IA de plus en plus puissante. Cependant, on constate que malgré cette activité incessante, les données sont limitées et s’épuisent.
L’article note que ChatGPT d’OpenAI a déjà utilisé l’ensemble de l’Internet public, soit environ 300 milliards de mots, et l’on anticipe que bientôt, il n’y aura plus de données pour poursuivre son entraînement. Bref, les concepteurs heurteront bientôt le « mur des données », probablement dès 2026, selon certains experts. Dans ce contexte, ils seraient contraints à utiliser des données artificielles.
Les données de ce type, que l’on appelle aussi des données synthétiques, sont générées par l’IA et imitent de près des informations factuelles, mais qui ne sont pas tout à fait réelles. En fait, il y aurait des jeunes pousses qui, reconnaissant une occasion d’affaires alléchante, fournissent des données artificielles de haute qualité à des entreprises pour que celles-ci puissent former leurs modèles d’IA.
Selon l’article, cette approche, que l’on appelle « l’IA qui alimente l’IA », aurait déjà été adoptée par des géants aussi connus qu’Anthropic, Meta, Microsoft et Google. Ces entreprises utilisent, en effet, des données synthétiques dans une certaine mesure pour former leurs modèles d’IA. Cependant, malgré les avantages avérés, le recours à des données synthétiques présenterait certains risques.
En effet, les données artificielles pourraient exagérer les biais d’un ensemble de données d’origine et ne pas inclure les valeurs aberrantes qui sont des exceptions rares que l’on ne voit que dans les données réelles. Cela pourrait avoir des effets sérieux, comme exacerber le phénomène de « l’IA hallucinante » qui génère des résultats erronés ou trompeurs. De même, les modèles d’IA entraînés avec de fausses données pourraient simplement ne produire aucun résultat nouveau.
L’article signale qu’une autre façon de contourner le « mur des données » est de nettoyer et d’étiqueter les données existantes afin de les rendre plus utiles aux besoins de l’IA ou pour créer davantage de nouvelles données. Pour ce faire, certaines jeunes pousses engagent des dizaines de milliers de personnes, un peu partout dans le monde, qui s’adonnent à la tâche d’identifier une variété de données – des images, des fichiers texte, des vidéos, etc. – pour y ajouter, dans une étape ultérieure, une étiquette contextuelle.
Apparemment, certaines entreprises travaillent avec des experts de haut niveau – des docteurs en physique, des scientifiques, des avocats et des ingénieurs en logiciel – pour créer des données originales et spécifiques à un domaine pour la conception de modèles qui ciblent des tâches spécialisées.
Un article de Forbes analyse les possibilités offertes par les « fausses données », alors que les jeunes pousses (startups) s’inquiètent du manque éventuel de données disponibles pour entraîner les modèles d’intelligence artificielle (IA) de l’avenir.
En effet, les entreprises consomment massivement toute sorte de données pour concevoir de grands modèles de langage capables d’alimenter une IA de plus en plus puissante. Cependant, on constate que malgré cette activité incessante, les données sont limitées et s’épuisent.
L’article note que ChatGPT d’OpenAI a déjà utilisé l’ensemble de l’Internet public, soit environ 300 milliards de mots, et l’on anticipe que bientôt, il n’y aura plus de données pour poursuivre son entraînement. Bref, les concepteurs heurteront bientôt le « mur des données », probablement dès 2026, selon certains experts. Dans ce contexte, ils seraient contraints à utiliser des données artificielles.
Les données de ce type, que l’on appelle aussi des données synthétiques, sont générées par l’IA et imitent de près des informations factuelles, mais qui ne sont pas tout à fait réelles. En fait, il y aurait des jeunes pousses qui, reconnaissant une occasion d’affaires alléchante, fournissent des données artificielles de haute qualité à des entreprises pour que celles-ci puissent former leurs modèles d’IA.
Selon l’article, cette approche, que l’on appelle « l’IA qui alimente l’IA », aurait déjà été adoptée par des géants aussi connus qu’Anthropic, Meta, Microsoft et Google. Ces entreprises utilisent, en effet, des données synthétiques dans une certaine mesure pour former leurs modèles d’IA. Cependant, malgré les avantages avérés, le recours à des données synthétiques présenterait certains risques.
En effet, les données artificielles pourraient exagérer les biais d’un ensemble de données d’origine et ne pas inclure les valeurs aberrantes qui sont des exceptions rares que l’on ne voit que dans les données réelles. Cela pourrait avoir des effets sérieux, comme exacerber le phénomène de « l’IA hallucinante » qui génère des résultats erronés ou trompeurs. De même, les modèles d’IA entraînés avec de fausses données pourraient simplement ne produire aucun résultat nouveau.
L’article signale qu’une autre façon de contourner le « mur des données » est de nettoyer et d’étiqueter les données existantes afin de les rendre plus utiles aux besoins de l’IA ou pour créer davantage de nouvelles données. Pour ce faire, certaines jeunes pousses engagent des dizaines de milliers de personnes, un peu partout dans le monde, qui s’adonnent à la tâche d’identifier une variété de données – des images, des fichiers texte, des vidéos, etc. – pour y ajouter, dans une étape ultérieure, une étiquette contextuelle.
Apparemment, certaines entreprises travaillent avec des experts de haut niveau – des docteurs en physique, des scientifiques, des avocats et des ingénieurs en logiciel – pour créer des données originales et spécifiques à un domaine pour la conception de modèles qui ciblent des tâches spécialisées.