Les données qui alimentent l’IA disparaissent rapidement
Pendant des années, les concepteurs de puissants systèmes d’intelligence artificielle (IA) ont utilisé d’énormes quantités de textes, d’images et de vidéos extraites d’Internet pour entraîner leurs modèles. Aujourd’hui, ces données se tarissent.
Au cours de l’année écoulée, bon nombre des sources Web les plus importantes utilisées pour la formation des modèles d’intelligence artificielle (IA) ont restreint l’utilisation de leurs données, selon une étude publiée par la Data Provenance Initiative, un groupe de recherche du MIT.
L’étude, qui a porté sur 14 000 domaines Web inclus dans trois ensembles de données de formation couramment utilisés, a découvert une « crise émergente du consentement », alors que les éditeurs et les plateformes en ligne prennent des mesures pour empêcher la collecte de leurs données.
Les chercheurs estiment que dans les trois ensembles de données – appelés C4, RefinedWeb et Dolma –, 5 % de toutes les données et 25 % des données provenant de sources de la plus haute qualité ont été restreintes. Ces restrictions sont mises en place par l’entremise du Robots Exclusion Protocol, une méthode vieille de plusieurs décennies permettant aux propriétaires de sites Web d’empêcher les robots automatisés d’explorer leurs pages à l’aide d’un fichier appelé robots.txt.
L’étude a également révélé que jusqu’à 45 % des données d’un ensemble, C4, avaient été restreintes par les conditions d’utilisation des sites Web.
« Nous constatons un déclin rapide du consentement à l’utilisation des données sur le Web, ce qui aura des conséquences non seulement pour les entreprises d’IA, mais aussi pour les chercheurs, les universitaires et les entités non commerciales », a déclaré l’auteur principal de l’étude dans une interview au New York Times.
Les données sont l’ingrédient principal des systèmes d’intelligence artificielle générative d’aujourd’hui, qui sont alimentés par des milliards d’exemples de textes, d’images et de vidéos. Une grande partie de ces données est extraite des sites Web publics par les chercheurs et compilée dans de vastes ensembles de données, qui peuvent être téléchargés et utilisés librement, ou complétés par des données provenant d’autres sources. Généralement, plus ces modèles intègrent des données de haute qualité, meilleurs sont leurs résultats.
Pendant des années, les développeurs d’IA ont pu collecter des données assez facilement. Mais depuis quelques années, on observe des tensions avec les propriétaires de ces données. Certains ont mis en place des verrous d’accès payant ou modifié leurs conditions pour limiter l’utilisation de leurs données à des fins d’entraînement de l’IA. Certains sites ont commencé à facturer les entreprises d’IA pour l’accès à leurs données, et quelques entreprises ont engagé des poursuites judiciaires.
Plus récemment, certaines entreprises d’IA ont conclu des accords avec des entreprises de presse, notamment The Associated Press et News Corp, propriétaire du Wall Street Journal, leur donnant un accès continu à leur contenu. Mais des restrictions généralisées sur les données peuvent constituer une menace pour les entreprises d’IA, qui ont besoin d’un approvisionnement constant en données de haute qualité pour maintenir leurs modèles à jour.
Les restrictions d’accès pourraient également causer des problèmes aux petits systèmes d’IA et aux chercheurs universitaires, qui s’appuient sur des ensembles de données publics et ne peuvent pas se permettre d’acheter des licences pour obtenir les données directement auprès de leurs propriétaires. Mais il y a une leçon à tirer pour les grandes entreprises d’IA qui traitent Internet depuis des années comme un buffet à volonté de données, sans donner beaucoup de valeur aux propriétaires de ces données en retour : si vous profitez du Web, le Web finira par vous fermer ses portes.
Pendant des années, les concepteurs de puissants systèmes d’intelligence artificielle (IA) ont utilisé d’énormes quantités de textes, d’images et de vidéos extraites d’Internet pour entraîner leurs modèles. Aujourd’hui, ces données se tarissent.
Au cours de l’année écoulée, bon nombre des sources Web les plus importantes utilisées pour la formation des modèles d’intelligence artificielle (IA) ont restreint l’utilisation de leurs données, selon une étude publiée par la Data Provenance Initiative, un groupe de recherche du MIT.
L’étude, qui a porté sur 14 000 domaines Web inclus dans trois ensembles de données de formation couramment utilisés, a découvert une « crise émergente du consentement », alors que les éditeurs et les plateformes en ligne prennent des mesures pour empêcher la collecte de leurs données.
Les chercheurs estiment que dans les trois ensembles de données – appelés C4, RefinedWeb et Dolma –, 5 % de toutes les données et 25 % des données provenant de sources de la plus haute qualité ont été restreintes. Ces restrictions sont mises en place par l’entremise du Robots Exclusion Protocol, une méthode vieille de plusieurs décennies permettant aux propriétaires de sites Web d’empêcher les robots automatisés d’explorer leurs pages à l’aide d’un fichier appelé robots.txt.
L’étude a également révélé que jusqu’à 45 % des données d’un ensemble, C4, avaient été restreintes par les conditions d’utilisation des sites Web.
« Nous constatons un déclin rapide du consentement à l’utilisation des données sur le Web, ce qui aura des conséquences non seulement pour les entreprises d’IA, mais aussi pour les chercheurs, les universitaires et les entités non commerciales », a déclaré l’auteur principal de l’étude dans une interview au New York Times.
Les données sont l’ingrédient principal des systèmes d’intelligence artificielle générative d’aujourd’hui, qui sont alimentés par des milliards d’exemples de textes, d’images et de vidéos. Une grande partie de ces données est extraite des sites Web publics par les chercheurs et compilée dans de vastes ensembles de données, qui peuvent être téléchargés et utilisés librement, ou complétés par des données provenant d’autres sources. Généralement, plus ces modèles intègrent des données de haute qualité, meilleurs sont leurs résultats.
Pendant des années, les développeurs d’IA ont pu collecter des données assez facilement. Mais depuis quelques années, on observe des tensions avec les propriétaires de ces données. Certains ont mis en place des verrous d’accès payant ou modifié leurs conditions pour limiter l’utilisation de leurs données à des fins d’entraînement de l’IA. Certains sites ont commencé à facturer les entreprises d’IA pour l’accès à leurs données, et quelques entreprises ont engagé des poursuites judiciaires.
Plus récemment, certaines entreprises d’IA ont conclu des accords avec des entreprises de presse, notamment The Associated Press et News Corp, propriétaire du Wall Street Journal, leur donnant un accès continu à leur contenu. Mais des restrictions généralisées sur les données peuvent constituer une menace pour les entreprises d’IA, qui ont besoin d’un approvisionnement constant en données de haute qualité pour maintenir leurs modèles à jour.
Les restrictions d’accès pourraient également causer des problèmes aux petits systèmes d’IA et aux chercheurs universitaires, qui s’appuient sur des ensembles de données publics et ne peuvent pas se permettre d’acheter des licences pour obtenir les données directement auprès de leurs propriétaires. Mais il y a une leçon à tirer pour les grandes entreprises d’IA qui traitent Internet depuis des années comme un buffet à volonté de données, sans donner beaucoup de valeur aux propriétaires de ces données en retour : si vous profitez du Web, le Web finira par vous fermer ses portes.