Les données synthétiques permettraient de résoudre les problèmes de confidentialité qui entravent l’apprentissage des systèmes intelligents
Un article de Natureexamine le potentiel des données synthétiques, qui, paraît-il, seraient même meilleures que les données réelles. En effet, si les chercheurs sont capables de faire la différence entre l'exactitude présumée et la contrefaçon, les données synthétiques pourraient contourner l'épineux enjeu de la confidentialité des données et améliorer la représentativité dans l'intelligence artificielle.
La nécessité de protéger la vie privée des individus est l'un des moteurs qui encouragent la recherche sur les données synthétiques à un moment où l'intelligence artificielle (IA) et l'apprentissage automatique investissent massivement une multiplicité de domaines tels que les soins de santé, l'art et l'analyse financière. C'est un fait connu que l'apprentissage de ces nouvelles technologies disruptives repose sur des algorithmes alimentés par des volumes énormes d'informations, dont une grande partie concerne la vie privée des individus. Il y a donc toujours le risque que le système révèle des éléments de la vie privée ou que les données soient utilisées pour discriminer certains groupes vulnérables ou, inversement, favoriser un groupe de personnes par rapport à un autre. Éventuellement, Nature signale qu'une entreprise ou un individu pourrait faire face à la concurrence d'un système intelligent ayant été alimenté avec données lui appartenant, mais qui ont été utilisées sans son autorisation.
Il y a aussi le problème moins connu de l'entretien des données, qui peut s'avérer très coûteux. Dans certains cas, Nature note qu'il pourrait simplement ne pas y avoir assez de données disponibles pour accomplir certaines tâches de façon fiable. Enfin, il y a aussi des irritants plus subtils tels qu'un ensemble de photos pour l'apprentissage d'un système où il n'y a pas assez des photos nocturnes.
Les chercheurs pensent donc que les données synthétiques seraient la réponse à ces difficultés. Il s'agit essentiellement de programmer les systèmes intelligents pour qu'ils génèrent des données suffisamment proches de la réalité, sans nécessiter de recycler des informations réelles. Grâce à cela, il serait possible, dit-on, de contourner les problèmes de confidentialité et de créer de meilleures données plus complètes qui ajouteraient des informations absentes.
Pour ce qui est de la fabrication de ces données, Nature explique que les chercheurs utilisent un algorithme d'apprentissage automatique ou un réseau de neurones qui analyse un ensemble de données réelles et apprend les relations statistiques qu'il contient. Par la suite, le système crée un nouvel ensemble de données qui contient des points de données différents de l'original, mais conserve les mêmes relations.
Au vu de ces nombreux avantages, Nature mentionne qu'un groupe de chercheurs a conçu Synthetic Data Vault, un ensemble de logiciels à source ouverte qui permet aux utilisateurs de modéliser leurs propres données synthétiques.
Un article de Natureexamine le potentiel des données synthétiques, qui, paraît-il, seraient même meilleures que les données réelles. En effet, si les chercheurs sont capables de faire la différence entre l'exactitude présumée et la contrefaçon, les données synthétiques pourraient contourner l'épineux enjeu de la confidentialité des données et améliorer la représentativité dans l'intelligence artificielle.
La nécessité de protéger la vie privée des individus est l'un des moteurs qui encouragent la recherche sur les données synthétiques à un moment où l'intelligence artificielle (IA) et l'apprentissage automatique investissent massivement une multiplicité de domaines tels que les soins de santé, l'art et l'analyse financière. C'est un fait connu que l'apprentissage de ces nouvelles technologies disruptives repose sur des algorithmes alimentés par des volumes énormes d'informations, dont une grande partie concerne la vie privée des individus. Il y a donc toujours le risque que le système révèle des éléments de la vie privée ou que les données soient utilisées pour discriminer certains groupes vulnérables ou, inversement, favoriser un groupe de personnes par rapport à un autre. Éventuellement, Nature signale qu'une entreprise ou un individu pourrait faire face à la concurrence d'un système intelligent ayant été alimenté avec données lui appartenant, mais qui ont été utilisées sans son autorisation.
Il y a aussi le problème moins connu de l'entretien des données, qui peut s'avérer très coûteux. Dans certains cas, Nature note qu'il pourrait simplement ne pas y avoir assez de données disponibles pour accomplir certaines tâches de façon fiable. Enfin, il y a aussi des irritants plus subtils tels qu'un ensemble de photos pour l'apprentissage d'un système où il n'y a pas assez des photos nocturnes.
Les chercheurs pensent donc que les données synthétiques seraient la réponse à ces difficultés. Il s'agit essentiellement de programmer les systèmes intelligents pour qu'ils génèrent des données suffisamment proches de la réalité, sans nécessiter de recycler des informations réelles. Grâce à cela, il serait possible, dit-on, de contourner les problèmes de confidentialité et de créer de meilleures données plus complètes qui ajouteraient des informations absentes.
Pour ce qui est de la fabrication de ces données, Nature explique que les chercheurs utilisent un algorithme d'apprentissage automatique ou un réseau de neurones qui analyse un ensemble de données réelles et apprend les relations statistiques qu'il contient. Par la suite, le système crée un nouvel ensemble de données qui contient des points de données différents de l'original, mais conserve les mêmes relations.
Au vu de ces nombreux avantages, Nature mentionne qu'un groupe de chercheurs a conçu Synthetic Data Vault, un ensemble de logiciels à source ouverte qui permet aux utilisateurs de modéliser leurs propres données synthétiques.