Quelle est la prochaine étape pour l’IA en 2024?
Les rédacteurs de la MIT Technology Review examinent les quatre tendances à surveiller cette année en matière d’intelligence artificielle (IA) :
- Les agents conversationnels personnalisés
En 2024, les entreprises technologiques qui ont investi massivement dans l’IA générative seront sous pression pour prouver qu’elles peuvent gagner de l’argent avec leurs produits. Pour ce faire, les géants de l’IA Google et OpenAI misent gros sur la réduction d’échelle : tous deux développent des plateformes conviviales qui permettent aux utilisateurs de personnaliser de puissants modèles de langage et de créer leurs propres mini agents conversationnels qui répondent à leurs besoins particuliers, sans aucune compétence en codage. Tous deux ont lancé des outils Web qui permettent à quiconque de devenir développeur d’applications d’IA générative. - La deuxième vague de l’IA générative sera vidéo
Il est incroyable de constater à quelle vitesse le fantastique devient familier. Les premiers modèles génératifs capables de produire des images photoréalistes sont devenus familiers en 2022 et sont rapidement devenus monnaie courante. Des outils tels que DALL-E d’OpenAI, Stable Diffusion de Stability AI et Firefly d’Adobe ont inondé Internet d’images à couper le souffle.
Mais ce n’est pas que du plaisir : pour chaque carlin agitant des pompons, il y a une autre œuvre d’art fantastique contrefaite ou des stéréotypes sexuels sexistes. La nouvelle frontière est celle du passage du texte vers la vidéo. Tout ce qui était bon, mauvais ou laid dans la conversion texte-image sera décuplé. - La désinformation électorale générée par l’IA sera partout
Si l’on en croit les récentes élections, la désinformation électorale et les hypertrucages générés par l’IA vont constituer un énorme problème, alors qu’un nombre record de personnes se rendront aux urnes en 2024.
Nous voyons déjà des politiciens utiliser ces outils comme une arme. Leur prolifération est une tendance inquiétante. Il deviendra plus difficile que jamais de reconnaître ce qui est réel en ligne. Dans un climat politique déjà enflammé et polarisé, cela pourrait avoir de graves conséquences. - Des robots multitâches
Inspirés par certaines des techniques de base à l’origine de l’essor actuel de l’IA générative, les roboticiens commencent à construire des robots plus polyvalents, capables d’effectuer un plus large éventail de tâches. Ces dernières années, dans le domaine de l’IA, l’utilisation de plusieurs petits modèles, chacun formé pour effectuer des tâches différentes (identifier des images, les dessiner, les sous-titrer), a été abandonnée au profit de modèles uniques et monolithiques formés pour faire toutes ces choses et bien plus encore.
En montrant à GPT-3 d’OpenAI quelques exemples supplémentaires (appelés mises au point), les chercheurs peuvent l’entraîner à résoudre des problèmes de codage, à écrire des scénarios de films, à réussir des examens de biologie, etc. Les modèles multimodaux, comme GPT-4 et Gemini de Google DeepMind, peuvent résoudre des tâches visuelles ainsi que linguistiques.
Les rédacteurs de la MIT Technology Review examinent les quatre tendances à surveiller cette année en matière d’intelligence artificielle (IA) :
- Les agents conversationnels personnalisés
En 2024, les entreprises technologiques qui ont investi massivement dans l’IA générative seront sous pression pour prouver qu’elles peuvent gagner de l’argent avec leurs produits. Pour ce faire, les géants de l’IA Google et OpenAI misent gros sur la réduction d’échelle : tous deux développent des plateformes conviviales qui permettent aux utilisateurs de personnaliser de puissants modèles de langage et de créer leurs propres mini agents conversationnels qui répondent à leurs besoins particuliers, sans aucune compétence en codage. Tous deux ont lancé des outils Web qui permettent à quiconque de devenir développeur d’applications d’IA générative. - La deuxième vague de l’IA générative sera vidéo
Il est incroyable de constater à quelle vitesse le fantastique devient familier. Les premiers modèles génératifs capables de produire des images photoréalistes sont devenus familiers en 2022 et sont rapidement devenus monnaie courante. Des outils tels que DALL-E d’OpenAI, Stable Diffusion de Stability AI et Firefly d’Adobe ont inondé Internet d’images à couper le souffle.
Mais ce n’est pas que du plaisir : pour chaque carlin agitant des pompons, il y a une autre œuvre d’art fantastique contrefaite ou des stéréotypes sexuels sexistes. La nouvelle frontière est celle du passage du texte vers la vidéo. Tout ce qui était bon, mauvais ou laid dans la conversion texte-image sera décuplé. - La désinformation électorale générée par l’IA sera partout
Si l’on en croit les récentes élections, la désinformation électorale et les hypertrucages générés par l’IA vont constituer un énorme problème, alors qu’un nombre record de personnes se rendront aux urnes en 2024.
Nous voyons déjà des politiciens utiliser ces outils comme une arme. Leur prolifération est une tendance inquiétante. Il deviendra plus difficile que jamais de reconnaître ce qui est réel en ligne. Dans un climat politique déjà enflammé et polarisé, cela pourrait avoir de graves conséquences. - Des robots multitâches
Inspirés par certaines des techniques de base à l’origine de l’essor actuel de l’IA générative, les roboticiens commencent à construire des robots plus polyvalents, capables d’effectuer un plus large éventail de tâches. Ces dernières années, dans le domaine de l’IA, l’utilisation de plusieurs petits modèles, chacun formé pour effectuer des tâches différentes (identifier des images, les dessiner, les sous-titrer), a été abandonnée au profit de modèles uniques et monolithiques formés pour faire toutes ces choses et bien plus encore.
En montrant à GPT-3 d’OpenAI quelques exemples supplémentaires (appelés mises au point), les chercheurs peuvent l’entraîner à résoudre des problèmes de codage, à écrire des scénarios de films, à réussir des examens de biologie, etc. Les modèles multimodaux, comme GPT-4 et Gemini de Google DeepMind, peuvent résoudre des tâches visuelles ainsi que linguistiques.