Intelligence artificielle et statistiques : parfait ensemble
Selon un article de la MIT Sloan Management Review, de nombreuses entreprises développent des modèles d’IA sans base solide sur laquelle fonder leurs prévisions, ce qui entraîne méfiance et échecs. L’article explore comment les chefs d’entreprise peuvent appliquer des méthodes statistiques et bénéficier de l’avis d’experts en statistiques pour remédier au manque de confiance dans les modèles et les technologies d’IA.
Les bonnes données
L’identification des biais de l’IA est un défi majeur pour 83 % des professionnels de l’apprentissage automatique, selon une enquête menée en septembre 2023 par Aporia. Heureusement, l’échantillonnage d’enquête, une discipline des statistiques, a développé une théorie approfondie des biais potentiels dans les données, notamment les biais d’échantillonnage, les biais de non-réponse, les questions biaisées et bien d’autres. Ces considérations peuvent aider les équipes d’IA à mieux comprendre les biais et limites potentiels de leurs ensembles de données.
Les modèles d’apprentissage automatique reposent trop souvent sur des ensembles de données disponibles plutôt que sur les bonnes données, c’est-à-dire les données les plus appropriées pour résoudre le problème en question.
La randomisation
La conception expérimentale a également produit l’une des plus grandes avancées de l’histoire de la science des données : l’essai randomisé. Les essais cliniques randomisés restent la référence en matière de développement pharmaceutique, et les tests A/B régulièrement utilisés par Google, Meta et d’autres sociétés technologiques sont des essais randomisés de base.
La randomisation fournit une excellente base d’inférence, car elle empêche d’autres variables ne figurant pas dans un ensemble de données (variables cachées ou données sombres) de confondre les résultats. Cela permet de déterminer des relations causales, et pas seulement une corrélation. Comprendre les relations causales constitue sans doute la meilleure base d’inférence possible.
Les tests de modèles
Un troisième exemple consiste à utiliser des statistiques pour concevoir des tests sur des modèles d’IA déjà déployés. Prenons pour exemple un modèle de notation de crédit. L’entreprise obtient des données sur les performances des crédits qu’elle accorde, mais reste dans l’ignorance quant à ses décisions de refus. Celles-ci étaient-elles correctes? L’entreprise ne le saura peut-être jamais. Le seul remède consiste à accorder des crédits dans certains cas où l’entreprise ne le ferait normalement pas, simplement pour tester le modèle d’IA. La conception et l’évaluation des expérimentations visant à accorder des crédits dans ce type de tests relèvent du domaine des statistiques.
Le contrôle statistique des processus
Enfin, le contrôle statistique des processus (CSP) fournit des méthodes de surveillance des processus au fil du temps afin de détecter rapidement les changements de performances. Le CSP peut être appliqué à la surveillance des performances des modèles d’IA après leur déploiement, mais peu de développeurs de l’apprentissage automatique l’ont étudié. Lorsque les modèles maintiennent leurs performances au fil du temps, en particulier sur de nouvelles données, l’on dispose d’une autre base d’inférence : la précision de la prédiction est stable dans le temps.
Les statistiques peuvent également aider les équipes qui développent des modèles d’IA par l’entremise d’un jumeau statistique, analogue à un jumeau numérique de systèmes physiques. Les équipes peuvent associer un modèle d’apprentissage automatique à un modèle statistique plus traditionnel et développer les deux en même temps.
Selon un article de la MIT Sloan Management Review, de nombreuses entreprises développent des modèles d’IA sans base solide sur laquelle fonder leurs prévisions, ce qui entraîne méfiance et échecs. L’article explore comment les chefs d’entreprise peuvent appliquer des méthodes statistiques et bénéficier de l’avis d’experts en statistiques pour remédier au manque de confiance dans les modèles et les technologies d’IA.
Les bonnes données
L’identification des biais de l’IA est un défi majeur pour 83 % des professionnels de l’apprentissage automatique, selon une enquête menée en septembre 2023 par Aporia. Heureusement, l’échantillonnage d’enquête, une discipline des statistiques, a développé une théorie approfondie des biais potentiels dans les données, notamment les biais d’échantillonnage, les biais de non-réponse, les questions biaisées et bien d’autres. Ces considérations peuvent aider les équipes d’IA à mieux comprendre les biais et limites potentiels de leurs ensembles de données.
Les modèles d’apprentissage automatique reposent trop souvent sur des ensembles de données disponibles plutôt que sur les bonnes données, c’est-à-dire les données les plus appropriées pour résoudre le problème en question.
La randomisation
La conception expérimentale a également produit l’une des plus grandes avancées de l’histoire de la science des données : l’essai randomisé. Les essais cliniques randomisés restent la référence en matière de développement pharmaceutique, et les tests A/B régulièrement utilisés par Google, Meta et d’autres sociétés technologiques sont des essais randomisés de base.
La randomisation fournit une excellente base d’inférence, car elle empêche d’autres variables ne figurant pas dans un ensemble de données (variables cachées ou données sombres) de confondre les résultats. Cela permet de déterminer des relations causales, et pas seulement une corrélation. Comprendre les relations causales constitue sans doute la meilleure base d’inférence possible.
Les tests de modèles
Un troisième exemple consiste à utiliser des statistiques pour concevoir des tests sur des modèles d’IA déjà déployés. Prenons pour exemple un modèle de notation de crédit. L’entreprise obtient des données sur les performances des crédits qu’elle accorde, mais reste dans l’ignorance quant à ses décisions de refus. Celles-ci étaient-elles correctes? L’entreprise ne le saura peut-être jamais. Le seul remède consiste à accorder des crédits dans certains cas où l’entreprise ne le ferait normalement pas, simplement pour tester le modèle d’IA. La conception et l’évaluation des expérimentations visant à accorder des crédits dans ce type de tests relèvent du domaine des statistiques.
Le contrôle statistique des processus
Enfin, le contrôle statistique des processus (CSP) fournit des méthodes de surveillance des processus au fil du temps afin de détecter rapidement les changements de performances. Le CSP peut être appliqué à la surveillance des performances des modèles d’IA après leur déploiement, mais peu de développeurs de l’apprentissage automatique l’ont étudié. Lorsque les modèles maintiennent leurs performances au fil du temps, en particulier sur de nouvelles données, l’on dispose d’une autre base d’inférence : la précision de la prédiction est stable dans le temps.
Les statistiques peuvent également aider les équipes qui développent des modèles d’IA par l’entremise d’un jumeau statistique, analogue à un jumeau numérique de systèmes physiques. Les équipes peuvent associer un modèle d’apprentissage automatique à un modèle statistique plus traditionnel et développer les deux en même temps.