Des scores globaux qui rassurent… à tort
Les modèles d’IA sont souvent comparés sur des scores agrégés (précision moyenne, F1, AUROC). Or, une publication MIT du 20 janvier 2026 montre que ces moyennes peuvent masquer des défaillances sévères lorsqu’un modèle est appliqué dans un nouvel environnement (autre hôpital, autre caméra, autre population). Les auteurs documentent des cas où le “meilleur modèle” en moyenne devient le pire pour une large part des données hors distribution.
Ce que montre l’étude MIT (dernière semaine)
L’équipe MIT (LIDS/EECS) présente au NeurIPS 2025 une analyse: en changeant de contexte, le modèle sélectionné pour sa meilleure performance moyenne peut devenir le plus mauvais pour 6 à 75 % des nouveaux exemples. Les chercheurs relèvent que des corrélations fallacieuses (indices non pertinents appris pendant l’entraînement) persistent même quand le score global reste élevé.
Méthode : OODSelect
Les auteurs introduisent OODSelect, une procédure qui isole des sous-ensembles “cohérents” hors distribution où la relation habituelle “meilleure en entraînement ⇒ meilleure en déploiement” se renverse (les auteurs parlent d’accuracy-on-the-inverse-line). Les résultats sont démontrés sur des jeux de données de référence (imagerie médicale, faune, classification d’objets, commentaires en texte), avec des sous-ensembles pouvant représenter une part importante du corpus (ex. : imagerie thoracique).
Exemples concrets de défaillances
-
Imagerie médicale : un modèle peut associer à tort un marquage de radiologie présent dans un hôpital à une pathologie. Transposé ailleurs, il rate la pathologie si ce marquage n’existe pas.
-
Histopathologie : certains sous-groupes (ex. hôpitaux spécifiques) inversent la hiérarchie des modèles.
-
Détection de discours de haine (texte) : les performances se dégradent fortement sur des sous-ensembles hors distribution, invisibles dans la moyenne.
Impacts concrets pour les organisations
-
Santé : exigences accrues de validation locale avant déploiement clinique ; nécessité de rapports par sous-populations (âge, appareils, sites).
-
Finance/commercial : tests par segments (pays, canaux, produits) pour réduire risque opérationnel et biais. (Inférence fondée sur les conclusions générales de l’étude ; la publication met l’accent sur la nécessité de tester chaque nouveau contexte.)
-
Gouvernance IA : traçabilité des résultats par contexte, indicateurs de robustesse hors distribution et supervision continue alignés sur un cadre de gestion du risque.
Bonnes pratiques d’évaluation (vulgarisées)
1) Dé-moyenner systématiquement
Toujours stratifier les métriques (par site, appareil, population, période). Un score global élevé ne suffit pas.
2) Tester “in situ”
Avant chaque déploiement ou transfert, exécuter des tests dans le nouvel environnement et comparer la hiérarchie des modèles sur des sous-ensembles ciblés.
3) Chercher les sous-ensembles problématiques
Employer une approche inspirée d’OODSelect pour identifier les zones où le modèle performant en moyenne devient fragile ; l’objectif est de rendre visibles les “angles morts”.
4) Surveiller en continu
Mettre en place une surveillance post-déploiement (dérive, ré-étalonnage, audits réguliers) et des journaux d’audit par segment d’usage.
Limites et incertitudes
-
La publication est récente (semaine du 20 janvier 2026) et issue d’un papier de recherche présenté à NeurIPS 2025 ; des validations indépendantes supplémentaires sont souhaitables.
-
Les chiffres cités (ex. “6–75 %”) dépendent des jeux de données et contextes étudiés ; la généralisation à d’autres domaines doit être testée au cas par cas.
Conclusion
Cette recherche du MIT souligne une idée simple mais structurante : les moyennes ne protègent pas contre les erreurs locales. Pour un usage fiable, l’évaluation doit devenir contextuelle, segmentée et reproductible, avec des tests spécifiques à chaque environnement d’application.