Comment faire pour que l'IA voie aussi bien que les humains

© EPFL/iStock (Vertigo3d)

© EPFL/iStock (Vertigo3d)

Une étude de l’EPFL révèle pourquoi les êtres humains excellent dans la reconnaissance des objets à partir de fragments alors que l’IA peine à le faire, soulignant le rôle crucial de l’intégration des contours dans la vision humaine.

Chaque jour, nous reconnaissons sans effort des amis dans une foule ou identifions des formes familières, même si elles sont partiellement cachées. Notre cerveau assemble des fragments pour en faire des objets entiers, remplissant les blancs pour donner un sens à un monde souvent chaotique.

Cette capacité est appelée «intégration des contours». Même les systèmes d’IA les plus intelligents ont encore du mal à effectuer cette tâche. Malgré les réalisations remarquables de l’intelligence artificielle dans la reconnaissance d’images, les IA peinent encore à généraliser à partir d’informations visuelles incomplètes ou fragmentées.

Lorsque les objets sont partiellement cachés, effacés ou fragmentés, la plupart des modèles d’IA hésitent, classent incorrectement ou abandonnent. Cela peut être un grave problème dans la vie réelle, compte tenu de notre dépendance croissante à l’IA pour des applications, telles que les voitures autonomes, les prothèses et la robotique.Anchor

L'équipe du NeuroAI Lab de l’EPFL, dirigée par Martin Schrimpf, a entrepris de comparer systématiquement la manière dont les personnes et l’IA gèrent les puzzles visuels. Ben Lonnqvist, étudiant diplômé de l’EDNE et principal auteur de l’étude, a collaboré avec le Laboratoire de psychophysique du professeur Michael Herzog pour développer une série de tests de reconnaissance dans lesquels des êtres humains et plus de 1000 réseaux neuronaux artificiels devaient identifier des objets dont les contours étaient manquants ou fragmentés. Leurs résultats montrent qu’en matière d’intégration des contours, les êtres humains surpassent systématiquement l’IA de pointe, et révèlent pourquoi.

La recherche a été présentée à la Conférence internationale sur l’apprentissage machine (ICML) de 2025.

Les humains peuvent identifier des objets à partir de données partielles, tandis que les IA ont du mal à le faire. Crédit : Ben Lönnvist (EPFL)
Les humains peuvent identifier des objets à partir de données partielles, tandis que les IA ont du mal à le faire. Crédit : Ben Lönnvist (EPFL)

Des tests de plus en plus difficiles

L’équipe a mis en place un test de reconnaissance d’objets en laboratoire avec une cinquantaine de volontaires. Les participantes et participants ont visualisé des images d’objets du quotidien, tels que des tasses, des chapeaux et des casseroles, dont les contours étaient systématiquement effacés ou décomposés en segments. Parfois, seulement 35 % des contours d’un objet restaient visibles. En parallèle, l’équipe a confié la même tâche à plus de 1000 modèles d’IA, dont certains des systèmes les plus puissants disponibles.

L’expérience a porté sur 20 conditions différentes, variant le type et la quantité d’informations visuelles. L’équipe a comparé les performances dans ces conditions, mesurant la précision et analysant la manière dont les êtres humains et les machines réagissaient à des puzzles visuels de plus en plus difficiles.

Les êtres humains se sont avérés remarquablement performants, obtenant souvent une précision de 50 % même lorsque la plus grande partie du contour d’un objet était absente. Les modèles d’IA, en revanche, avaient tendance à se perdre dans des suppositions aléatoires dans les mêmes conditions. Seuls les modèles entraînés sur des milliards d’images se sont rapprochés des performances humaines et, même alors, ils ont dû être spécifiquement adaptés aux images de l’étude.

En creusant davantage, les chercheuses et chercheurs ont découvert que les êtres humains préfèrent naturellement reconnaître des objets lorsque des parties fragmentées pointent dans la même direction, ce que l’équipe a appelé le «biais d’intégration». Les modèles d’IA entraînés pour développer un biais similaire ont obtenu de meilleurs résultats lorsqu’ils étaient confrontés à des distorsions d’image. L’entraînement des systèmes d’IA spécialement conçus pour intégrer les contours a amélioré leur précision et leur a également permis de se concentrer davantage sur la forme d’un objet que sur sa texture.

Donner aux machines un contenu plus humain

Ces résultats suggèrent que l’intégration des contours n’est pas une caractéristique innée, mais qu’elle peut être apprise de l’expérience. Pour les industries qui s’appuient sur la vision par ordinateur, comme les voitures autonomes ou l’imagerie médicale, créer une IA qui voit le monde davantage comme nous pourrait aboutir à une technologie plus sûre et plus fiable.

Les travaux montrent également que le meilleur moyen de combler cet écart n’est pas de bricoler avec des architectures d’IA, mais de donner aux machines un contenu visuel plus «humain», comprenant plusieurs images du monde réel où les objets sont souvent partiellement cachés.

Références

Ben Lönnqvist, Elsa Scialom, Abdulkadir Gokce, Zehra Merchant, Michael H. Herzog, Martin Schrimpf. Contour Integration Underlies Human-Like Vision. arXiv: 2504.05253


Auteur: Nik Papageorgiou

Source: EPFL

Ce contenu est distribué sous les termes de la licence Creative Commons CC BY-SA 4.0. Vous pouvez reprendre librement les textes, vidéos et images y figurant à condition de créditer l’auteur de l’œuvre, et de ne pas restreindre son utilisation. Pour les illustrations ne contenant pas la mention CC BY-SA, l’autorisation de l’auteur est nécessaire.