Une hiérarchie cachée dans la génération d'images par l'IA

© EPFL/iStock (CentralITAlliance)

© EPFL/iStock (CentralITAlliance)

Une nouvelle recherche met en lumière la façon dont les modèles de diffusion, utilisés dans la génération d'images d'intelligence artificielle (IA), fonctionnent à travers des structures de données hiérarchiques, révélant des transitions inattendues entre les caractéristiques de haut niveau et de bas niveau au cours du processus de génération.

Les générateurs d'images d'IA ne se contentent pas de créer - ils réorganisent et reconstruisent, révélant des hiérarchies cachées dans les données qu'ils traitent.

L'IA a fait des progrès remarquables dans la production d'images réalistes, mais la façon dont ces systèmes fonctionnent sous le capot reste un mystère. Au cœur de ces progrès se trouvent les modèles de diffusion, des algorithmes capables de transformer le bruit en images complexes et de haute qualité.

La compréhension de la structure des données est cruciale pour l'apprentissage automatique, en particulier lorsqu'il s'agit de traiter des informations complexes telles que des images. Contrairement aux données aléatoires, les images du monde réel, comme les photographies ou les peintures, contiennent des couches d'informations structurées. Cette structure permet aux systèmes d'IA d'apprendre efficacement, même avec des exemples limités, en identifiant des modèles et des hiérarchies.

Les modèles de diffusion, comme ceux qui sous-tendent des outils de pointe tels que DALL-E ou Stable Diffusion, ajoutent et suppriment progressivement du bruit pour recréer des images. Les scientifiques soupçonnent depuis longtemps que ces modèles exploitent la composition hiérarchique des images, mais les mécanismes exacts n'étaient pas clairs. Comment ces systèmes équilibrent-ils les détails de bas niveau, comme la texture, et les concepts de haut niveau, comme l'identification d'un objet ?

Une équipe dirigée par Antonio Sclocchi, Alessandro Favero et Matthieu Wyart à l'EPFL s'est attaquée à cette question, en utilisant une combinaison d'expériences et d'analyses théoriques pour révéler comment les modèles de diffusion font la transition entre les différents niveaux de détail et de structure de l'image.

L'étude, axée sur les modèles de diffusion, a mis en évidence une "transition de phase" dans le processus de génération : à un certain seuil de bruit, le système passe brusquement de la préservation de concepts de haut niveau ( ), comme la classe d'image, au mélange de caractéristiques de bas niveau dans des compositions entièrement nouvelles.

Les chercheurs ont utilisé un processus appelé diffusion avant-arrière. Ils ont d'abord ajouté progressivement du bruit à des images à haute résolution, puis ont inversé le processus pour régénérer les images. En analysant des milliers d'exemples tirés de la base de données ImageNet, ils ont pu déterminer comment des caractéristiques spécifiques, telles que les yeux d'un léopard ou les rayures d'un tigre, ont été modifiées au cours de la reconstruction.

Pour aller plus loin, l'équipe a mis au point un modèle synthétique qui reflète la structure hiérarchique des images du monde réel. Ce modèle leur a permis de simuler et de prédire le comportement des systèmes d'intelligence artificielle sous différents niveaux de bruit, en utilisant des techniques mathématiques telles que la propagation de croyances sur des graphes de données arborescents.

L'étude a montré qu'à de faibles niveaux de bruit, les modèles de diffusion modifient des détails mineurs tout en conservant la classe générale de l'image. Par exemple, un léopard peut toujours ressembler à un léopard, avec seulement de légers changements dans les motifs de la fourrure. Mais au-delà d'un seuil de bruit critique, les informations de classe s'effondrent : une image peut se transformer en loup ou en papillon, tout en conservant certaines caractéristiques visuelles, telles que les couleurs ou les formes, du léopard d'origine.

Ce phénomène suggère que les modèles de diffusion traitent les données de manière hiérarchique, en travaillant par couches d'abstraction. Aux premiers stades, ils affinent les détails ; aux stades ultérieurs, ils mélangent les éléments fondamentaux pour créer quelque chose de nouveau, souvent à partir de catégories différentes.

La recherche met en évidence le potentiel des modèles de diffusion en tant qu'outils de compréhension des données hiérarchiques et compositionnelles dans le cadre de l'apprentissage automatique. Au-delà de la production de visuels captivants, ces modèles pourraient aider les chercheurs à relever des défis plus vastes en matière de représentation et d'organisation des données. Les applications vont de l'amélioration des outils de retouche d'images à l'avancement de la créativité pilotée par l'IA dans des domaines tels que l'art, le design et même la science.

Financement

Fondation Simons

Références

Antonio Sclocchi, Alessandro Favero, Matthieu Wyart. A phase transition in diffusion models reveals the hierarchical nature of data. PNAS 122 (1) e2408799121, 02 January 2025. DOI: 10.1073/pnas.2408799121


Auteur: Nik Papageorgiou

Source: Programme Doctoral en Physique

Ce contenu est distribué sous les termes de la licence Creative Commons CC BY-SA 4.0. Vous pouvez reprendre librement les textes, vidéos et images y figurant à condition de créditer l’auteur de l’œuvre, et de ne pas restreindre son utilisation. Pour les illustrations ne contenant pas la mention CC BY-SA, l’autorisation de l’auteur est nécessaire.