À la suite d’une flopée de tests et d’essais, l’ingénieur Matthias Bühlmann a démontré que l’intelligence artificielle Stable Diffusion était capable de compresser des images avec bien moins d’artefacts visuels que le JPEG ou le WebP.
La semaine dernière, l’ingénieur logiciel suisse Matthias Bühlmann a découvert que le modèle de synthèse d’images populaire Stable Diffusion pouvait compresser des images bitmap existantes. Le rendu se fait avec bien moins d’artefacts visuels que JPEG ou WebP, et ce, à des taux de compression élevés.
Mieux que JPEG et WebP ?
Stable Diffusion est un modèle de synthèse d’images par l’IA qui génère généralement des images basées sur des descriptions textuelles. Comme d’autres, ce modèle d’IA a appris cette capacité en étudiant des millions d’images extraites d’Internet. Au cours du processus de formation, le modèle établit des associations statistiques entre les images et les mots associés, en créant une représentation beaucoup plus petite des informations clés sur chaque image.
Lorsque Stable Diffusion analyse et compresse les images, elles résident dans ce que les chercheurs appellent l’espace latent. Avec Stable Diffusion 1.4, chaque fichier fait environ 4 Go. Ce fichier représente en revanche des connaissances sur plus d’une centaine de millions d’images.
À lire : Midjourney : une œuvre d’art générée par l’IA remporte un concours et suscite l’indignation
Lors de l’exécution de plusieurs tests, Bühlmann a découvert qu’une nouvelle image compressée avec Stable Diffusion semblait subjectivement meilleure, à des taux de compression plus élevés que JPEG ou WebP. Dans un exemple, il montre une photo d’un lama (à l’origine 768 Ko) qui a été compressée à 5,68 Ko en utilisant JPEG, 5,71 Ko en utilisant WebP et 4,98 Ko en utilisant Stable Diffusion. Cette dernière affiche bien moins d’artefacts de compression que celles compressées dans les autres formats.
Bien que cette utilisation de Stable Diffusion ne soit pas conventionnelle (et soit plus un hack amusant qu’une solution pratique), elle pourrait potentiellement sous-entendre une future utilisation de ces modèles de synthèse d’images. Le code de Bühlmann peut être trouvé sur Google Colab. Vous trouverez aussi plus de détails techniques sur son expérience dans son article sur Towards AI.