Imagen : l’IA incroyable de Google qui transforme du texte en image

Il y a une nouvelle tendance en vogue dans le domaine de l’intelligence artificielle : les générateurs de texte en image. Alimentez ces programmes avec le texte de votre choix et ils généreront des images remarquablement précises, à l’instar d’Imagen, récemment dévoilée par Google.

IMAGEN
© Google, Imagen

Si Microsoft propose une IA qui transforme vos photos en poèmes, Google vient de dévoiler Imagen, une IA qui transforme du texte en image. Elles peuvent correspondre à toute une gamme de styles, des peintures à l’huile aux rendus CGI et même aux photographies. Avant, le leader dans le domaine était DALL-E, un programme créé par le laboratoire OpenAI. Mais l’IA de Google dépasse tout ce qui avait été fait jusqu’à aujourd’hui.

À lire : Amazon installe des caméras dopées à l’IA pour surveiller ses livreurs

La transformation d’un texte en image avec une incroyable précision

La meilleure façon de comprendre l’incroyable capacité de cette IA est de jeter un œil à certaines des images qu’elle peut générer. Le programme n’est en soi pas bien complexe : vous tapez ce que vous voulez et le programme le génère en image. Google affirme qu’Imagen produit de meilleures images que DALL-E 2, sur la base d’un nouveau benchmark créé pour ce projet, nommé DrawBench.

« Nous présentons Imagen, un modèle de diffusion texte-image avec un degré de photoréalisme sans précédent et un niveau profond de compréhension du langage » précise Google. Ces rendus sont toutefois à prendre des pincettes, Google indiquant que certaines images floues ou ratées sont mises de côté. Quelques exemples d’images réussies :

« Une statue en marbre d'un Koala DJ devant une statue en marbre d'une platine. Le Koala porte de gros écouteurs en marbre. » © Google, Imagen
« Une statue en marbre d’un Koala DJ devant une statue en marbre d’une platine. Le Koala porte de gros écouteurs en marbre. » © Google, Imagen
« Une sculpture transparente d'un canard en verre. La sculpture est devant une peinture d'un paysage. » © Google, Imagen
« Une sculpture transparente d’un canard en verre. La sculpture est devant une peinture d’un paysage. » © Google, Imagen
« Un cobra géant en maïs dans une ferme » © Google
« Un cobra géant en maïs dans une ferme » © Google, Imagen
« Un geai bleu debout sur un grand panier de macarons arc-en-ciel. » © Google, Imagen
« Un geai bleu debout sur un grand panier de macarons arc-en-ciel. » © Google, Imagen

À ce jour, Google ne propose sur son site qu’une légère version de démonstration, avec seulement quelques mots utilisables. Et c’est bien normal. Comme le précise The Verge, impossible pour Google de laisser le code open source au grand public, par peur de dérapages. Google indique d’ailleurs que les risques d’abus « soulèvent des inquiétudes quant à l’ouverture responsable du code et des démos ».

L’IA récupérant tout un ensemble de data non triée provenant du Web, Google précise également que les données ont tendance à « refléter des stéréotypes sociaux, des points de vue oppressifs et des associations désobligeantes, ou autrement nuisibles, à des groupes d’identité marginalisés ». De la même manière, l’IA a « tendance à aligner les images représentant différentes professions sur les stéréotypes de genre occidentaux ». Autrement dit, elle privilégie la représentation de personnes au teint clair, ce qui pousse Google à devoir mettre en place « quelques gardes-fous supplémentaires » avant de la diffuser plus largement.

Source : Imagen