Apple se lance dans la course à l’intelligence artificielle avec son modèle de langage multimodal open source, Ferret. Ce modèle peut comprendre et générer du texte, des images, des sons et des vidéos. Il surpasse GPT-4 d’OpenAI dans l’analyse d’images.
Apple se lance bel et bien dans la course à l’intelligence artificielle avec son modèle de langage multimodal (LLM) open source, qui porte le nom de Ferret.
Ce modèle de langage est capable de comprendre et de générer du texte, mais aussi des images, des sons et des vidéos, comme Gemini, ChatGPT ou Google Bard. Présentée en octobre par Zhe Gan, un chercheur en intelligence artificielle (IA) chez Apple, elle était restée dans l’ombre jusqu’à présent.
Ferret est le fruit d’une collaboration entre Gan et ses collègues d’Apple, ainsi que des chercheurs de l’Université Columbia. Selon Gan, Ferret est plus performant que GPT-4 d’OpenAI, le modèle de langage le plus avancé à ce jour, pour analyser et décrire de petites zones d’image, tout en produisant moins d’erreurs.
Une IA entraînée avec 8 GPU A100 de Nvidia
Pour entraîner Ferret, Apple a utilisé 8 GPU Nvidia A100, des cartes graphiques très puissantes et très coûteuses, dotées de 80 Go de mémoire vive (RAM) HBM2e. L’A100 est le GPU le plus recherché sur le marché, depuis l’essor de la technologie d’IA générative, qui permet de créer du contenu à partir de rien.
Cette technologie a été popularisée par ChatGPT d’OpenAI, un chatbot capable de dialoguer avec les humains sur n’importe quel sujet. L’A100 peut atteindre 312 TeraFLOPS, une unité de mesure de la vitesse de calcul, avec une précision de Tensor Float 32, un format de données utilisé pour les calculs en IA.
Une IA qui arrivera bientôt sur nos smartphones ?
Apple n’en est qu’au début de son aventure dans l’IA générative avec Ferret, mais son objectif est de rendre ce modèle de langage compatible avec les smartphones. On estime que GPT-4 d’OpenAI a plus de 1 billion de paramètres, c’est-à-dire de variables qui déterminent son fonctionnement. Or, les smartphones ne peuvent actuellement gérer que les LLM avec environ 10 milliards de paramètres.
Pour résoudre ce problème, les chercheurs d’Apple ont également récemment montré comment utiliser la mémoire flash intégrée du smartphone, en plus de la RAM, pour exécuter des modèles plus grands que ce qui serait normalement possible sur l’appareil. Bref, tout porte à croire, désormais, que l’iPhone 16 profitera très probablement d’un assistant survitaminé à l’IA.