ChatGPT intègre enfin la recherche multimodale. Vous allez pouvoir importer des images dans le chatbot afin que ce dernier puisse les analyser. Dans le même temps, OpenAI a annoncé l’arrivée des réponses vocales.
Entre l’arrivée de DALL-E dans ChatGPT et la mise à jour de son corpus de connaissances, OpenAI est en ébullition en ce mois de septembre. Et les nouveautés ne s’arrêtent pas là ! Ce lundi, l’entreprise a révélé l’arrivée de plusieurs options bien pratiques : la recherche multimodale et les réponses vocales.
Ces deux fonctionnalités seront déployées exclusivement chez les utilisateurs de ChatGPT Plus et Enterprise au cours des deux prochaines semaines. Les autres usagers devraient les obtenir “peu de temps après”. Voici à quoi vous attendre.
ChatGPT : intégrez des images dans vos prompts !
Evoquons pour commencer l’arrivée de la recherche multimodale. Il sera bientôt possible d’importer des images dans une conversation afin que l’IA puisse les analyser. De quoi vous permettre d’enrichir sensiblement vos échanges et d’obtenir des réponses plus précises. OpenAI donne plusieurs exemples :
- Prenez des photos de votre réfrigérateur et de votre garde-manger pour obtenir des recettes adaptées.
- Prenez une photo du problème de mathématiques de votre enfant pour obtenir des indices qui vous aideront à le résoudre.
- Prenez une photo d’un point de repère pendant votre voyage pour obtenir des informations à son sujet.
Il existe évidemment plein d’autres possibilités. Soucieux de rendre son IA générative plus interactive, OpenAI rattrape ici son retard sur la concurrence, Bing Chat intégrant déjà la recherche multimodale tout comme Google Bard.
ChatGPT : obtenez des réponses vocales !
Dans le même temps, OpenAI a annoncé l’arrivée des réponses déclamées. Alors qu’il était déjà possible de dicter vos requêtes sur l’application mobile, vous pourrez bientôt écouter l’agent conversationnel. Le modèle Whisper convertira ce que vous dites en texte. Et un nouveau modèle de synthèse vocale exprimera les réponses de ChatGPT oralement.
Pratique pour se faire raconter une histoire, comprendre les enjeux d’un sujet sans avoir à lire ou, plus globalement, pour discuter avec le chatbot le plus naturellement possible. L’agent conversationnel ChatGPT sera capable de générer “un son de type humain seulement à partir de texte et de quelques secondes d’échantillons de parole”. Il sera possible de choisir parmi l’une des cinq voix disponibles – Sky, Juniper, Cove, Ember, Breeze – créées avec la complicité de comédiens.
La puissance d’un tel modèle ouvre toutefois la porte à toutes sortes de dérives et de fraudes. “C’est pourquoi nous utilisons cette technologie pour alimenter un cas d’utilisation spécifique : le chat vocal”, précise OpenAI. A noter que Spotify exploite déjà cette technologie en vue de traduire ses podcasts dans d’autres langues en imitant la voix des animateurs.