L’IA comprend déjà le langage courant, alors pourquoi ne serait-elle pas capable de traiter un document en OCR mieux que n’importe quel OCR ?

Avec l’émergence des chatbot IA, vous le savez, l’Intelligence Artificielle comprend tout ce que vous dites. Même si parfois les réponses laissent songeur. Elle permet cependant de réaliser des recherches internet de façon plus précise.
Mais l’IA peut servir à bien d’autres choses. Notamment dans le domaine de la musique, de l’imagerie ou de la vidéo par exemple, mais aussi dans des domaines scientifiques comme la météo ou la compréhension du cerveau. L’IA pourra même réaliser des tâches grâce à des robots comme s’occuper des seniors.
Mistral OCR ou comment rendre vos documents modifiables
L’OCR, ou reconnaissance de caractères, est un système qui permet de récupérer un document scanné ou pris en photo et de le transformer en un document numérique bureautique complet et modifiable. C’est un outil qui existe déjà dans certaines applications qui permettent de scanner des documents.
Les progrès en matière d’IA lui permettent de comprendre de plus en plus le monde qui l’entoure. Dernièrement, des archéologues s’en sont même servi pour comprendre des écritures anciennes. Eh bien l’OCR c’est un peu pareil.
Si les archives anciennes ont besoin d’être scannées afin d’entrer dans l’ère du numérique, les rendre modifiables ou exploitables, c’est une tout autre affaire. Il faut en effet un OCR puissant pour lire les vieux manuscrits, ou numériser de nombreux documents pris en photo par exemple.
L’idée derrière Mistral OCR est de proposer un outil professionnel qui permettra de numériser de façon convenable les documents papier qui ont déjà été scannés, sous forme de photo.
D’après le communiqué de presse, “Mistral OCR est une API de reconnaissance optique de caractères qui établit une nouvelle norme en matière de compréhension des documents. Contrairement à d’autres modèles, Mistral OCR comprend chaque élément des documents (médias, textes, tableaux, équations) avec une précision et une connaissance sans précédent. Il prend des images et des PDF en entrée et extrait le contenu dans un entrelacement ordonné de textes et d’images.”
Mistral OCR serait ainsi capable de traiter tous les types de documents, y compris les diapositives et les documents PDF comportant beaucoup de médias différents au milieu du texte, ainsi que des tableaux et mises en page complexes. C’est “un modèle idéal à utiliser en combinaison avec un système RAG prenant des documents multimodaux en entrée”.
Mistral OC R est par ailleurs disponible, dans une moindre mesure, directement sur Le Chat, le chabot IA de Mistral, accessible gratuitement par tous ses utilisateurs. L’API mistral-ocr-latest quant à elle est proposée à un tarif de 1000 pages / $ (et environ le double de pages par dollar avec l’inférence par lots).
D’après Mistral, voici les six points à retenir de Mitral OCR :
- Compréhension de pointe des documents complexes
- Nativement multilingue et multimodal
- Critères de référence de premier ordre
- Le plus rapide de sa catégorie
- Doc-as-prompt, sortie structurée
- Disponible en auto-hébergement pour les organisations traitant des informations hautement sensibles ou classifiées
Pour ceux qui souhaitent en savoir plus, des exemples et benchmarks sont disponibles dans le communiqué de presse.