AlphaPen
Système de reconnaissance optique de caractères
Le projet en quelques lignes
AlphaPen et le CATIE Talence ont travaillé ensemble à la mise au point d’un système intelligent capable de retranscrire automatiquement un texte manuscrit.
Ce système, basé sur des techniques avancées d’intelligence artificielle, devait répondre à un double défi : garantir une précision élevée dans la reconnaissance de l’écriture manuscrite, tout en étant suffisamment léger pour pouvoir fonctionner localement sur des appareils peu puissants comme des smartphones ou des ordinateurs portables.
L’objectif était de rendre accessible cette technologie à un large public, sans nécessiter de ressources serveur ou de connexion internet.
Résultats obtenus
- Premier modèle d’OCR manuscrit en langue française, une avancée notable dans un domaine encore peu couvert pour cette langue.
- Déploiement d’un prototype fonctionnel de la chaîne complète, combinant OCR et correction automatique du texte.
- Amélioration significative de la lisibilité et de la précision du texte final restitué par le système.
- Création d’une version allégée et déployable localement, adaptée à une utilisation sans connexion internet sur mobile ou ordinateur.
Le rôle du CATIE
- Développement d’un modèle génératif d’images manuscrites, utilisé pour enrichir les jeux de données d’entraînement et améliorer la robustesse du système de reconnaissance.
- Création et spécialisation d’un modèle OCR (reconnaissance optique de caractères), spécifiquement entraîné pour l’extraction automatique de texte manuscrit en langue française.
- Conception d’un module de post-traitement linguistique capable de corriger les erreurs détectées dans le texte extrait (fautes d’orthographe, ponctuation manquante, incohérences syntaxiques, etc.).
- Optimisation des modèles développés, en réduisant leur taille et en accélérant leur exécution, afin d’assurer une intégration fluide sur des appareils mobiles ou embarqués, sans compromettre la qualité de la transcription.