Raccourci vers le contenu principal de la page

Tesseract OCR

Dans :  Pour les élèves › Pour les élèves › 
Novembre 2012

C'est un logiciel de reconnaissance de caractères :

- scanner un texte papier

- traiter l'image si besoin

- utiliser Tesseract-OCR pour obtenir un fichier texte.

 

Tesseract-OCR est multiplateforme (Windows/Mac/Linux).
 

Suivant la version, il peut être nécessaire d'installer la librairie Leptonica séparément.

 

  

     Télécharger le programme et le fichier de langue.

Tesseract sous Linux

Sous Linux, partir d'une image et taper en ligne de commande :  tesseract  /chemin/vers/mon/image.jpg  /chemin/vers/mon/fichier
 

Tesseract sous Toutou Linux / ASRI 300

Sur Toutou Linux, Tesseract-OCR s'intègre très facilement à Xsane (logiciel pour scanner), ce qui permet de scanner, recadrer et faire la reconnaissance de caractères dans la foulée.

Autre possibilité : scanner d'un côté, puis utiliser Tesseract avec OcrGUI pour la reconnaissance. OcrGUI a l'avantage de proposer une double fenêtre pour comparer : image scannée d'un côté et texte reconnu de l'autre, avec correcteur orthographique.

Voir la page pour Toutou Linux / ASRI 300