Raccourci vers le contenu principal de la page

Tesseract OCR

Dans :  Pour les élèves › Pour les élèves › logiciel › logiciel › logiciel › 
Novembre 2012

C'est un logiciel de reconnaissance de caractères :

- scanner un texte papier

- traiter l'image si besoin

- utiliser Tesseract-OCR pour obtenir un fichier texte.

 

Tesseract-OCR est multiplateforme (Windows/Mac/Linux).
 

Suivant la version, il peut être nécessaire d'installer la librairie Leptonica séparément.

 

  

     Télécharger le programme et le fichier de langue.

Tesseract sous Linux

Sous Linux, partir d'une image et taper en ligne de commande :  tesseract  /chemin/vers/mon/image.jpg  /chemin/vers/mon/fichier
 

Xsane ➜ Tesseract

Sous Linux, Tesseract-OCR s'intègre très facilement à Xsane (logiciel pour scanner), ce qui permet de scanner, recadrer et faire la reconnaissance de caractères dans la foulée :

1) installer par votre gestionnaire de logiciels :
  - xsane
  - tesseract-ocr
  - tesseract-ocr-fra (ou autres paquets de langue)
  - imagemagick

2) installer le script xsane2tess
  téléchargement : xsane2tess_1.0_all.deb
  source : https://doc.ubuntu-fr.org/xsane2tess

3) dans Xsane aller dans : Préférences ➜ Configuration ➜ OCR
  et remplir le champ Commande OCR avec xsane2tess -l fra

4) utilisation dans Xsane :
  - scanner en Gris avec comme cible la Visionneuse
  - cliquer sur : Fichier ➜ OCR - Sauver au format texte