Dans : Pour les élèves › Pour les élèves › logiciel › logiciel › logiciel ›
Novembre 2012
tesseract ocr reconnaissance de caracteres
C'est un logiciel de reconnaissance de caractères :
- scanner un texte papier
- traiter l'image si besoin
- utiliser Tesseract-OCR pour obtenir un fichier texte.
Tesseract-OCR est multiplateforme (Windows/Mac/Linux).
Suivant la version, il peut être nécessaire d'installer la librairie Leptonica séparément.
Télécharger le programme et le fichier de langue.
Tesseract sous Linux
Sous Linux, partir d'une image et taper en ligne de commande : tesseract /chemin/vers/mon/image.jpg /chemin/vers/mon/fichier
Xsane ➜ Tesseract
Sous Linux, Tesseract-OCR s'intègre très facilement à Xsane (logiciel pour scanner), ce qui permet de scanner, recadrer et faire la reconnaissance de caractères dans la foulée :
1) installer par votre gestionnaire de logiciels :
- xsane
- tesseract-ocr
- tesseract-ocr-fra (ou autres paquets de langue)
- imagemagick
2) installer le script xsane2tess
téléchargement : xsane2tess_1.0_all.deb
source : https://doc.ubuntu-fr.org/xsane2tess
3) dans Xsane aller dans : Préférences ➜ Configuration ➜ OCR
et remplir le champ Commande OCR avec xsane2tess -l fra
4) utilisation dans Xsane :
- scanner en Gris avec comme cible la Visionneuse
- cliquer sur : Fichier ➜ OCR - Sauver au format texte