Tesseract (software)

Da Wikipedia, l'enciclopedia libera.
Tesseract

Screenshot di Tesseract (software)
Tesseract 2.03, Ubuntu 9.04 (2009)
Sviluppatore Google
Ultima versione 3.02 (28 ottobre 2012)
Sistema operativo Linux
Mac OS X
Microsoft Windows
OpenBSD
Linguaggio C
C++
Genere Riconoscimento ottico dei caratteri
Licenza Licenza Apache v. 2.0
(Licenza libera)
Lingua arabo, bulgaro, catalano, ceco, danese, olandese, hindi, inglese, finnico, esperanto, francese, tedesco, greco, ungherese, indonesiano, italiano, lettone, lituano, norvegese, polacco, portoghese, rumeno, russo, serbo, slovacco, sloveno, spagnolo, svedese, tagalog, tailandese, turco, ucraino, vietnamita
Sito web code.google.com/p/tesseract-ocr

Tesseract è un software libero per il riconoscimento ottico dei caratteri (OCR) .

Sviluppato originariamente come software proprietario dalla Hewlett-Packard tra il 1985 e il 1995, non venne più aggiornato nel decennio successivo. Fu poi rilasciato come open source nel 2005 da Hewlett Packard e dall'Università del Nevada, Las Vegas, e rilasciato con la licenza Apache, versione 2.0. Lo sviluppo di Tesseract è attualmente sponsorizzato da Google.

Come tutti i programmi OCR, anche Tesseract serve a convertire il testo contenuto in un'immagine, ottenuta di solito per mezzo di uno scanner, in caratteri comprensibili ad un elaboratore di testi. I risultati sono molto buoni per quanto riguarda il riconoscimento dei caratteri; manca invece la capacità di mantenere il layout delle pagine, per esempio le tabelle o le colonne. Inizialmente limitato ai soli caratteri ASCII, nell'ottobre 2011 Tesseract supporta i caratteri UTF-8 e riconosce 33 lingue.

Un'altra limitazione di Tesseract è quella di accettare solo immagini Tagged Image File Format, con l'estensione «.tif». Il software inoltre è attualmente utilizzabile da riga di comando digitando, in una finestra di terminale, il seguente comando:

tesseract <percorso del file TIFF> <nome del file di output>

Sarà generato automaticamente un file di testo con estensione «.txt».

Altri progetti[modifica | modifica sorgente]

Collegamenti esterni[modifica | modifica sorgente]

Software libero Portale Software libero: accedi alle voci di Wikipedia che trattano di Software libero