Tesseract (software)
Tesseract software | |
---|---|
Tesseract 2.03, Ubuntu 9.04 (2009) | |
Genere | Riconoscimento ottico dei caratteri |
Sviluppatore | Google e altri |
Ultima versione | 5.5.0 (10 novembre 2024) |
Sistema operativo | Linux macOS Microsoft Windows OpenBSD |
Linguaggio | C++ |
Licenza | Licenza Apache v. 2.0 (licenza libera) |
Lingua | arabo, bulgaro, catalano, ceco, danese, olandese, hindi, inglese, finnico, esperanto, francese, tedesco, greco, ungherese, indonesiano, italiano, lettone, lituano, norvegese, polacco, portoghese, rumeno, russo, serbo, slovacco, sloveno, spagnolo, svedese, tagalog, tailandese, turco, ucraino, vietnamita |
Sito web | github.com/tesseract-ocr |
Tesseract è un software libero per il riconoscimento ottico dei caratteri (OCR) .
Storia
[modifica | modifica wikitesto]Sviluppato originariamente come software proprietario dalla Hewlett-Packard tra il 1985 e il 1995, non venne più aggiornato nel decennio successivo. Rilasciato come open source nel 2005 da Hewlett Packard e dall'Università del Nevada a Las Vegas, con la licenza Apache, versione 2.0, dal 2006 al novembre 2018 è stato sviluppato da Google[1]. Attualmente lo sviluppo è portato avanti in modalità aperta da un gruppo di volontari e sviluppatori indipendenti.
Funzionamento
[modifica | modifica wikitesto]Come tutti i programmi OCR, anche Tesseract serve a convertire il testo contenuto in un'immagine, ottenuta di solito per mezzo di uno scanner, in caratteri comprensibili ad un elaboratore di testi. I risultati sono molto buoni per quanto riguarda il riconoscimento dei caratteri; manca invece la capacità di mantenere il layout delle pagine, per esempio le tabelle o le colonne. Inizialmente limitato ai soli caratteri ASCII, nell'ottobre 2011 Tesseract supporta i caratteri UTF-8 e riconosce 33 lingue.
Si può provare l'uso del software da riga di comando digitando, in una finestra di terminale, il seguente comando:
- tesseract <percorso del file di immagine> <nome del file di output>
Sarà generato automaticamente un file di testo con estensione «.txt».
GUI
[modifica | modifica wikitesto]In generale tesseract è utilizzabile solo da riga di comando o tramite API ma esistono diverse implementazioni che aggiungono un'interfaccia grafica, tra queste citiamo[2]:
Altri progetti
[modifica | modifica wikitesto]- Wikimedia Commons contiene immagini o altri file su Tesseract
Collegamenti esterni
[modifica | modifica wikitesto]- (EN) Sito ufficiale, su github.com.
- (EN) Tesseract, su SourceForge.
- Tesseract, su packages.debian.org.
- (EN) Tesseract, su GitHub.
- Repository sorgenti di Tesseract, su github.com.
- (EN) Tesseract, su Free Software Directory.
(EN) Luc Vincent, Announcing Tesseract OCR, Google Code Blog, su google-code-updates.blogspot.com. URL consultato il 4 maggio 2019 (archiviato dall'url originale il 6 novembre 2013).
Note
[modifica | modifica wikitesto]- ^ (EN) Brief history [Storia in breve], su github.com.
- ^ (EN) GUIs and Other Projects using Tesseract OCR, su tesseract-ocr.github.io.