OCRopus

Da Wikipedia, l'enciclopedia libera.
OCRopus
Sviluppatore Thomas Breuel, DFKI
Sistema operativo Linux
Mac OS X
Linguaggio
Genere Riconoscimento ottico dei caratteri
Licenza Apache License v2.0
(Licenza libera)
Sito web code.google.com/p/ocropus

OCRopus è un software libero di riconoscimento ottico dei caratteri rilasciato con la licenza Apache, versione 2.0 con un design modulare attraverso l'uso di plugin.

OCRopus è attualmente sviluppato sotto la guida di Thomas Breuel dal Centro di Ricerca Tedesco per l'Intelligenza Artificiale a Kaiserslautern, il suo sviluppo è sponsorizzato da Google.

OCRopus è sviluppato per Linux tuttavia degli utenti hanno riportato che è possibile utilizzarlo anche su Mac OS X e un'applicazione chiamata TakOCR è stata sviluppata per installare OCRopus su Mac OS X.

Funzionamento[modifica | modifica wikitesto]

OCRopus è un sistema OCR che combina la document layout analysis, il riconoscimento ottico dei caratteri e la modellizzazione del linguaggio, funzionalità inseribili nel software attraverso dei plugin. Esso è rivolto principalmente alla conversione di grandi volumi di immagini, principalmente per Google Book Search, ma anche per l'ufficio domestico o in ufficio o per persone non vedenti o ipovedenti.

OCRP usava il software Tesseract come unico plugin di riconoscimento dei caratteri ma ha un proprio motore a partire dalla release 0.4[1]. OCRopus contiene anche del codice disabilitato un motore per il riconoscimento della scrittura (a mano).

Il plugin di analisi del layout di OCRopus preprocessi l'immagine e analizza il layout suddividendo il documento scannerizzato e passando le sezioni al plugin di riconoscimento dei caratteri per il riconoscimento (che può avvenire linea per linea o carattere per carattere).

All'ultima versione, OCRopus usa il codice di modellizzazione del linguaggio da un altro progetto sponsorizzato da Google OpenFST[2], tale funzionalità è opzionale nelle versioni precedenti la 0.4.

Uso[modifica | modifica wikitesto]

Attualmente OCRopus può essere usato solo da riga di comando. una volta installato può essere invocato specificando le pagine di input e produce codice basato sull'HTML come output sullo standard output. Delle opzioni possono essere specificate per modificare il funzionamento del programma (come il riconoscimenti di linee singole).

Vedere anche[modifica | modifica wikitesto]

Note[modifica | modifica wikitesto]

  1. ^ (EN) OCRopus doesn't even link with Tesseract by default
  2. ^ Official OpenFST website

Collegamenti esterni[modifica | modifica wikitesto]

Informatica Portale Informatica: accedi alle voci di Wikipedia che trattano di Informatica