OCRopus

Da Wikipedia, l'enciclopedia libera.
OCRopus
Sviluppatore Thomas Breuel, DFKI
Ultima versione 1.0 (2 novembre 2014)
Sistema operativo Linux
macOS
Linguaggio
Genere Riconoscimento ottico dei caratteri
Licenza Apache License v2.0
(licenza libera)
Sito web github.com/tmbdev/ocropy

OCRopus è un software libero di riconoscimento ottico dei caratteri distribuito con la licenza Apache, versione 2.0 con un design modulare attraverso l'uso di plugin.

OCRopus è attualmente sviluppato sotto la guida di Thomas Breuel dal Centro di Ricerca Tedesco per l'Intelligenza Artificiale a Kaiserslautern, il suo sviluppo è sponsorizzato da Google.

OCRopus è sviluppato per Linux tuttavia degli utenti hanno riportato che è possibile utilizzarlo anche su macOS e un'applicazione chiamata TakOCR è stata sviluppata per installare OCRopus su macOS.

Funzionamento[modifica | modifica wikitesto]

OCRopus è un sistema OCR che combina la document layout analysis, il riconoscimento ottico dei caratteri e la modellizzazione del linguaggio, funzionalità inseribili nel software attraverso dei plugin. Esso è rivolto principalmente alla conversione di grandi volumi di immagini, principalmente per Google Book Search, ma anche per l'ufficio domestico o in ufficio o per persone non vedenti o ipovedenti.

OCRP usava il software Tesseract come unico plugin di riconoscimento dei caratteri ma ha un proprio motore a partire dalla release 0.4[1]. OCRopus contiene anche del codice disabilitato un motore per il riconoscimento della scrittura (a mano).

Il plugin di analisi del layout di OCRopus preprocessi l'immagine e analizza il layout suddividendo il documento scannerizzato e passando le sezioni al plugin di riconoscimento dei caratteri per il riconoscimento (che può avvenire linea per linea o carattere per carattere).

All'ultima versione, OCRopus usa il codice di modellizzazione del linguaggio da un altro progetto sponsorizzato da Google OpenFST[2], tale funzionalità è opzionale nelle versioni precedenti la 0.4.

Uso[modifica | modifica wikitesto]

Attualmente OCRopus può essere usato solo da riga di comando. una volta installato può essere invocato specificando le pagine di input e produce codice basato sull'HTML come output sullo standard output. Delle opzioni possono essere specificate per modificare il funzionamento del programma (come il riconoscimenti di linee singole).

Vedere anche[modifica | modifica wikitesto]

Note[modifica | modifica wikitesto]

  1. ^ (EN) OCRopus doesn't even link with Tesseract by default
  2. ^ Official OpenFST website

Collegamenti esterni[modifica | modifica wikitesto]

Informatica Portale Informatica: accedi alle voci di Wikipedia che trattano di Informatica