CBIR

Da Wikipedia, l'enciclopedia libera.

I CBIR (in inglese Content-Based Image Retrieval Systems) sono sistemi di recupero di immagini, digitali e fisse, basati su attributi visuali del contenuto di tali immagini.

Le caratteristiche visuali maggiormente utilizzate da questi sistemi si riferiscono al colore, alla forma e alla texture. Tali attributi si estraggono e si rappresentano automaticamente attraverso strutture di dati numerici, di modo che non sia necessario esprimere la nostra ricerca mediante invece che impiegare per esempio tavolozze di colori, disegnando o selezionando immagini a partire dalle quali il sistema restituirà altre visivamente simili. Tuttavia, i sistemi CBIR di carattere misto sono soliti combinare queste opzioni di consultazione anche con la tradizionale espressione linguistica di ciò che cerchiamo.

Storia[modifica | modifica wikitesto]

I sistemi CBIR nacquero negli anni ’90, coincidendo con la esplosione dei sistemi multimediali e di digitalizzazione di raccolte di immagini disponibili attraverso Internet e altri media. Questi sistemi nacquero per risolvere le limitazioni che, prima dell’esplosione della produzione di immagini digitali, cominciarono a presentarsi nel modello linguistico (rappresentazioni testuali di immagini e impiego di criteri di recupero anche testuali) applicato al recupero di immagini. Nonostante le tecniche di indicizzazione testuale abbiano i loro punti di forza, avendo maggior capacità le parole di descrivere quasi tutti gli aspetti del contenuto di un’immagine, il processo di indicizzazione manuale presenta due inconvenienti principali:

  • Alto costo in temi di tempo e denaro.
  • Problemi di consistenza tra indicizzatori (umani) e, nell’ambito di uno stesso indicizzatore, al momento di determinare i temi.

I nuovi sistemi automatizzati permettevano:

  • Offrire accesso a grandi database di immagini fisse, superando i limiti di tempi e costi que implicava la produzione umana di informazione descrittiva sulle immagini.
  • Eliminare la soggettività da parte dell’indicizzatore nel momento di interpretazione dell’immagine.

L’integrazione di questi sistemi apporta l’automatizzazione dei processi per risolvere i problemi tradizionali e intraprendere un’analisi e un recupero il più mirato possibili al contenuto totale delle immagini.

SARI[modifica | modifica wikitesto]

Un SARI è un Sistema Automatizzato di Recupero di Immagini. Si compone di strumenti informatici, documenti e procedimenti di consultazione che rendono possibile la ricerca selettiva di immagini fotografiche integrate in un fondo documentale.

I sistemi di recupero di immagini fanno uso di due possibili tecniche di rappresentazione e consulta zio ne, che possono essere utilizzate singolarmente o in combinazione. Tali tecniche sono la concettuale e la visuale.

Come conseguenza a queste due forme di rappresentazione e recupero abbiamo le seguenti varianti di modelli di SARI:

  • (LL) Sistemi linguistici: Impiegano sistemi di gestione dei documenti con supporto di immagini digitali. Sono i più ampiamente conosciuti e utilizzati.
  • (VV) Sistemi visuali puri : Permettono la rappresentazione automatica degli attributi visuali dell’immagine e il recupero a partire dai criteri stessi. Cercano di risolvere le limitazioni imposte dal modello linguistico. Presentano problemi di recupero semantico: oggetti, persone…
  • (LV) Sistemi di rappresentazione linguistica e recupero visuale: Rappresentazioni testuali delle immagini, ma con possibilità di recuperare a partire dalle proprie immagini. Presentano limitazioni derivate dai sistemi linguistici.
  • (VL) Sistemi di rappresentazione visuale e recupero linguistico: Sono finalizzati a superare due limitazioni importanti dei modelli descritti in precedenza. La restrizione di possibilità espressive dell’utente nella consultazione, da parte dei sistemi visuali; e la difficoltà di esprimere una parte importante del significato dell’immagine durante il processo di rappresentazione da parte dei sistemi linguistici.
  • Sistemi misti: Integrano diversi modelli di recupero descritti, i più comuni si basano sull’integrazione di un sistema visuale puro con un sistema linguistico. Quest’integrazione permette all’utente di utilizzare in modo combinato, durante il processo di recupero, funzioni di consultazione visuali e linguistiche.

I sistemi CBIR rispondono al modello VV, sistema di recupero visuale puro. Tuttavia, possono presentarsi anche in forma mista.

Funzionamento[modifica | modifica wikitesto]

I sistemi CBIR considerano essenzialmente gli elementi formali intrinseci che caratterizzano l’immagine, ovvero il livello formale o plastico. Tra gli elementi formali grafici di carattere intrinseco, che possono essere estratti e analizzati da questi sistemi si trovano colori, texture, figure e relazioni topologiche tra questi attributi. Con l’analisi di questi attributi, si producono automaticamente le strutture di composizione dell’immagine. Il recupero dei dati non è altro che un processo di estrazione dei tratti visuali, considerati come il vero contenuto dell’immagine.

Si possono distinguere tre fasi del funzionamento dei sistemi CBIR:

  • Fase di archivio: Le caratteristiche intrinseche delle immagini vengono analizzate automaticamente. Si generano vettori di caratteristiche grafiche per ciascuna immagine. L’indice visuale vincola ciascun attributo all’immagine che lo contiene.
  • Fase di consultazione: l’utente specifica una o più caratteristiche visuali mediante le opzioni che sono disponibili sull’interfaccia:
    • Consultazione attraverso esempi visivi.
    • Consultazione attraverso l’immagine indice mostrata.
    • Consultazione mediante l’esempio realizzato.
    • Uso del linguaggio visivo.
  • Fase di recupero: Le immagini vengono mostrate in ordine decrescente di somiglianza.

Errori abituali nella fase di recupero prodotti da ricerche vaghe ed imprecise da parte dell’utente:

  • Inesattezza rispetto all’oggetto della ricerca.
  • Conoscenza imprecisa delle caratteristiche visuali.
  • Eccessiva generalizzazione.
  • Errori nella rappresentazione.
  • Mancanza di allineamento tra percezione dell’utente e quella del sistema.

Tecniche di consultazione[modifica | modifica wikitesto]

Tecniche di domanda[modifica | modifica wikitesto]

  • Domanda per esempio: Il sistema CBIR baserà la ricerca a partire da un’immagine di esempio. Gli algoritmi soggiacenti di ricerca possono variare a seconda dell’uso, ma le immagini risultanti dovranno presentare elementi comuni con il relativo esempio. Le opzioni per fornire immagini d’esempio al sistema includono:
    • Un’immagine preesistente può essere somministrata dall’utente o scelta da un metodo arbitrario
    • L’utente disegna una approssimazione dell’immagine

Questa tecnica di domanda elimina le difficoltà che possono sorgere al descrivere immagini con le parole.

  • Recupero semantico: il sistema CBIR ideale, dalla prospettiva dell’utente, implicherebbe il recupero semantico, processo in cui l’utente pone una richiesta. Questo tipo di operazione è molto difficile da realizzare per un PC. I sistemi CBIR comune generalmente sfruttano caratteristiche di livello inferiore come la texture, il colore e la forma, benché alcuni sistemi utilizzino caratteristiche di livello più alto come il riconoscimento dei volti. I sistemi CBIR non sono generici, alcuni sono disegnati per un dominio specifico.
  • Altri metodi di domanda: includono la specifica di proporzioni del colore oppure la ricerca di immagini che contengono un oggetto presente nell’immagine di esempio. I sistemi CBIR possono contenere commenti riguardo alla rilevanza, in cui l’utente affina ogni sempre di più i risultati della ricerca contrassegnandoli come “ rilevante” , “ non rilavante” o “ neutro” alla domanda della ricerca e quindi ripete la ricerca con la nuova informazione disponibile.

Tecniche di comparazione dei contenuti[modifica | modifica wikitesto]

I seguenti punti descrivono i metodi comuni per l’estrazione del contenuto delle immagini in modo da facilitare il confronto con altre immagini. Questi metodi non sono specifici di alcuna applicazione.

  • Colore: il recupero di immagini baste sulla somiglianza del colore si ottiene calcolando l’istogramma di colore per ciascuna immagine in modo da poter identificare la proporzione dei pixel dentro un’immagine. Questo metodo cerca di segmentare la porzione di colore nella regione e per la relazione spaziale tra le diverse regioni di colore. Questa è una delle tecniche più usate dal momento che non dipende dalle dimensioni dell’immagine ne dal suo orientamento. Le ricerche per colore in generale implicano il confronto di istogrammi di colore benché questa non sia l’unica tecnica utilizzata.
  • Texture : La forma della textura cerca caratteristiche visive nelle immagini e cerca di trovare il modo nel quale si definisce nello spazio. La textura si rappresenta mediante texels che si collocano in serie a seconda di quante texture sono state reperite nell’immagine. Queste serie non solo definiscono le texture ma anche il punto dell’immagine in cui si trovano.
  • Forma: la forma non si riferisce all’immagine ma alla forma di una regione particolare all’interno dell’immagine che si sta cercando. Le forme spesso vengono determinate applicando la segmentazione o la rilevazione dei bordi di un’immagine. In alcuni casi la rilevazione della forma esatta richiederà l’intervento umano dato che è molto difficile automatizzare completamente metodi come la segmentazione.

Sistemi di consultazione delle immagini attraverso esempi[modifica | modifica wikitesto]

  • QBIC (Query by Image Content)
    • QBIC Colour: il sistema QIBC Colour presenta la possibilità di cercare immagini stabilendo una proporzione dei colori presenti. Ciò può presentare complicazioni nel momento di decidere le proporzioni.
    • QBIC Layout: questo metodo più avanzato permette di comporre uno schema dell’immagine da reperire definendo forme e colori. Questo processo implica l’indicizzazione automatica di tutte le immagini attraverso l’analisi delle forme e soprattutto dei colori che appaiono in essa.
  • SIMPLIcity (Semantics-Sensitive Integrated Machina for Picture) : è capace di interpretare immagini a partire da altre immagini base e creare un data base con le immagini estratte seguendo il loro contenuto semantico ( texture, animazioni, fotografie). Il suo metodo è le segmentazione delle immagini delle regioni in base a colore e textura. E’costituito da un modulo che decide la categoria a cui appartiene la ricerca e le caratteristiche dell’immagine dipendono da questa categoria. È un sistema disegnato per misurare la somiglianza.
  • FOCUS: Fast Object Color-based Query System (2004): Questo sistema compie ricerche di regioni all’interno di immagini. Il metodo consta di due fasi : fase uno: rilevazione dei picchi nell’istogramma dell’immagine per recuperare le più somiglianti, fase due: rilevazione delle regioni e codificazione del colore di ogni regione per eliminare falsi risultati positivi del recupero della fase uno.
  • BLOBWORLD: Le caratteristiche di ricerca usate da questo sistema sono il colore. La textura, la posizione spaziale e la forma delle regioni ( blobs ) sul fondo dell’immagine. Quando l’utente compie la ricerca seleziona prima una categoria che limita il campo della ricerca. In un’immagine iniziale l’utente seleziona una regione ( blob) ed indica l’importanza di tale regione. In secondo luogo l’utente indica il colore della regione così come la textur, la forma e la posizione . Per compiere la ricerca si può selezionare più di una regione.

Applicazioni[modifica | modifica wikitesto]

Vi è un interesse crescente nei sistemi CBIR dovuto alle limitazioni presenti nei sistemi basati sui metadati, come la grande offerta di impieghi possibili per il recupero efficiente delle immagini.

La necessità di questo sistema si riassume in tre idee:

  • La crescente quantità delle immagini digitali.
  • Il fatto che il Web sia una risorsa aperta.
  • Che il motore di ricerca attuali si basino sul titolo delle immagini, con la limitazione che questo suppone.

Alcuni esempi di applicazioni:

  • Alcuni produttori di software cercano di gestire l’uso di CBIR basati sul filtro e sui mercati di applicazione della legge con l’obiettivo di identificare e censurare le immagini con il colore della pelle e forme che potrebbero indicare la presenza di nudità con risultati controversi.
  • Banche dati di musei (quadri, sculture ecc.) già attraverso la ricerca delle forme possiamo trovare l'immagine di un'opera d'arte. Questo tipo di consultazione è già disponibile in alcuni siti Web come, ad esempio, l’Hermitage Museum di San Pietroburgo [1].
  • Registro di immagini mediche ( radiografie, ecografie, mammografie….) disponendo delle immagini di un paziente che ha una determinata patologia, si può accedere ad un registro di immagini di altri casi in altri pazienti, per trovare, attraverso il contenuto visivo, l’immagine della stessa patologia in un altro paziente e consultare quale tipo di trattamento risulti più efficace. Questi tipi di sistema necessitano di una grande precisione e di una bassa percentuale di errore. Esempi di database di immagini mediche in IRMA (Image Retrieval in Medical Applications) [2].
  • Registro di immagini di polizia. Attraverso di sistemi consultazioni di immagini per contenuti si più trovare la fotografia di un sospettato all’interno degli archivi di polizia e consultare i suoi dati personale. In questi casi viene effettuata la rilevazione dei tratti facciali, occhi, naso e bocca per realizzare una ricerca più efficace. Inoltre viene utilizzato per trovare all’interno di un registro le impronte digitali appartenenti a sospettati schedati dalla polizia.

Possiamo dire che l’importanza delle tecniche CBIR consiste nel fatto che non escludano altri metodi, ma che bensì possano funzionare in sinergia con le forme abituali di rappresentazione e recupero delle immagini. Fornisco inoltre soluzione ai problemi del paradigma tradizionale di analisi e recupero così come suscitano nuovo interesse nello studio del recupero delle immagini.

Voci correlate[modifica | modifica wikitesto]

Bibliografia[modifica | modifica wikitesto]

  • CBIR: Interaction & Evaluation, Georgy Gimel , University of Auckand. [3]
  • Bases de datos para Multimedia: Recuperación por Contenido, Manuel Agustí i Melchor, Jose Miguel Valiente González, Universidad Politécnica de Valencia. [4]