Codifica delta

Da Wikipedia, l'enciclopedia libera.

La codifica delta è un modo per immagazzinare o trasmettere dati usando le differenze tra i dati sequenziali piuttosto che sul file completo. A volte la codifica delta è chiamata compressione delta, in particolare quando è richiesta la storia dei cambiamenti (per esempio nei progetti software).

Le differenze sono registrate in file discreti chiamati "delta" o "diff". Poiché i cambiamenti sono di solito piccoli, la codifica delta riduce notevolmente la ridondanza dei dati. Insiemi di uniche delta sono sostanzialmente più efficienti nella riduzione di spazio che i loro equivalenti non codificati.

(La codifica delta non deve essere confusa con la codifica Elias delta).

Forse l'esempio più semplice è la memorizzazione di byte come differenze (delta) tra valori sequenziali, al posto della memorizzazione dei semplici valori: al posto della sequenza '2, 4, 6, 9, 7', si potrebbe memorizzare la sequenza in codifica delta '2, 2, 2, 3, -2'. Questo non è molto utile se usato da solo, ma può incrementare la compressione dei dati. Per capire come, supponiamo una codifica a lunghezza fissa (nella realtà le codifiche per la compressione sono a lunghezza variabile): la sequenza originaria ha bisogno di 5 bit (1 bit di segno e 4 bit per codificare il numero 9), mentre la codifica delta ha bisogno di 3 bit (1 bit di segno e 2 bit per codificare il numero 3). Ovviamente il guadagno è possibile soltanto se la variazione è "dolce", cosa tutt'altro che generale negli insiemi di dati.
I file IFF e il formato per i suoni 8SVX applicano questa codifica ai dati grezzi che codificano il suono prima di applicare la compressione. Sfortunatamente, neppure tutti i suoni a 8 bit sono compressi con vantaggi, e l'uso della codifica delta è ancora minore nei suoni a 16 bit. Di conseguenza, gli algoritmi di compressione usano la codifica delta solo quando la compressione risulta migliore. Tuttavia, nella compressione dei video la compressione delta può ridurre considerevolmente la grandezza.

Una delta può essere definita in due maniere, delta simmetrica e delta diretta. Una delta simmetrica può essere espressa come \Delta(v_1, v_2) = (v_1 \backslash v_2) \cup (v_2 \backslash v_1) dove v_1 e v_2 rappresentano due successive versioni.

Una delta diretta, chiamata anche scelta, è una sequenza di operazioni elementari di scelta la quale, quando applicata ad una versione v_1 restituisce un'altra versione v_2 (si noti la corrispondenza con i transaction log nei database).

Una variante della codifica delta, che codifica le differenze tra prefissi o suffissi di stringhe, viene chiamata codifica incrementale. Essa è particolarmente efficace per liste ordinate con piccole differenze tra le stringhe, come una lista di parole da un dizionario.

In una trasmissione in rete codificata mediante codifica delta dove soltanto una copia del file è disponibile a ciascun estremo del canale di comunicazione vengono utilizzati speciali codici di controllo dell'errore per scoprire quali parti del file è cambiato a partire dalla versione precedente.

La natura dei dati da codificare influenza l'efficacia di un particolare algoritmo di compressione. La compressione delta offre il suo meglio quando i dati hanno variazioni piccole o costanti; per un insieme non ordinato di dati, questo metodo potrebbe offrire una compressione piccola o nulla.

Il seguente codice in C effettua una semplice codifica e decodifica delta.

void delta_encode(char *buffer, int length)
{
  char t = 0;
  char original;
  int i;
  for(i = 0; i < length; i++)
  {
    original = buffer[i];
    buffer[i] -= t;
    t = original;
  }
}

void delta_decode(char *buffer, int length)
{
  char t = 0;
  int i;
  for(i = 0; i < length; i++)
  {
    buffer[i] += t;
    t = buffer[i];
  }
}

Un altro esempio d'uso della codifica delta è contenuto nella RFC 3229, "Codifica delta nell'HTTP" ("Delta encoding in HTTP"), nella quale l'IETF propone che i server HTTP debbano essere in grado di mandare gli aggiornamenti delle pagine Web in forma di differenza tra le versioni, il che dovrebbe ridurre il traffico di Internet, visto che la maggior parte delle pagine cambiano lentamente nel tempo, piuttosto che essere riscritte ripetutamente:

Questo documento descrive come la codifica delta possa essere supportata come un'estensione compatibile all'HTTP/1.1.
Molte richieste HTTP (Hypertext Transport Protocol) causano il recupero di copie di risorse leggermente modificate per le quali esiste già una copia in cache. Delle ricerche hanno mostrato che questo tipo di aggiornamenti delle modifiche sono frequenti, e che le modifiche sono tipicamente molto più piccole dell'entità nel suo complesso. In questi casi L'HTTP farebbe un uso molto più efficiente della banda se potesse inviare una minima descrizione dei cambiamenti, piuttosto che una copia completa della risorsa.

Voci correlate[modifica | modifica sorgente]

Collegamenti esterni[modifica | modifica sorgente]

  • RFC 3229 - Delta Encoding in HTTP
  • RFC 3284 - The VCDIFF Generic Differencing and Compression Data Format