Codifica di caratteri

Da Wikipedia, l'enciclopedia libera.

Una codifica di caratteri, o charset, consiste in un codice che associa un insieme di caratteri (tipicamente rappresentazioni di grafemi così come appaiono in un alfabeto utilizzato per comunicare in una lingua naturale) ad un insieme di altri oggetti, come numeri (specialmente nell'informatica) o pulsazioni elettriche, con lo scopo di facilitare la memorizzazione di un testo in un computer o la sua trasmissione attraverso una rete di telecomunicazioni. Esempi comuni sono il Codice Morse e la codifica ASCII.

Storia[modifica | modifica sorgente]

Ufficialmente, il primo fu il codice Morse, nato nel 1840, seguito dalla lingua delle bandiere usata in marina.

L'introduzione delle telescriventi porta al codice Baudot del 1930, a 5 bit.

Nel 1963 nasce lo standard ASCII, a 7 bit, che è utilizzato per la nascita di Internet e dei protocolli connessi. Nel 1965 viene approvato come US-ASCII, che nel 1972 diventa lo standard ISO 646.

Nel 1981 le estensioni al codice ASCII per i caratteri dal 128 al 255 vengono identificate dai codepage PC-DOS e traslate poi per retrocompatibilità nello MS-DOS. Nel 1985 la ISO approva gli standard codepage come ISO 8859-n, dove n è un numero che identifica il particolare codepage.

L'affermarsi di Windows, anche in Asia, porta alle estensioni alle lingue orientali nel 1990 dei codepage di Windows.

La comprensibile babele risultante dallo scambio di email e documenti tra paesi a codepage diverso fu oggetto di attenzione dell'ISO prima con lo standard del 1986 ISO 2022, in vigore ma scarsamente utilizzato, e poi con la proposta del 1991 dell'Unicode 1.0, la cui versione 1.1 del 1993 divenne lo standard ISO 10646, lo Universal Character Set o UCS.

Lo UCS-2, che usa due byte per ogni carattere, fu utilizzato dalla Microsoft in Windows NT sin dal 1995 e poi esteso a tutte le altre versioni.

Le definizioni dei formati UTF-8 e UTF-16 datano al 1996, con la versione 2.0 di Unicode. lo UTF (Unicode Transformation Format) divenne lo standard POSIX de facto, ed essendo ratificato dalla RFC 3629, è anche riconosciuto dal W3C. Esistono anche lo UTF-7 e l'UCS 4. Lo UTF-16 è un'estensione dello UCS 2.

La successiva versione Unicode 3.0 del 1999 introduce la bidirezionalità e la composizione di tabelle, mentre la 4.0 del 2001 include anche le lingue antiche. La 4.1 è del 2005, ma l'attività del Unicode Consortium è in continua evoluzione.

Repertori di caratteri[modifica | modifica sorgente]

In alcuni contesti, specialmente nella memorizzazione e nella comunicazione, è utile operare una distinzione tra repertorio di caratteri (un insieme completo di caratteri astratti supportato da un certo sistema) e codifica di caratteri, che specifica il sistema da usare per la rappresentazione dei caratteri di un certo insieme utilizzando codici numerici.

Dopo i primi repertori di caratteri (ASCII nel 1963 ed EBCDIC nel 1964) si assistette ad un processo di standardizzazione. Presto divennero evidenti le limitazioni di questi modelli di rappresentazione e si tentò di sviluppare metodi specifici per superarle. In particolare, la necessità di supportare un numero sempre maggiore di caratteri (come richiesto ad esempio dalle codifiche CJK tipiche dell'estremo oriente) rese evidente il bisogno di un approccio sistematico al problema. Un tentativo in tal senso è rappresentato dalla codifica Unicode, il cui repertorio comprende più di centomila caratteri.

Principali codifiche dei caratteri[modifica | modifica sorgente]

Collegamenti esterni[modifica | modifica sorgente]

Voci correlate[modifica | modifica sorgente]

Collegamenti esterni[modifica | modifica sorgente]