Vai al contenuto

Calgary corpus

Da Wikipedia, l'enciclopedia libera.

Il Calgary corpus è una raccolta di file di testo e binari utilizzata comunemente negli anni '90 per il confronto degli algoritmi di compressione dei dati. È stato creato nel 1987 da Ian Witten, Tim Bell e John Clearly della Università di Calgary. Nel 1997 è stato sostituito dal Canterbury corpus[1].

Nella sua forma più comunemente usata il corpus consiste nei seguenti 14 file per una dimensione totale di 3.141.622 byte.

Dimensione (byte)Nome del fileDescrizione
111,261BIBtesto ASCII in formato UNIX "refer" – 725 riferimenti bibliografici.
768,771BOOK1testo ASCII non formattato – Thomas Hardy: Far from the Madding Crowd.
610,856BOOK2testo ASCII formato UNIX "troff" – Witten: Principles of Computer Speech.
102,400GEOnumeri a 32 bit in formato IBM floating point – dati sismici.
377,109NEWStesto ASCII – file batch USENET su vari argomenti.
21,504OBJ1programma eseguibile VAX – compilazione di PROGP.
246,814OBJ2programma eseguibile Macintosh – "Knowledge Support System".
53,161PAPER1formato UNIX "troff" – Witten, Neal, Cleary: Arithmetic Coding for Data Compression.
82,199PAPER2formato UNIX "troff" – Witten: Computer (in)security.
513,216PICimmagine bitmap 1728 x 2376 (MSB first): testo in francese e diagrammi lineari.
39,611PROGCcodice sorgente in C – UNIX compress v4.0.
71,646PROGLcodice sorgente in Lisp – software di sistema.
49,379PROGPcodice sorgente in Pascal – programma per valutare la compressione PPM.
93,695TRANSASCII e caratteri di controllo – trascrizione di una sessione di terminale.

Ne esiste anche una variante meno utilizzata con 18 file che include 4 file di testo in formato UNIX "troff" aggiuntivi: PAPER3, PAPER4, PAPER5, PAPER6.

  1. (EN) Ian H. Witten, Alistair Moffat, Timothy C. Bell, Managing Gigabytes: Compressing and Indexing Documents and Images, Morgan Kaufmann, 1999, p. 92.

Collegamenti esterni

[modifica | modifica wikitesto]
  Portale Informatica: accedi alle voci di Wikipedia che trattano di Informatica