Archiviazione web: differenze tra le versioni

Naviga nella cronologia in modo interattivo

← Differenza precedente Differenza successiva →

Contenuto cancellato Contenuto aggiunto

In linea

Versione delle 11:47, 17 mag 2019

L'archiviazione web è il processo di raccolta di porzioni del World Wide Web al fine di preservarle in un archivio ad uso di futuri ricercatori, storici e pubblico generico^[1]. A causa dell'enorme quantità di informazioni che si possono trovare sul web, gli archivisti utilizzano dei web crawler per registrare automaticamente le pagine. La più grande organizzazione di archiviazione web, che si basa su un approccio di crawling di massa, è Internet Archive, che cerca di tenere un archivio dell'intero web.

L'International Web Archiving Workshop (IWAW), iniziato nel 2001, ha creato una piattaforma per la condivisione di esperienze e per lo scambio di idee. La successiva fondazione dell'International Internet Preservation Consortium (IIPC), nel 2003, ha facilitato enormemente la collaborazione internazionale nello sviluppo di standard e strumenti open source per la creazione di archivi web. Questi sviluppi, e la crescente porzione di cultura umana che ogni giorno viene creata e registrata sul web, si intrecciano rendendo inevitabile che un numero sempre maggiore di biblioteche e archivi debbano affrontare le sfide dell'archiviazione web^[2]. Le biblioteche statali, gli archivi di stato e varie organizzazioni sono coinvolte nell'archiviazione di contenuti culturalmente rilevanti sul web.

I software e i servizi commerciali di archiviazione web sono fruibili anche dalle organizzazioni private che hanno bisogno di archiviare i propri contenuti web per motivi di registrazione delle attività o per motivi normativi e legali.

Origini

Il logo dell'Open Directory Project

Una delle prime pratiche di archiviazione web era, nei primi anni novanta, la creazione di liste di link professionali (come ad esempio la lista dei gruppi per i diritti umani di Amnesty International o la Yahoo! directory e l'Open Directory Project). In assenza di motori di ricerca questi siti compilavano liste continuamente aggiornate di indirizzi web utili, organizzandoli per categorie di argomento. La richiesta, la valutazione e la categorizzazione di siti web, insieme alla raccolta su larga scala, l'ordinamento manuale e la messa in mostra di siti web, possono essere considerati una forma primordiali di analisi dei siti web. La comparsa dei motori di ricerca algoritmici ha contribuito largamente alla scomparsa di questi metodi manuali.

Raccolta Web

Generalmente gli archivisti web archiviano diversi tipi di contenuti web tra cui pagine web HTML, style sheets, JavaScript, immagini e video. Inoltre gli archivisti raccolgono metadati riguardo alle risorse archiviate come ad esempio l'orario di accesso, il MIME type e la lunghezza del contenuto. Questi metadati sono utili per stabilire l'autenticità, la provenienza e la collocazione cronologica della collezione archivistica.

Metodi di raccolta

Harvesting remoto

Il metodo più comune di archiviazione del web fa uso di web crawlers per rendere automatico il processo di collezione delle pagine web. Tipicamente i crawler accedono ai siti nello stesso modo in cui lo fa un utente per tramite di un browser e ne esplorano i link interni a una profondità determinata dall'archivista, salvando i loro contenuti in un archivio separato dal web "live".

Esempi di web crawlers usati per l'archiviazione comprendono Heritrix, HTTrack, Wget.

Salvataggio diretto da parte degli utenti

Esistono diversi servizi che permettono a chiunque di salvare singole pagine web in archivi già esistenti, per permettere la consultazione futura, facilitare la citazione di pagine web in un formato stabile e in un determinato momento nel tempo o consegnare la pagina ai futuri ricercatori.

Archiviazione su database

L'archiviazione su database si riferisce ai metodi di archiviazione che riguardano il contenuto dei siti che funzionano con i database. Questo tipo di archiviazione richiede la conversione del contenuto del database in uno schema standard, spesso usando XML. Una volta immagazzinati nel formato standard, il contenuto dei diversi database che è stato archiviato può essere quindi reso accessibile attraverso un sistema di accesso singolo. Questo approccio è esemplificato da

Difficoltà e limiti

Leggi

Pagine correlate

Note

^ Pouya Habibzadeh, Decay of References to Web sites in Articles Published in General Medical Journals: Mainstream vs Small Journals, pag. 455–464
^ Gail Truman, Web Archiving Environmental Scan

Bibliografia

(EN) Adrian Brown, Archiving Websites: a practical guide for information management professionals, London, Facet Publishing, 2006, ISBN 978-1-85604-553-7.

(EN) Niels Brügger, Archiving Websites. General Considerations and Strategies, Aarhus, The Centre for Internet Research, 2005, ISBN 978-87-990507-0-3.
(EN) Micheal Day, Preserving the Fabric of Our Lives: A Survey of Web Preservation Initiatives, in Lecture Notes in Computer Science, vol. 2769, Berlin, Heidelberg, Springer, 2003, pp. 461-472, DOI:10.1007/978-3-540-45175-4_42.
(EN) Mathieu Trudel e Gunther Eysenbach, Going, Going, Still There: Using the WebCite Service to Permanently Archive Cited Web Pages, in J Med Internet Res, vol. 7, n. 5, 2005, DOI:10.2196/jmir.7.5.e60.

Collegamenti esterni

Controllo di autorità	J9U (EN, HE) 987007547103805171 · NDL (EN, JA) 00981807

[1] Pouya Habibzadeh, Decay of References to Web sites in Articles Published in General Medical Journals: Mainstream vs Small Journals, pag. 455–464

[2] Gail Truman, Web Archiving Environmental Scan

[1]

[2]

@@ Riga 20: / Riga 20: @@
 === Salvataggio diretto da parte degli utenti ===
-Esistono diversi servizi che permettono a chiunque di salvare singole pagine web in archivi già esistenti, per permettere la consultazione futura, facilitare la citazione di pagine web in un formato stabile e in un determinato momento nel tempo o consegnare la pagina ai futuri ricercatori
+Esistono diversi servizi che permettono a chiunque di salvare singole pagine web in archivi già esistenti, per permettere la consultazione futura, facilitare la citazione di pagine web in un formato stabile e in un determinato momento nel tempo o consegnare la pagina ai futuri ricercatori.
+=== Archiviazione su database ===
+L'archiviazione su database si riferisce ai metodi di archiviazione che riguardano il contenuto dei siti che funzionano con i database. Questo tipo di archiviazione richiede la conversione del contenuto del [[Base di dati|database]] in uno schema standard, spesso usando [[XML]]. Una volta immagazzinati nel formato standard, il contenuto dei diversi database che è stato archiviato può essere quindi reso accessibile attraverso un sistema di accesso singolo. Questo approccio è esemplificato da
 == Difficoltà e limiti ==
@@ Riga 26: / Riga 29: @@
 == Leggi ==
-== Vedi anche ==
+== Pagine correlate ==
+* [[Internet Archive]]
+* [[Crawler]]
+* [[Conservazione digitale]]
+* [[WebCite]]
+* [[Memoria digitale]]
 == Note ==
@@ Riga 34: / Riga 43: @@
 * {{Cita libro|autore=Adrian Brown|titolo=Archiving Websites: a practical guide for information management professionals|data=2006|editore=Facet Publishing|città=London|lingua=Inglese|ISBN=978-1-85604-553-7}}
-* {{Cita libro|autore=Niels Brügger|titolo=Archiving Websites. General Considerations and Strategies|data=2005|editore=The Centre for Internet Research|città=Aarhus|lingua=Inglese|ISBN=978-87-990507-0-3}}<br />
+* {{Cita libro|autore=Niels Brügger|titolo=Archiving Websites. General Considerations and Strategies|data=2005|editore=The Centre for Internet Research|città=Aarhus|lingua=Inglese|ISBN=978-87-990507-0-3}}
+*{{Cita pubblicazione|autore=Micheal Day|data=2003|titolo=Preserving the Fabric of Our Lives: A Survey of Web Preservation Initiatives|rivista=Lecture Notes in Computer Science|editore=Springer|città=Berlin, Heidelberg|volume=2769|pp=461-472|lingua=Inglese|doi=10.1007/978-3-540-45175-4_42}}
+*{{Cita pubblicazione|autore=Mathieu Trudel e Gunther Eysenbach|data=2005|titolo=Going, Going, Still There: Using the WebCite Service to Permanently Archive Cited Web Pages|rivista=J Med Internet Res|volume=7|numero=5|lingua=Inglese|doi=10.2196/jmir.7.5.e60}}<br />
 == Collegamenti esterni ==
+{{Controllo di autorità}}

Archiviazione web: differenze tra le versioni

Versione delle 11:47, 17 mag 2019

Indice

Origini

Raccolta Web

Metodi di raccolta

Harvesting remoto

Salvataggio diretto da parte degli utenti

Archiviazione su database

Difficoltà e limiti

Leggi

Pagine correlate

Note

Bibliografia

Collegamenti esterni

Menu di navigazione

Archiviazione web: differenze tra le versioni

Versione delle 11:47, 17 mag 2019

Origini

Raccolta Web

Metodi di raccolta

Harvesting remoto

Salvataggio diretto da parte degli utenti

Archiviazione su database

Difficoltà e limiti

Leggi

Pagine correlate

Note

Bibliografia

Collegamenti esterni

Menu di navigazione

Ricerca