Archiviazione web

Da Wikipedia, l'enciclopedia libera.
Vai alla navigazione Vai alla ricerca

L'archiviazione web è il processo di raccolta di porzioni del World Wide Web al fine di preservarle in un archivio a uso di futuri ricercatori, storici e pubblico generico[1]. A causa dell'enorme quantità di informazioni che si possono trovare sul web, gli archivisti utilizzano in molti casi dei web crawler per registrare automaticamente le pagine. La più grande organizzazione di archiviazione web, che si basa su un approccio di crawling di massa, è Internet Archive, che, con la sua Wayback Machine, aspira a tenere un archivio dell'intero web.

Il logo della Wayback Machine di Internet Archive

Una delle prime pratiche di archiviazione web era, nei primi anni novanta, la creazione di liste di link professionali (come ad esempio la lista dei gruppi per i diritti umani di Amnesty International o la Yahoo! directory e l'Open Directory Project). In assenza di motori di ricerca questi siti compilavano liste continuamente aggiornate di indirizzi web utili, organizzandoli per categorie di argomento. La richiesta, la valutazione e la categorizzazione di siti web, insieme alla raccolta su larga scala, l'ordinamento manuale e la messa in mostra di siti web, possono essere considerati una forma primordiale di analisi dei siti web. La comparsa dei motori di ricerca algoritmici ha contribuito alla scomparsa quasi completa di questi metodi manuali.

L'International Web Archiving Workshop (IWAW), iniziato nel 2001, ha creato una piattaforma per la condivisione di esperienze e per lo scambio di idee. La successiva fondazione dell'International Internet Preservation Consortium (IIPC), nel 2003, ha facilitato enormemente la collaborazione internazionale nello sviluppo di standard e strumenti open source per la creazione di archivi web. Questi sviluppi, e la crescente porzione di cultura umana che ogni giorno viene creata e registrata sul web, si intrecciano rendendo inevitabile che un numero sempre maggiore di biblioteche e archivi debbano affrontare le sfide dell'archiviazione web. Le biblioteche statali, gli archivi di stato e varie organizzazioni sono coinvolte nell'archiviazione di contenuti culturalmente rilevanti sul web.[2][3]

I software e i servizi commerciali di archiviazione web sono oggi fruibili anche dalle organizzazioni private che hanno bisogno di archiviare i propri contenuti web per motivi di registrazione delle attività o per motivi normativi e legali. Archive-it, un servizio a pagamento offerto da Internet Archive, permette per esempio a privati e istituzioni il salvataggio di interi siti e collezioni di siti.[4]

Metodi di raccolta

[modifica | modifica wikitesto]

Generalmente gli archivisti web archiviano diversi tipi di contenuti web tra cui pagine web HTML, style sheets, JavaScript, immagini e video. Inoltre gli archivisti raccolgono metadati riguardo alle risorse archiviate come ad esempio l'orario di accesso, il MIME type e la lunghezza del contenuto. Questi metadati sono utili per stabilire l'autenticità, la provenienza e la collocazione cronologica della collezione archivistica.[2]

Harvesting remoto

[modifica | modifica wikitesto]

Il metodo più comune di archiviazione del web fa uso di web crawler per rendere automatico il processo di collezione delle pagine web. Tipicamente i crawler accedono ai siti nello stesso modo in cui lo fa un utente per tramite di un browser e ne esplorano i link interni a una profondità determinata dall'archivista, salvando i loro contenuti in un archivio separato dal web "live".

Esempi di web crawler usati per l'archiviazione comprendono Heritrix, HTTrack, Wget.

Archiviazione di database

[modifica | modifica wikitesto]

L'archiviazione su database si riferisce ai metodi di archiviazione che riguardano siti basati su database. Questo tipo di archiviazione richiede la conversione del contenuto della base dati in uno schema standard, spesso usando XML. Una volta immagazzinati nel formato standard, il contenuto dei diversi database che è stato archiviato può essere quindi reso accessibile attraverso un sistema di accesso singolo. Questo approccio è esemplificato dagli strumenti DeepArc e Xinq sviluppati rispettivamente dalla Bibliotèque Nationale de France e dalla National Library of Australia. DeepArc permette di mappare la struttura di un database relazionale in uno schema XML e di esportare i suoi contenuti in un documento XML.[5] Xinq permette di pubblicare il contenuto così ottenuto online.[6]

Archiviazione transazionale

[modifica | modifica wikitesto]

L'archiviazione transazionale registra lo scambio di dati tra un web server e un web browser. Questo approccio è perlopiù usato per registrare nel dettaglio ciò che è effettivamente visto da un utente in un determinato momento e in un determinato sito internet. Il software di registrazione generalmente intercetta ogni richiesta HTTP e ogni risposta dal server, filtrando ogni risposta per eliminare i duplicati.

Salvataggio diretto da parte degli utenti

[modifica | modifica wikitesto]

Esistono diversi servizi che permettono a chiunque di salvare singole pagine web in archivi già esistenti, per permettere la consultazione futura, facilitare la citazione di pagine web in un formato stabile e in un determinato momento nel tempo o consegnare la pagina ai futuri ricercatori. Il servizio probabilmente più diffuso è quello offerto dalla Wayback Machine di Internet Archive,[7] ma esistono alternative quali WebCite (pensato appositamente per la citazione di pagine web da parte di accademici)[8] e Archive.is.[9]

Archiviazione dei periodici

[modifica | modifica wikitesto]

Fino agli anni '90, prima dell'affermazione di Internet, le biblioteche pubbliche comunali e universitarie conservavano una collezione aggiornata di tutti i numeri di una o più testate giornalistiche a diffusione nazionale o locale.

A seguito della diffusione dei quotidiani online gli archivi cartacei sono stati progressivamente sostituiti da quelli digitali o digitalizzati, che forniscono anche l'evidenza della copia cartacea pubblicata ed effettivamente distribuita.
Alcune riviste condividono gratuitamente tutto il loro archivio storico, mentre altre rendono liberamente consultabili solamente una selezione di articoli, in base alla data di pubblicazione, all'autore o a un determinato soggetto tematico.

I periodici si avvalgono di uno o più dei metodi precedentemente descritti: archiviazione automatica in un sito dedicato, separazione del database relazionale dal software di accesso, filtro e personalizzazione delle transazioni (cosiddetta "archiviazione transazionale").

Delpher.nl[10] ed E-periodica.ch[11] sono gli archivi gratuiti e digitalizzati dei periodici in lingua olandese e pubblicati in Svizzera.

Difficoltà e limiti

[modifica | modifica wikitesto]

Limiti tecnici

[modifica | modifica wikitesto]

Alcuni server web sono configurati in modo da ritornare diverse pagine alle richieste dell'archivista web piuttosto che come se stessero rispondendo alle richieste di un browser[12]. Solitamente questo viene fatto per ingannare i motori di ricerca indirizzando un maggiore numero traffico di utenti verso un sito web. Ciò è fatto spesso per evitare responsabilità o per dare contenuti avanzati solo a quei browser che possono mostrarli. In molti casi i gestori di siti web possono impedire l'accesso ai crawler e richiedere la cancellazione del materiale già archiviato attraverso dei file robot.txt. Il deep web e tutto il materiale protetto da login (come ad esempio buona parte dei post su social network) sono perlopiù esclusi dalla raccolta automatica.[13]

La velocità con la quale il web evolve fa sì che sia molto difficile archiviare un sito esattamente come è: nel caso di raccolte ampie è probabile che i siti siano mutati prima ancora che il crawl sia terminato. Elementi quali immagini e banner possono essere esclusi dalla raccolta (o registrati in un momento successivo) in quanto contenuto dinamico che è solo riprodotto dalla pagina ma non fa parte del suo codice HTML.[2]

Limiti legali

[modifica | modifica wikitesto]

Gli archivisti web non devono aver a che fare solo con le sfide dell'archiviazione web, ma devono anche confrontarsi con le leggi di proprietà intellettuale. Peter Lyman sostiene per esempio che "benché il web sia popolarmente ritenuta una risorsa di pubblico dominio, esso è protetto da copyright; dunque, gli archivisti non hanno alcun diritto legale di copiare il web".[14] Nonostante ciò, in molti paesi le biblioteche nazionali hanno la possibilità legale di copiare parti del web grazie a un'estensione delle leggi sul deposito legale.[2]

  1. ^ Pouya Habibzadeh, Decay of References to Web sites in Articles Published in General Medical Journals: Mainstream vs Small Journals, pag. 455–464.
  2. ^ a b c d (FR) Francesca Musiani, Camille Paloque-Bergès, Valérie Schafer e Benjamin G. Thierry, Qu’est-ce qu’une archive du web ?, Open Edition Press, 2019, DOI:10.4000/books.oep.8713, ISBN 979-10-365-0470-9, OCLC 1089196793. URL consultato il 26 maggio 2019 (archiviato il 31 marzo 2019).
  3. ^ (EN) Miguel Costa, Daniel Gomes e Mário J. Silva, The evolution of web archiving, in International Journal on Digital Libraries, vol. 18, n. 3, 2017-9, pp. 191–205, DOI:10.1007/s00799-016-0171-9. URL consultato il 26 maggio 2019.
  4. ^ Archive-It - Web Archiving Services for Libraries and Archives, su archive-it.org. URL consultato il 26 maggio 2019 (archiviato dall'url originale l'11 aprile 2019).
  5. ^ (EN) DeepArc, su deeparc.sourceforge.net, 2005. URL consultato il 26 maggio 2019 (archiviato il 20 maggio 2018).
  6. ^ Xinq Search and Browse tool Xinq [Xml INQuiry] Search and browse tool for accessing an XML database, su nla.gov.au. URL consultato il 26 maggio 2019 (archiviato dall'url originale il 4 gennaio 2012).
  7. ^ Internet Archive: Wayback Machine, su archive.org. URL consultato il 26 maggio 2019 (archiviato il 3 gennaio 2014).
  8. ^ (EN) WebCite, su webcitation.org. URL consultato il 26 maggio 2019 (archiviato dall'url originale il 13 maggio 2019).
  9. ^ (EN) archive.is, su archive.is. URL consultato il 26 maggio 2019 (archiviato il 13 novembre 2015).
  10. ^ Pagina di ricerca di Delpher.nl, su delpher.nl.
  11. ^ (ITFRDE) E-periodica-ch: condizioni d'uso, su e-periodica.ch. URL consultato il 21 maggio 2020 (archiviato dall'url originale il 30 aprile 2020).
  12. ^ Parham Habibzadeh, Are current archiving systems reliable enough?.
  13. ^ Web archiving | Conservazione Digitale, su conservazionedigitale.org. URL consultato il 26 maggio 2019 (archiviato il 17 aprile 2019).
  14. ^ (EN) Peter Lyman, Archiving the World Wide Web • CLIR, su CLIR. URL consultato il 26 maggio 2019 (archiviato il 22 aprile 2019).

Voci correlate

[modifica | modifica wikitesto]
Controllo di autoritàJ9U (ENHE987007547103805171 · NDL (ENJA00981807