Web invisibile

Da Wikipedia, l'enciclopedia libera.

Il Web invisibile (conosciuto anche come Web sommerso o deep web) è l'insieme delle risorse informative del World Wide Web non segnalate dai normali motori di ricerca.

Secondo una ricerca sulle dimensioni della rete condotta nel 2000 da Bright Planet[1], un'organizzazione degli Stati Uniti d'America, il Web è costituito da oltre 550 miliardi di documenti mentre Google ne indicizza solo 2 miliardi, ossia meno dell'uno per cento.

Composizione[modifica | modifica sorgente]

I documenti che fanno parte del Web invisibile possono essere suddivisi nelle seguenti categorie:

  • contenuti dinamici: pagine web dinamiche, ovvero pagine Web il cui contenuto viene generato sul momento dal server, che possono essere richiamati solo compilando un form o a risposta di una particolare richiesta;
  • pagine non collegate: pagine Web che non sono collegate a nessun'altra pagina Web. Se l'accesso non è impedito da adeguate impostazioni di sicurezza, il motore indicizza la parent directory del sito, che contiene non solo le pagini visibili, ma tutto ciò che è caricato nel server ospitante;
  • pagine ad accesso ristretto: siti che richiedono una registrazione o comunque limitano l'accesso alle loro pagine impedendo che i motori di ricerca possano accedervi;
  • script: pagine che possono essere raggiunte solo attraverso link realizzati in javascript o in Flash e che quindi richiedono procedure particolari;
  • contenuti non di testo: file multimediali, archivi Usenet, documenti scritti in linguaggio non HTML, in particolare non collegati a tag testuali (tuttavia alcuni motori di ricerca come Google sono in grado di ricercare anche documenti di questo tipo).

Accesso al Web invisibile[modifica | modifica sorgente]

Per accedere al Web invisibile, un utente deve utilizzare specifici programmi. Il programma Tor (The Onion Router) è quello più comunemente utilizzato, ma ci sono molte alternative tra cui I2P e Freenet.

Nel 2008, al fine di facilitare l'accesso degli utenti e l'indicizzazione da parte dei motori di ricerca al Web Invisibile Aaron Swartz ha progettato Tor2web, un proxy software capace di fornire accesso ai Tor Hidden Services attraverso l'uso di comuni browser.[2]

Nel 2001 alcuni volontari hanno incominciato a lavorare su un motore di ricerca per i Tor Hidden Services: Ahmia.fi

I normali motori di ricerca per trovare i contenuti del Web usano dei software, chiamati "crawler", che seguono gli hyperlink. Questa tecnica si rivela inefficace per ritrovare le risorse del Web nascosto. Per esempio i Web-crawler non sono in grado di interrogare un database di una pagina dinamica dato il numero infinito di termini che si potrebbero ricercare.

Per scavare nel Web invisibile si utilizzano Web-crawler che interrogano questi database con alcuni termini forniti dall'utente o facente parti di un proprio database interno oppure procedendo con una ricerca per soggetto come fanno i motori di ricerca focalizzati su un dato argomento. In questo modo, avendo un campo più ristretto, è possibile andare più in fondo interrogando database di pagine dinamiche o ad accesso ristretto altrimenti non raggiungibili.

I motori di ricerca non indicizzano siti a pagamento, alcuni formati come i siti interamente realizzati in Flash, i fogli di calcolo, i video non collegati a tag e i database.

Voci correlate[modifica | modifica sorgente]

Collegamenti esterni[modifica | modifica sorgente]

Web Portale Web: accedi alle voci di Wikipedia che trattano di Web

Note[modifica | modifica sorgente]

  1. ^ BrightPlanet :: Pioneers in Harvesting the Deep Web
  2. ^ Swartz Aaron, In Defense of Anonymity. URL consultato il 4 febbraio 2014.