Indicizzazione (motori di ricerca)

Da Wikipedia, l'enciclopedia libera.
Jump to navigation Jump to search

Per indicizzazione si intende l'inserimento di un sito web o un blog nel database di un motore di ricerca. L'indicizzazione di un sito internet, in altre parole, è il modo in cui il sito viene acquisito e interpretato dai motori di ricerca e quindi compare nelle loro pagine di risposta alle interrogazioni degli utenti web.

Diversa cosa è il posizionamento, che è invece un'azione volta a determinare che un sito compaia in una specifica posizione nelle pagine di risposta dei motori (cioè nelle prime posizioni).

Operazioni dei motori di ricerca[modifica | modifica wikitesto]

Registrazione dei siti[modifica | modifica wikitesto]

Magnifying glass icon mgx2.svgLo stesso argomento in dettaglio: Protocollo di esclusione robot.

Dal lato dei motori di ricerca, l'indicizzazione dei siti web/blog è la loro prima e fondamentale operazione. In realtà questa fase è preceduta dalla scansione delle pagine web pubbliche, che avviene periodicamente (e in automatico) da parte dei principali motori, a patto che le pagine rispettino determinati requisiti di progettazione web e di qualità. Successivamente potrà avvenire la fase di posizionamento, che è quella di cui si occupano gli esperti di Ottimizzazione. L'indicizzazione è solo una delle tre fasi necessarie (scansione per trovare contenuti web, indicizzazione per assimilarli e posizionamento per stabilire come e dove siano ricercabili), tutte e tre ben distinte tra di loro, ed è importante non fare confusione nel considerarle. Ad esempio, l'indicizzazione è solo la parte necessaria perché le pagine del sito siano visibili sui motori, ma non è solitamente sufficiente perché il sito sia reperibile una ricerca arbitraria.[1]

Dopo averli registrati, i motori di ricerca scansionano periodicamente i siti presenti nei propri archivi per verificare eventuali aggiornamenti: tramite particolari programmi chiamati spider (letteralmente "ragni", nel senso che essi attraversano la "ragnatela" di collegamenti con cui si raffigura simbolicamente il web), entrano in un sito e ne incominciano a leggere il markup HTML, alla ricerca di eventuali modifiche del contenuto o della struttura. Quando uno spider trova un link a un'altra pagina del sito o ad un altro sito, analizza anche quest'ultimo di conseguenza.

Quando il motore di ricerca termina la lunga operazione di scansione dei siti già presenti in archivio comincia a scansionare tutti i siti proposti dai webmaster tramite il servizio add url (segnala un sito) che si trova in tutti i motori di ricerca. Questo sistema è oramai obsoleto: è preferibile fare uso di strumenti più moderni per monitorare il proprio sito, come ad esempio la Search Console di Google.[2]

Il sito non viene indicizzato, totalmente o in parte, se nel markup HTML sono presenti istruzioni come <meta name="robots" content="noindex">, oppure, in caso di foto, <meta name="robots" content="noimageindex">; se invece non è specificato nulla a riguardo, viene indicizzato l'intero contenuto della pagina Web.
Ad eccezione dei meta tag ROBOTS, i metadati HTML hanno un'utilità minima per il posizionamento dei siti nei motori di ricerca, che si basano "sul testo contenuto nella pagina stessa, sulla popolarità del sito web e su diversi altri parametri"[3].

Classificazione dei siti[modifica | modifica wikitesto]

Dopo aver scansionato la rete e quindi indicizzato (nel senso di raggruppato) una grandissima mole di pagine web, il motore di ricerca passa alla seconda fase: classificarle e posizionarle in base a delle parole chiave che rispecchino il più possibile il sito. In questo modo i motori di ricerca, tramite particolari algoritmi, assicurano ai loro utenti contenuti validi e aggiornati. Ogni motore utilizza algoritmi particolari, come il PageRank di Google, che attribuisce ad una pagina un'importanza che dipende dal numero di collegamenti che puntano a tale pagina dagli altri siti internet.

Ultimamente i motori di ricerca tendono a penalizzare, ma non sempre, l'uso di segnalazioni/indicizzazioni automatiche tramite software.

Indicizzazioni ripetute della stessa pagina vengono considerate spam.

I tempi di indicizzazione di un sito internet possono variare da poche settimane ai tre mesi.

Diritto italiano[modifica | modifica wikitesto]

Una sentenza del Tribunale di Roma emessa il 23 marzo 2011, ha condannato un motore di ricerca per aver pubblicato link a siti web peer-to-peer che consentono lo streaming di film coperti da copyright.[4]

Note[modifica | modifica wikitesto]

  1. ^ Salvatore Capolupo, Come indicizzare un sito, seo.salvatorecapolupo.it, 24 aprile 2018. URL consultato il 02-06-2018.
  2. ^ Google, Google Search Console, Google.it, 24 aprile 2018. URL consultato il 02-06-2018.
  3. ^ I meta tag. A cosa servono, quando e come usarli., su motoricerca.info. URL consultato il 17 Ottobre 2018.
  4. ^ Marcello Tansini, Condanna Yahoo contro film in streaming e download illegali, BusinessOnline.it, 24 marzo 2011. URL consultato il 26-11-2012.

Voci correlate[modifica | modifica wikitesto]