Web scraping

Da Wikipedia, l'enciclopedia libera.

Il web scraping (detto anche web harvesting o web data extraction) è una tecnica informatica di estrazione di dati da un sito web per mezzo di programmi software. Di solito, tali programmi simulano la navigazione umana nel World Wide Web attraverso l'implementazione di basso livello dell'Hypertext Transfer Protocol (HTTP) o l'incorporamento di un vero e proprio browser, come Internet Explorer o Mozilla Firefox.[1]

Il web scraping è strettamente correlato all'indicizzazione dei siti Internet; tale tecnica è attuata mediante l'uso di bot dalla maggior parte dei motori di ricerca. D'altro canto, il web scraping si concentra di più sulla trasformazione di dati non strutturati presenti in Rete, di solito in formato HTML, in metadati che possono essere memorizzati e analizzati in locale in un database. Il web harvesting è altresì affine alla web automation, che consiste nella simulazione della navigazione umana in Rete attraverso l'uso di software per computer.
Il web scraping si può usare per confrontare prezzi online, monitorare dati meteorologici, rilevare modifiche in un sito internet, nella ricerca scientifica, per il web mashup e il web data integration.

Tecniche[modifica | modifica sorgente]

Questioni legali[modifica | modifica sorgente]

Strumenti principali[modifica | modifica sorgente]

Note[modifica | modifica sorgente]

  1. ^ (EN) Web Scraping (su webopedia.com). URL consultato il 17 dicembre 2012 (archiviato il 17 dicembre 2012).

Bibliografia[modifica | modifica sorgente]

  • (EN) Schrenk, Michael, Webbots, Spiders, and Screen Scrapers, San Francisco, No Starch Press, 2007, pp. 306. ISBN 9781593271206
  • (EN) Turland, Matthew, PHP-Architect's Guide to Web Scraping, North York, Marco Tabini & Associates, 2010, pp. 192. ISBN 9780981034515

Voci correlate[modifica | modifica sorgente]

Collegamenti esterni[modifica | modifica sorgente]