Utente:Stefano D.Gal/Big data

Da Wikipedia, l'enciclopedia libera.
Vai alla navigazione Vai alla ricerca
Big Data: Una rivoluzione che trasformerà il nostro modo di vivere e già minaccia la nostra libertà
AutoreViktor Mayer- Schönberger, Kenneth Cukier
1ª ed. originale2013
1ª ed. italiana2013
Generesaggio
Sottogenereinformatica - economia - politica
Lingua originaleinglese

''Big Data: Una rivoluzione che trasformerà il nostro modo di vivere e già minaccia la nostra libertà, è un saggio di Viktor Mayer-Schönberger, professore di Internet governance and regulation alla Oxford University, e Kenneth Cukier, data editor presso “The Economist” e membro del “Council on Foreign Relations”. L’opera è stata per prima volta edita in lingua inglese nel 2013 da Houghton Mifflin Hartcourt negli Stati Uniti, e ,nello stesso anno, tradotta e pubblicata in italiano da Garzanti.

Il saggio, di carattere divulgativo e scientifico, analizza il fenomeno emergente dei Big Data, venendo a tracciare un bilancio degli effetti in campo tecnico-scientifico, socio-economico e etico-politico che questi porta con sé.

L’opera è suddivisa in dieci capitoli, ognuno dei quali è incentrato su un particolare tema o problema concernente il mondo dei Big Data.

Big Data: metodologie e potenzialità

[modifica | modifica wikitesto]

I primi capitoli del saggio hanno lo scopo di descrivere il fenomeno nel senso più ampio. Una prima definizione dei Big Data si trova all'inizio dello scritto: "Un significato più moderno - quello che utilizziamo nel libro - è il seguente : l'espressione Big Data designa delle cose che si possono fare su larga scala, per estrapolare nuove indicazioni o creare nuove forme di valore, con modalità che vengono a modificare i mercati, le organizzazioni, le relazioni tra cittadini e governi e altro ancora[1]. "

I Big Data sono pertanto, la rappresentazione dell'attuale capacità tecnica di elaborare e gestire una grande mole di informazioni, e di ricavare , mediante metodi statistici e sofisticati algoritmi, trend e previsioni sul mondo in cui viviamo . Mentre in passato vigeva il criterio della raccolta di piccoli quantitativi di informazione, i c.d. Small Data, ora, in virtù delle nuove tecnologie, è invece possibile guardare alla realtà disponendo di molti più dati. Da un punto di vista scientifico, ciò si traduce in un sacrificio dell'esattezza e dell'accuratezza con cui si era soliti trattare le informazioni. Tuttavia questo difetto metodologico viene compensato dall’ottenimento di un genere di risultati conoscitivi e pragmatici, che gli Small Data non sempre riuscivano a garantire.

La nuova dimensione quantitativa delle informazioni in nostro possesso è espressa con la relazione N = Tutti. L'idea di fondo è che nel tentativo di raccogliere il maggior numero possibile di dati si arrivino ad identificare correlazioni tra eventi, altrimenti difficilmente individuabili. La statistica tradizionale adopera la tecnica del campionamento, l'isolamento da un dato insieme di un minore gruppo di elementi, da cui però si ottengono informazioni rappresentative dell'intero fenomeno analizzato. Nonostante l'efficacia che il metodo ha dimostrato di avere, gli autori ne mettono in risalto l'intrinseca debolezza : "... il campionamento ha un limite noto da sempre, ma che è stato costantemente ignorato: trascura i dettagli. In alcuni casi non si può far altro che utilizzare il campionamento. In molti campi, tuttavia, è in atto un processo evolutivo della raccolta di alcuni dati all'accumulo del maggior quantitativo possibile di essi, e , se possibile, di tutti, tale cioè che N = Tutti...[2] "

Anche il metodo Big Data tendente al N = tutti determina la presenza di un pregiudizio sistemico: la confusione delle informazioni. Il difetto merita tuttavia di essere trascurato, se comparato con il vantaggio complessivo che i Big Data conferiscono a chi li utilizza. L'accuratezza è infatti un criterio euristico da perseguire se il data set a disposizione è quantitativamente ridotto. Dato l'irrisorio numero di informazioni, affinché si ottengano elementi conoscitivi per lo più corrispondenti alla realtà delle cose, è necessario che si proceda secondo alti standard d'esattezza riducendo al minimo il margine d'errore. Al contrario quando il data set è estremamente ampio, nonostante l'alto tasso di caoticità che lo contraddistingue, è possibile in ogni caso riconoscere alcuni preziosi trend generali, che l'osservazione di un semplice campione del totale mai avrebbe potuto mostrare. La confusione informativa rimane comunque un problema transitorio e "non è una caratteristica intrinseca dei Big Data[3]." Lo stesso deriva dalla conformazione attuale dello strumento tecnico adoperato, il quale, se migliorato, porterebbe all'eliminazione del pregiudizio che produce.

Un intero capitolo del saggio è dedicato al concetto di correlazione. Questo viene contrapposto al tradizionale paradigma della causalità, e , secondo l’opinione degli autori, la sua adozione comporta un mutamento di prospettiva nel pensiero scientifico del nostro tempo. La causalità è stata e, tutt'ora tende ad esserlo, la pietra miliare del metodo scientifico e della speculazione umana in genere, essendo noi sempre interessati a cercare il perché delle cose. Tal volta questa mentalità comporta una certa lentezza nella comprensione dei fenomeni e, nella ricerca analitica delle cause, si rischiano di mettere in ombra importanti pezzi di realtà. La correlazione non rileva all'osservatore la ragione dietro un certo evento, tuttavia mostra con chiarezza che un certo evento è in corso e che lo stesso aumenta o diminuisce al variare di un altro. La cosa interessante è che, mancando un indagine sul nesso causale, non vi è alcuna certezza scientifica della connessione tra i due eventi, quindi della connessione tout court. Ciò, in ogni caso, non preclude di poter visionare il fenomeno nel suo sviluppo e, se del caso, prendere i provvedimenti che si ritengano opportuni. Più volte nel saggio viene fatto riferimento, al fine di corroborare la tesi dell'utilità dei Big Data , della partecipazione attiva di Google all'arginamento dell'epidemia del virus influenzale H1N1 che colpì gli Stati Uniti nel 2009. Google, per l'occasione, prese ad esame 50 milioni di parole chiavi digitate dagli americani e poi isolato un gruppo che presentava delle correlazioni con i dati ufficiali di diffusione della malattia. Quanto rilevato dalla grande compagnia americana ha effettivamente aiutato le autorità sanitarie nel loro compito, come d'altronde viene riportato nell'opera: "...quando è scoppiata l'epidemia di H1N1, il sistema previsionale di Google si è rivelato un indicatore più utile e tempestivo delle statistiche governative, strutturalmente in ritardo rispetto al dato reale e ha fornito informazioni preziosissime alle autorità sanitarie. [4]"

Il capitolo, nel suo insieme, sembra esprimere un favor per le correlazioni, sopra tutto nei termini della loro efficienza. Tuttavia, come i due studiosi sottolineano, non sono i Big Data la fine dell'indagine causale. Le correlazioni possono infatti indicare presunte connessioni tra fenomeni, meritevoli, in un secondo momento, di essere investigate scientificamente.

Misura e "datizzazione" del mondo

[modifica | modifica wikitesto]

La quinta parte dell'opera concerne la datizzazione, ricalco dall'inglese datification. Quello che i due autori chiamano con il nome di datizzazione è il processo per il quale la realtà viene quantificata e resa in dati , ovvero in informazioni da cui l'uomo può potenzialmente trarre un vantaggio conoscitivo o pratico. Non va confuso il concetto di datizzazione con quello di digitalizzazione. Con quest'ultimo s'intende esclusivamente la tecnica per cui del materiale analogico viene trasformato in digitale, quindi tradotto in linguaggio binario e trasferito su un supporto che lo rende comprensibile e processabile da un computer.

La datizzazione non è un fenomeno recente, se intesa come capacità di misurare il mondo. La scrittura e gli strumenti di calcoli più antichi, come il pallottoliere, sono considerabili mezzi attraverso cui l'uomo ha iniziato a estrapolare dal suo ambiente informazioni, di cui poi si sarebbe potuto servire nei vari ambiti della vita. Questa tendenza umana alla misurazione della realtà trova ha la sua piena fioritura in epoca moderna e nella rivoluzione scientifica. Oggi la capacità di trasformare ciò che facciamo e vediamo in dati ha raggiunto il parossismo. Basti pensare ad aziende come Twitter e Facebook, le quali fanno dei post elementi per decifrare i nostri sentimenti e individuare trend comportamentali.

Al riguardo, la tesi degli autori intende far luce sul valore latente dei dati: proprio perché oggi abbiamo la possibilità tecnica di datizzare tutto ciò che ci circonda, è consigliabile adottare la prospettiva che informazioni ritenute superflue, possano invece contenere un potenziale ancora inespresso. Come esempio casistico, teso a provare quanto affermato, viene riportato nello scritto la storia dell'ufficiale della marina militare statunitense Matthew Fontaine Maury (1806-1873), divenuto poi uno dei più celebri meteorologi e oceanografi al mondo. Maury, a causa di un infortunio, viene destinato ad un ufficio tecnico . Qui ha però l'opportunità di visionare una grande mole di materiale cartaceo. Sono tutti documenti, come giornali di bordo o vecchie cartine, che venivano considerati inutili. Maury è tuttavia capace di trasformare quella massa informe di annotazioni marinaresche in un ordinato insieme di utilissime informazioni, di cui poi si servirà per disegnare le mappe oceanografiche che per anni aiuteranno i marinai nella navigazione. L'idea degli autori è che, come in quelle carte vi fosse un valore non sfruttato, così il nostro mondo, in termini informativi, ha ancora molto da esprimere .

Il valore economico dei dati

[modifica | modifica wikitesto]

I capitoli successivi descrivono l'effettivo sistema nato intorno all'uso dei Big Data. L'utilizzo dei Big Data si è attestato per lo più ad un livello economico e di mercato, anche se intelligenti usi delle informazioni si sono avuti nel settore sanitario. La base argomentativa del capitolo trova espressione nella constatazione che attualmente i dati hanno smesso di avere una semplice utilità strumentale, per acquisire un valore intrinseco e spesso indipendente dagli altri beni materiali. Se i dati un tempo fungevano da supporto alla transazione commerciale, oggi "sono diventati essi stessi oggetto delle transazioni.[5]".

Imprese come Amazon, Google, Microsoft, Farecast, sono all'avanguardia nello sfruttamento dei Big Data. Amazon elabora le informazioni sugli acquisti dei suoi clienti per comprendere le loro preferenze e suggerire i prodotti che li potrebbero interessare. Google registra la maggior parte delle queries degli utenti per rendersi sempre più efficiente come motore di ricerca. Farecast fa uso di un ingente mole di dati per prevedere l'andamento dei prezzi dei biglietti degli aerei di linea.

I due studiosi hanno individuato tre usi principali che si possono fare dei dati: il riutilizzo; la combinazione di diversi Data Set; l'estensione dello scopo dei dati. Il primo tipo consiste nella conservazione delle informazioni oltre il loro primo sfruttamento, avendo a mente la possibilità che le stesse possano essere adoperato secondo nuove modalità. Il secondo tipo si ha quando vengono accorpati tra loro più Data Set, anche se di diversa natura, con l'intento di estrapolare forme di valore o informazioni, che quei Data Set presi singolarmente non potevano esprimere. Il terzo tipo prevede l'estensione dell'uso di un insieme di dati per un ordine di finalità diverso da quello per cui quel peculiare Data Set era stato inizialmente concepito. Tale scenario di applicazioni è stato definito nel saggio come "valore opzionale dei dati[6]", proprio per sottolineare che l'effettivo valore delle informazioni risiede nella qualità delle scelte degli utilizzatori.

Gli autori descrivono poi l'esistenza di una "catena del valore dei dati[7]", lungo la quale, a seconda della posizione di cui gode un impresa, essa avrà maggiore o minore forza nel mercato delle informazioni. In primo luogo, un impresa può essere in possesso dei dati o vi può facilmente accedere. In secondo luogo, vi sono quei soggetti che detengono le competenze necessarie per interagire con i Big Data. Infine si situano tutti coloro che esprimono un forte "orientamento culturale ai Big Data[8]", in cui lo sfruttamento commerciale delle informazioni è di tipo creativo e non fondato su conoscenze tecniche. In ultima istanza è da considerarsi la detenzione delle informazioni l'elemento che assumerà il più alto valore. Sia le competenze che la creatività tendono nel tempo a svalutarsi e di conseguenza ciò che importerà sarà il dominio esclusivo su una massa di dati. Gli individui, d'altronde, sono destinati al raggiungimento di una posizione di forza nelle dinamiche dei flussi di dati, essendo essi solo i legittimi proprietari delle informazioni.

I Big Data e le problematiche etico-politiche

[modifica | modifica wikitesto]

Gli ultimi capitoli del saggio sono dedicati alla valutazione delle implicazioni negative sulla vita privata dei cittadini che i Big Data sono suscettibili di determinare, chiudendo così il bilancio complessivo del fenomeno come attualmente si va manifestando. La parte finale dell'opera, in particolare, contiene invece le ipotetiche contromisure adottabili per prevenire l'eventuale applicazione distorta e perversa dei Big Data.

La privacy è il principale bene umano messo in crisi dai flussi di dati. Migliaia di nostre informazioni, anche se non sempre di carattere strettamente personale, sono oggi in possesso e adoperate da imprese e governi. Giuridicamente vige il principio del consenso informato: l'utilizzazione di ogni informazione su di una persona necessita della sua approvazione. Ciò nonostante le recenti pieghe che il fenomeno dei Big Data ha assunto, spesso rendono superfluo e poco utile questo approccio legale. Non è logicamente plausibile, infatti, chiedere il permesso della persona circa un uso futuro di cui non si sanno ancora le modalità e, come gli autori rimarcano, "un autorizzazione così generale vanifica il concetto stesso di consenso informato[9]." Inoltre tutte le tecniche di anonimizzazione usate in passato per rendere impossibile riconoscere dal dato l'individuo a cui appartiene sono oggi divenute inefficaci. L'enorme quantità e varietà di informazioni permettono in ogni modo di collegare un gruppo di dati alla persona che li ha generati, anche se questi erano stati precauzionalmente depurati dagli elementi ritenuti identificativi, come l'indirizzo IP di provenienza.

Seconda problematica individuata nell'opera è quella della limitazione della libertà umana attraverso " l'utilizzo delle previsioni per giudicarci[10]. Mediante tutta una serie di fattori che si vanno oggi elaborando, è molto probabile che un giorno non troppo lontano le società saranno capaci, mediante modelli statistici e algoritmici, di individuare con anticipo il corso degli eventi che una persona intraprenderebbe (già oggi negli Stati Uniti queste tecniche previsionali sono usate dalla giuria per decidere sulle istanze di libertà vigilata[11]). Un tale sistema non sarebbe adoperabile solo a fini preventivi dei reati, ma lo stesso potrebbe portare a "stabilire se qualcuno è colpevole e andrebbe punito per un comportamento che non è stato ancora messo in atto.[12]". Ciò si porrebbe in palese contrasto con principi cardini delle costituzioni, come la presunzione d'innocenza. Più nello specifico verrebbe poi ad essere minato lo stesso concetto del libero arbitrio umano. Arrestare un soggetto preventivamente, perché delle previsioni matematiche affermano quasi con certezza che compirà un crimine, significa in ultima istanza privare l'uomo della sua facoltà di scelta. Verrebbe infatti dato per scontato il fatto che una persona tenderà sempre a scegliere un determinato corso d'azione, esentandosi dal verificare se quella scelta sarebbe stata poi effettivamente compiuta. Inoltre, il sistema previsionale si estenderebbe oltre la giustizia penale, e le parole dei due studiosi ben hanno colto questo punto :"... Non è solo una questione di ordine pubblico... C'è dentro di tutto, dalla decisione di un'azienda di licenziare un dipendente, alla decisione di un medico di negare l'operazione a un paziente, alla decisione di un marito o di una moglie di chiedere il divorzio.[13]".

Le proposte dei due studiosi per il fine di controllare il "lato oscuro" dei Big Data sono tre. La prima prevede l'implementazione della tutela della privacy attraverso il superamento parziale del consenso informato e la responsabilizzazione degli utilizzatori. Necessario a tal fine è l'istituzione di principi e regole fondamentali per la gestione e l'uso dei Big Data, che vincolino preventivamente gli utilizzatori e li rendano responsabili di eventuali violazioni. Limiti quindi entro cui questi dovranno muoversi nel trattamento dei dati sensibili, i quali dovranno però essere pensati per modificarsi nel tempo e nello spazio. Ad esempio, tutta una serie di informazioni personali potranno essere sfruttate fino ad un certo punto, oltrepassato il quale verrà immediatamente predisposta la loro cancellazione. Le imprese saranno esentate dal chiedere per ogni riutilizzo di dati l'approvazione delle persone, tuttavia usi impropri e lesivi delle informazioni verrebbero puniti a norma di legge.

La seconda proposta riguarda la tutela della libertà umana e la preservazione della giustizia come oggi conosciuta. I modelli algoritmici e statistici di previsione dovranno essere trasparenti, ovvero visionabili dai diretti interessati; certificabili, nel senso che la loro affidabilità deve poter essere vagliata da un soggetto terzo e imparziale; confutabili, cioè contestabili in sede giudiziaria. Tutta questa serie di operazioni richiedono esperti ed ,infatti, la terza ed ultima proposta consiste nella creazione di nuove figure professionali, gli algoritmisti, dotati della competenza necessaria a valutare la validità e funzionalità di un modello previsionale. Nella mente dei due autori, gli algoritmisti assumeranno il ruolo di consulenti sia per le istituzioni pubbliche che per il mondo delle imprese. In particolare due categorie di algoritmisti: una esterna, che offre la sua competenza allo stato, una interna, che lavora per le aziende con il compito però di curare anche gli interessi di coloro le cui informazioni vengono usate per fini commerciali. Da un punto di vista etico la predisposizione di un codice di condotta si presenta indispensabile: "L'imparzialità, la riservatezza, la competenza e la professionalità verranno assicurate attraverso regole deontologiche molto severe: se non le rispetteranno potranno essere citati in giudizio[14]."

Come nel caso di altri beni il mercato deve rimanere competitivo, per mezzo dell'istituzione di presidi antitrust per il contrasto alla formazione di monopoli commerciali. Tuttavia un " <<diritto di esclusiva>> ben formulato e ben calibrato per i dati[15]" potrebbe apportare benefici alla collettività.

Destino dell'uomo e previsione del futuro

[modifica | modifica wikitesto]

L'opera si chiude con una breve digressione sul futuro. I Big Data e la loro potenza previsionale sono suscettibili di modificare il rapporto dell'umanità con il suo destino. Molte problematiche che oggi viviamo, come il cambiamento climatico, potrebbero essere risolte mediante la buona applicazione dell'enorme mole di informazioni in nostro possesso[16]. L'uomo sperimenterà per la prima volta nella storia la capacità di rendere più chiaro e prevedibile il corso degli eventi che gli è dinanzi. Ciò tuttavia non si traduce in un idea di mondo predeterminato, "preordinato, perché possiamo sempre reagire alle informazioni che riceviamo.[17]". Nell'idea dei due autori, l'umanità lungi dal farsi spaventare da questa capacità di conoscere il "probabile", deve invece avere la forza e la lungimiranza di organizzarsi in vista di quanto previsto. In ogni caso le previsioni non potranno mai essere perfette, dato che le "informazioni che siamo in grado di raccogliere e processare saranno sempre una frazione infinitesimale di quelle che esistono nel mondo.[18]" L'intuito e la creatività verranno poi a giocare un ruolo importante all'interno di un sistema umano dove molte decisioni sono prese sulla base di una razionalità matematica e statistica. Sarà proprio la fiducia dell'uomo nelle idee e nelle azioni non corroborate dalle previsioni e dai dati, a costituire la sua più grande risorsa: " Il più grande apporto degli esseri umani sta proprio in quello che gli algoritmi e i chip di silicio non rivelano e che non possono rivelare perché non è incapsulato nei dati. Non <<ciò che è>>, ma <<ciò che non è>>: lo spazio vuoto, le crepe che si formano nel marciapiede, il non detto e il non (ancora) pensato.[19]"

  1. ^ Viktor Mayer- Schönberger, Kennieth Cukier, Big Data: Una rivoluzione che trasformerà il nostro modo di vivere e già minaccia la nostra libertà, p. 16
  2. ^ Viktor Mayer- Schönberger, Kenneth Cukier, op. cit. , p. 43
  3. ^ Viktor Mayer- Schönberger, Kenneth Cukier, op. cit. , p. 62
  4. ^ Viktor Mayer- Schönberger, Kenneth Cukier, op. cit. , p. 11
  5. ^ Viktor Mayer- Schönberger, Kenneth Cukier, op. cit. , p. 137
  6. ^ Viktor Mayer- Schönberger, Kenneth Cukier, op. cit. , p. 143
  7. ^ Viktor Mayer- Schönberger, Kenneth Cukier, op. cit. , p. 170
  8. ^ Viktor Mayer- Schönberger, Kenneth Cukier, op. cit. , p. 169
  9. ^ Viktor Mayer- Schönberger, Kenneth Cukier, op. cit. p. 208
  10. ^ Viktor Mayer- Schönberger, Kenneth Cukier, op. cit. p. 212
  11. ^ Viktor Mayer- Schönberger, Kenneth Cukier, op. cit. p. 213
  12. ^ Viktor Mayer- Schönberger, Kenneth Cukier, op. cit. p. 217
  13. ^ Viktor Mayer- Schönberger, Kenneth Cukier, op. cit. p. 219
  14. ^ Viktor Mayer- Schönberger, Kenneth Cukier, op. cit. p. 245
  15. ^ Viktor Mayer- Schönberger, Kenneth Cukier, op. cit. p. 247
  16. ^ Viktor Mayer- Schönberger, Kenneth Cukier, op. cit. p. 262
  17. ^ Viktor Mayer- Schönberger, Kenneth Cukier, op. cit. p. 264
  18. ^ Viktor Mayer- Schönberger, Kenneth Cukier, op. cit., p. 267
  19. ^ Viktor Mayer- Schönberger, Kenneth Cukier, op. cit., p. 266