Big data: differenze tra le versioni

Da Wikipedia, l'enciclopedia libera.
Vai alla navigazione Vai alla ricerca
Contenuto cancellato Contenuto aggiunto
→‎Definizione e caratteristiche: Connessione con Legge di Moore
→‎Descrizione: Aggiunte referenze
Riga 31: Riga 31:
* complessità: maggiore è la dimensione del dataset, maggiore è la complessità dei dati da gestire.}}<ref>{{Cita web |url = http://www.assoknowledge.org/knowledge-tank/big-data |titolo = Big Data
* complessità: maggiore è la dimensione del dataset, maggiore è la complessità dei dati da gestire.}}<ref>{{Cita web |url = http://www.assoknowledge.org/knowledge-tank/big-data |titolo = Big Data
|editore = ASSOKNOWLEDGE Confindustria Servizi Innovativi e Tecnologici |accesso = 9 giugno 2018|urlarchivio = https://web.archive.org/web/20180609094632/http://www.assoknowledge.org/knowledge-tank/big-data|dataarchivio=9 giugno 2018|urlmorto=no}}</ref><ref>{{Cita web |url = https://www.logisticaefficiente.it/wiki-logistica/supply-chain/big-data.html |titolo = BIG DATA |editore = LogisticaEfficiente.it |accesso = 9 giugno 2018 |urlarchivio = https://web.archive.org/web/20180609094945/https://www.logisticaefficiente.it/wiki-logistica/supply-chain/big-data.html |dataarchivio = 9 giugno 2018 |urlmorto =no}}</ref><ref>{{Cita web |url = http://www.multimac.it/soluzioni_scheda_ita.php/nomeProdotto=Big_Data/idcat=3/idsottocat=154/idprodotto=1223 |titolo = Big Data |editore = multimac.it |accesso = 9 giugno 2018 |urlarchivio = https://web.archive.org/web/20180609101129/http://www.multimac.it/soluzioni_scheda_ita.php/nomeProdotto=Big_Data/idcat=3/idsottocat=154/idprodotto=1223 |dataarchivio = 9 giugno 2018 |urlmorto = no }}</ref>
|editore = ASSOKNOWLEDGE Confindustria Servizi Innovativi e Tecnologici |accesso = 9 giugno 2018|urlarchivio = https://web.archive.org/web/20180609094632/http://www.assoknowledge.org/knowledge-tank/big-data|dataarchivio=9 giugno 2018|urlmorto=no}}</ref><ref>{{Cita web |url = https://www.logisticaefficiente.it/wiki-logistica/supply-chain/big-data.html |titolo = BIG DATA |editore = LogisticaEfficiente.it |accesso = 9 giugno 2018 |urlarchivio = https://web.archive.org/web/20180609094945/https://www.logisticaefficiente.it/wiki-logistica/supply-chain/big-data.html |dataarchivio = 9 giugno 2018 |urlmorto =no}}</ref><ref>{{Cita web |url = http://www.multimac.it/soluzioni_scheda_ita.php/nomeProdotto=Big_Data/idcat=3/idsottocat=154/idprodotto=1223 |titolo = Big Data |editore = multimac.it |accesso = 9 giugno 2018 |urlarchivio = https://web.archive.org/web/20180609101129/http://www.multimac.it/soluzioni_scheda_ita.php/nomeProdotto=Big_Data/idcat=3/idsottocat=154/idprodotto=1223 |dataarchivio = 9 giugno 2018 |urlmorto = no }}</ref>

Altri modelli concettuali, come il [[Modello ITMI]] (Informazione, Tecnologia, Metodi, Impatto)<ref>{{Cita pubblicazione|nome=Andrea|cognome=De Mauro|data=2019-7|titolo=Understanding Big Data Through a Systematic Literature Review: The ITMI Model|rivista=International Journal of Information Technology & Decision Making|volume=18|numero=04|pp=1433–1461|lingua=en|accesso=2019-11-10|doi=10.1142/S0219622019300040|url=https://www.worldscientific.com/doi/abs/10.1142/S0219622019300040|nome2=Marco|cognome2=Greco|nome3=Michele|cognome3=Grimaldi}}</ref><ref>{{Cita pubblicazione|nome=Allard J.|cognome=van Altena|data=2016-11-15|titolo=Understanding big data themes from scientific biomedical literature through topic modeling|rivista=Journal of Big Data|volume=3|numero=1|pp=23|accesso=2019-11-10|doi=10.1186/s40537-016-0057-0|url=https://doi.org/10.1186/s40537-016-0057-0|nome2=Perry D.|cognome2=Moerland|nome3=Aeilko H.|cognome3=Zwinderman}}</ref>, hanno cercato di rappresentare in maniera sintetica i vari aspetti che caratterizzano il fenomeno dei big data nella sua complessità, andando oltre le caratteristiche del dato, come avviene per i modelli basati sulle "V".


=== Analisi di mercato ===
=== Analisi di mercato ===
Riga 39: Riga 41:
* nel 2000 i dati erano 2,2 [[Exabyte]];
* nel 2000 i dati erano 2,2 [[Exabyte]];
* nel 2007 i dati erano 65 ExaByte;
* nel 2007 i dati erano 65 ExaByte;
* per il 2014 si era previsto uno scambio di oltre 650 ExaByte<ref>{{cita web |autore= Economist |url=https://www.economist.com/node/15557443 |titolo=Data, data everywhere |lingua=inglese}}</ref>.
* per il 2014 si era previsto uno scambio di oltre 650 ExaByte<ref>{{cita web |autore= Economist |url=https://www.economist.com/node/15557443 |titolo=Data, data everywhere |lingua=inglese}}</ref><ref>{{Cita pubblicazione|nome=M.|cognome=Hilbert|data=2011-04-01|titolo=The World's Technological Capacity to Store, Communicate, and Compute Information|rivista=Science|volume=332|numero=6025|pp=60–65|lingua=en|accesso=2019-11-10|doi=10.1126/science.1200970|url=http://www.sciencemag.org/cgi/doi/10.1126/science.1200970|nome2=P.|cognome2=Lopez}}</ref>.


=== Differenze con la business intelligence ===
=== Differenze con la business intelligence ===

Versione delle 22:24, 10 nov 2019

In statistica e informatica il termine big data ("grandi [masse di] dati" in inglese), o megadati[1], indica genericamente una raccolta di dati così estesa in termini di volume, velocità e varietà da richiedere tecnologie e metodi analitici specifici per l'estrazione di valore o conoscenza[2]. Il termine è utilizzato in riferimento alla capacità (propria della scienza dei dati) di analizzare ovvero estrapolare e mettere in relazione un'enorme mole di dati eterogenei, strutturati e non strutturati, allo scopo di scoprire i legami tra fenomeni diversi (ad esempio correlazioni) e prevedere quelli futuri. La disciplina può essere vista come un'evoluzione dei tradizionali metodi di business intelligence, allargata al trattamento di masse di dati ancor più variegate e, soprattutto, più voluminose[3].

Descrizione

Malgrado non esista una separazione rigorosa tra big data e altri dati (non classificabili come big), sono stati proposti diversi approcci per descriverne le peculiarità. Nel 2011, Teradata afferma che "Un sistema di big data eccede/sorpassa/supera i sistemi hardware e software comunemente usati per catturare, gestire ed elaborare i dati in un lasso di tempo ragionevole per una comunità/popolazione di utenti anche massiva." Un'ulteriore proposta di caratterizzazione dei big data è stata data dal McKinsey Global Institute: "Un sistema di Big Data si riferisce a dataset la cui taglia/volume è talmente grande che eccede la capacità dei sistemi di database relazionali di catturare, immagazzinare, gestire ed analizzare".

Per poter parlare di big data il volume dei dati deve essere correlato alla capacità del sistema di acquisire le informazioni così come arrivano dalle differenti sorgenti dati che sono adoperate. Quindi, un sistema diventa big quando aumenta il volume dei dati e allo stesso tempo aumenta la velocità/flusso di informazioni che il sistema deve poter acquisire e gestire per secondo. Negli ultimi due anni c'è stato un incremento del 90% dei dati prodotti nel mondo. Le aziende potrebbero arrivare a produrre zettabyte di dati, ad esempio considerando dati provenienti da sensori, dati satellitari, finanziari, telefonici, ecc.

Il progressivo aumento della dimensione dei dataset è legato alla necessità di analisi su un unico insieme di dati, con l'obiettivo di estrarre informazioni aggiuntive rispetto a quelle che si potrebbero ottenere analizzando piccole serie, con la stessa quantità totale di dati. Ad esempio, l'analisi per sondare gli "umori" dei mercati e del commercio, e quindi del trend complessivo della società e del fiume di informazioni che viaggiano e transitano attraverso Internet.

Big data rappresenta anche l'interrelazione di dati provenienti potenzialmente da fonti eterogenee, quindi non soltanto i dati strutturati, come i database, ma anche non strutturati, come immagini, email, dati GPS, informazioni prese dai social network.

Con i big data la mole dei dati è dell'ordine degli zettabyte, ovvero miliardi di terabyte.[4] Quindi si richiede una potenza di calcolo parallelo e massivo con strumenti dedicati eseguiti su decine, centinaia o anche migliaia di server.[5][6]

Definizione e caratteristiche

Si parla di big data quando si ha un insieme talmente grande e complesso di dati che richiede la definizione di nuovi strumenti e metodologie per estrapolare, gestire e processare informazioni entro un tempo ragionevole.[7] Non esiste una soglia di riferimento prestabilita in termini di dimensione oltre la quale è lecito parlare di Big Data, in quanto, a causa della Legge di Moore, l'evoluzione tecnologica permette la memorizzazione e la gestione di dataset di dimensioni continuamente crescenti[8]. Secondo uno studio del 2001[9], l'analista Douglas Laney aveva definito il modello di crescita come tridimensionale (modello delle "3V"[10][11]): con il passare del tempo aumentano volume (dei dati), velocità e varietà (dei dati). In molti casi questo modello è ancora valido, nonostante esso sia stato successivamente esteso[12][13][14][15].

Il primo modello di Douglas Laney, il modello delle "3V"[11], comprende:

  • Volume: si riferisce alla quantità di dati (strutturati, non strutturati) generati ogni secondo. Tali dati sono generati da sorgenti eterogenee quali: sensori, log, eventi, email, social media e database tradizionali.
  • Varietà: si riferisce alla differente tipologia dei dati che vengono generati, collezionati ed utilizzati. Prima dell'epoca dei BigData si tendeva a prendere in considerazione per le analisi principalmente dati strutturati e la loro manipolazione veniva eseguita mediante uso di database relazionali. Per avere analisi più accurate e più profonde, oggi è necessario prendere in considerazione anche dati non strutturati (ad esempio file di testo generati dalle macchine industriali o i log di web server o dei firewall) e semi strutturati (ad esempio atto notarile con frasi fisse e frasi variabili) oltre che quelli strutturati (ad esempio tabella di un database).
  • Velocità: si riferisce alla velocità con cui i nuovi dati vengono generati. Non solo la celerità nella generazione dei dati, ma anche la necessità che questi dati/informazioni arrivino real-time al fine di effettuare analisi su di essi.

Con il tempo, sono state introdotte una quarta V[12][13], quella di veridicità, e poi una quinta, quella di Valore[14][15].

  • Veridicità: considerando la varietà dei dati sorgente (dati strutturati o non strutturati) e la velocità alla quale tali dati possono variare, è molto probabile che non si riesca a garantire la stessa qualità di dati in ingresso ai sistemi di analisi normalmente disponibile in processi di ETL tradizionali. È evidente che se i dati alla base delle analisi sono poco accurati, i risultati delle analisi non saranno migliori. Visto che su tali risultati possono essere basate delle decisioni, è fondamentale assegnare un indice di veridicità ai dati su cui si basano le analisi, in modo da avere una misura dell'affidabilità[16].
  • Valore: si riferisce alla capacità di trasformare i dati in valore. Un progetto Big Data necessita di investimenti, anche importanti, per la raccolta granulare dei dati e la loro analisi. Prima di avviare un'iniziativa è importante valutare e documentare quale sia il valore effettivo portato al business[14].

Con il passare del tempo, ulteriori caratteristiche si sono aggiunte al modello, quali ad esempio:

  • variabilità: questa caratteristica può essere un problema e si riferisce alla possibilità di inconsistenza dei dati;
  • complessità: maggiore è la dimensione del dataset, maggiore è la complessità dei dati da gestire.[senza fonte][17][18][19]

Altri modelli concettuali, come il Modello ITMI (Informazione, Tecnologia, Metodi, Impatto)[20][21], hanno cercato di rappresentare in maniera sintetica i vari aspetti che caratterizzano il fenomeno dei big data nella sua complessità, andando oltre le caratteristiche del dato, come avviene per i modelli basati sulle "V".

Analisi di mercato

I Big Data sono un argomento interessante per molte aziende[22], le quali negli ultimi anni hanno investito su questa tecnologia più di 15 miliardi di dollari, finanziando lo sviluppo di software per la gestione e l'analisi dei dati. Questo è accaduto perché le economie più forti sono molto motivate all'analisi di enormi quantità di dati: basti pensare che ci sono oltre 4,6 miliardi di smartphone attivi e circa 2 miliardi di persone hanno accesso a Internet. Dal 1986 ad oggi il volume dei dati in circolazione è aumentato in maniera esponenziale:

  • nel 1986 i dati erano 281 Petabyte;
  • nel 1993 i dati erano 471 PetaByte;
  • nel 2000 i dati erano 2,2 Exabyte;
  • nel 2007 i dati erano 65 ExaByte;
  • per il 2014 si era previsto uno scambio di oltre 650 ExaByte[23][24].

Differenze con la business intelligence

La crescente maturità del concetto di Big Data mette in evidenza le differenze con la business intelligence, in materia di dati e del loro utilizzo:

  • La business intelligence utilizza la statistica descrittiva con dati ad alta densità d'informazione per misurare cose, rilevare tendenze, ecc., cioè utilizza dataset limitati, dati puliti e modelli semplici;[25]
  • Big Data utilizza la statistica inferenziale e concetti di identificazione di sistemi non lineari[26], per dedurre leggi (come regressioni, relazioni non lineari, ed effetti causali) da grandi insiemi di dati[27]; per rivelare rapporti e dipendenze tra essi ed anche per effettuare previsioni di risultati e comportamenti,[26][28] cioè utilizza dataset eterogenei (non correlati tra loro), dati grezzi e modelli predittivi complessi.[25][29]

Modelli di analisi dei dati

Come è stato detto in precedenza, il volume di dati dei Big Data e l'ampio uso di dati non strutturati non permette l'utilizzo dei tradizionali sistemi per la gestione di basi di dati relazionali (RDBMS), che non rendono possibile archiviazione e velocità di analisi. Gli operatori di mercato utilizzano piuttosto sistemi con elevata scalabilità e soluzioni basate sulla NoSQL.

Nell'ambito della business analytics nascono nuovi modelli di rappresentazione in grado di gestire tale mole di dati con elaborazioni in parallelo dei database. Architetture di elaborazione distribuita di grandi insiemi di dati sono offerte da MapReduce di Google e dalla controparte open source Apache Hadoop.

In base agli strumenti e ai modelli utilizzati per l'analisi e la gestione dei dati è possibile distinguere quattro metodologie (o tipologie) di Big Data Analytics:

  • Descriptive Analytics, l’insieme di strumenti orientati a descrivere la situazione attuale e passata dei processi aziendali e/o aree funzionali. Tali strumenti permettono di accedere ai dati in maniera interattiva (inserendo ad esempio filtri o effettuando operazioni di drill-down) e di visualizzare in modo sintetico e grafico i principali indicatori di prestazione (la totalità delle grandi organizzazioni si serve questa tipologia);
  • Predictive Analytics, strumenti avanzati che effettuano l’analisi dei dati per rispondere a domande relative a cosa potrebbe accadere nel futuro (sono caratterizzati da tecniche matematiche quali regressione, proiezione (forecasting), modelli predittivi, ecc...);
  • Prescriptive Analytics, strumenti avanzati che, insieme all'analisi dei dati, sono capaci di proporre soluzioni operative/strategiche sulla base delle analisi svolte;
  • Automated Analytics, strumenti capaci di implementare autonomamente l’azione proposta secondo il risultato delle analisi svolte.[30]

Tecnologie utilizzate

La crescente mole di dati generati da sorgenti di dati eterogenei ha posto l'attenzione su come estrarli, archiviarli ed utilizzarli al fine di ottenerne un profitto. Il problema che si riscontra è dovuto principalmente alla difficoltà di gestire i Big Data con database tradizionali, sia in termini di costi, sia in termini di volume.

L'insieme di questi elementi ha portato allo sviluppo di nuovi modelli di elaborazione, che hanno permesso alle aziende di diventare più competitive, sia attraverso una riduzione dei costi, sia perché i nuovi sistemi sono in grado di archiviare, trasferire e combinare i dati con maggiore velocità e in maniera agile.

Per poter gestire il sistema di Big Data si adoperano sistemi che distribuiscono sia risorse che servizi:

  • Architetture distribuite: utilizzo di cluster di computer connessi tra loro al fine di cooperare al raggiungimento di un obiettivo comune realizzando la scalabilità orizzontale (non verticale).
  • Tolleranza ai guasti: le architetture/piattaforme proposte devono essere progettate per essere tolleranti ai guasti, per questo le risorse sono replicate sulle differenti macchine che compongono il cluster.
  • Calcolo distribuito: il modello di elaborazione è distribuito in modo da poter sfruttare la potenza elaborativa del cluster progettato.

Per gestire grandi quantitativi di dati sono state proposte nuove metodologie nei seguenti campi:

A supporto di queste metodologie sono state proposte le seguenti tecnologie e linguaggi di programmazione:

Ciclo di vita

Ciclo di vita dei Big Data
Ciclo di vita dei Big Data

L’estrazione di conoscenza dai Big Data e l’impiego della stessa per il miglioramento delle attività decisionali sono subordinati alla definizione di processi che consentano di gestire e trasformare in modo efficiente dataset che crescono rapidamente in volume e varietà.

Ogni fase di ciascun processo modifica lo stato ed il contenuto degli stessi, contribuendo a convertire moli di dati ancora grezzi in valore e dunque ad arricchire il modello analitico dei dati[31] [32] [33].

Tali processi costituiscono un riferimento per la scelta o la creazione di un’architettura, ovvero di una struttura logica e fisica che determina come i Big Data devono essere memorizzati, acceduti e gestiti all’interno di un'organizzazione. In essa vengono specificate, inoltre, le soluzioni da mettere in campo per far fronte ai problemi che possono derivare dal trattamento dei Big Data, quali ad esempio la scarsa qualità dei dati o la scalabilità delle infrastrutture, le componenti hardware e software come framework e database, il flusso delle informazioni, la privacy e la sicurezza dei dati e molto altro.

I processi principali che compongono il ciclo di vita dei Big Data possono essere raggruppati in due macro-aree:

  • Big Data Management: racchiude i processi e le tecnologie per l’acquisizione e la memorizzazione dei Big Data e la preparazione ed il recupero degli stessi;
  • Big Data Analytics: racchiude i processi utilizzati per analizzare e acquisire informazioni utili da grandi dataset allo scopo di interpretare e descrivere il passato (descriptive analytics), predire il futuro (predictive analytics) o consigliare azioni (prescriptive analytics)[34].

Generazione e acquisizione

Oltre alla varietà dei formati e strutture, i Big Data presentano anche una varietà di fonti. I dati generati da queste spesso sono classificati in:

  • human generated: si trovano e derivano in particolare da piattaforme di social network (Facebook, LinkedIn), blogging (Blogger, Wordpress) e micro-blogging (Twitter, Tumblr), social news (Digg, Reddit), social bookmarking (Delicious, StumbleUpon), multimedia sharing (Instagram, Flickr, YouTube), le wiki (Wikipedia), i siti di domande e risposte (Yahoo Answers), i siti di recensioni (Yelp, TripAdvisor), i portali di e-commerce (eBay, Amazon), click stream[non chiaro] da siti web ecc, generalmente gestiti tramite cookie.
  • machine generated: sono prodotti da sorgenti quali sensori GPS, IoT, RFID, centrali di monitoraggio di eventi meteorologici, strumenti scientifici, sistemi di High Frequency Trading dei mercati finanziari, dispositivi biomedicali ed altri.
  • business generated: si intendono tutti quei dati, human o machine generated, generati internamente ad un’azienda che registrano tutte le attività data-driven dei processi di business aziendali. Molti di essi sono dati storici, memorizzati staticamente in base di dati relazionali, che rappresentano pagamenti, ordini, dati di produzione, d'inventario, vendite e dati finanziari. La crescente produzione di questa tipologia di dati ha reso necessario l’utilizzo di tecnologie e strumenti di analisi in tempo reale affinché le aziende possano sfruttare a pieno il loro potenziale.

L’acquisizione dei Big Data da questi canali d’informazione può avvenire con diverse modalità:

  • Accedendo ad API messe a disposizione dai servizi Web, grazie alle quali è possibile interfacciarsi ad essi per esaminarne i contenuti. Un esempio sono le Twitter API, Facebook Graph API e le API fornite da motori di ricerca come Google e Bing;
  • Utilizzando software di web scraping che eseguono operazioni di crawling, parsing ed entity extraction per la raccolta automatica di dati da documenti presenti in Internet. Il framework Apache Tika, ad esempio, automatizza tali operazioni per metadati e testo provenienti da diverse tipologie di documenti, arrivando ad identificarne persino la lingua;
  • Importando i dati da database relazionali, non relazionali o da altre sorgenti con strumenti di ETL, già usati ampiamente per la movimentazione di dati in sistemi di Data Warehousing e Data mart. Uno degli strumenti di ETL più usati nell’ottica dei Big Data è Apache Sqoop che consente di importare ed esportare grandi quantità di dati da database relazionali e non verso la piattaforma Apache Hadoop e viceversa;
  • Acquisendo flussi continui di dati, rapidamente generati, tramite sistemi capaci di catturare eventi, elaborarli e salvarli su un database in modo efficiente. Tra le tecnologie più diffuse ci sono Apache Flume, Apache Kafka e Microsoft StreamInsight.

In seguito all’acquisizione dalle sorgenti, i dataset sono trasferiti a sistemi di archiviazione locali o remoti attraverso mezzi di trasmissione ad alta velocità. L'insieme di dati grezzi, strutturati e non strutturati, è detto data lake, pronto per l'elaborazione[35].

Inoltre è fondamentale che su di essi vengano eseguite ulteriori operazioni di precompilazione, il cui scopo è filtrare i dati da informazioni ridondanti, inaccurate o incomplete al fine di diminuirne l’entropia (cioè il disordine), migliorando così l’accuratezza delle analisi e riducendo lo spazio necessario alla memorizzazione degli stessi.

Estrazione e pulizia delle informazioni

La maggior parte dei dati raccolti non sono disponibili nel formato richiesto per la successiva fase di elaborazione. Ad esempio, il fascicolo informatico di un paziente di un ospedale, nella maggior parte dei casi è costituito da rapporti medici, prescrizioni, letture acquisite da sensori e\o macchine di monitoraggio e dati di immagine come i raggi x. In questo contesto, non è possibile utilizzare questi dati in modo efficace quando ognuno di essi ha una propria rappresentazione. Pertanto, bisogna creare un processo di estrazione che prelevi le informazioni richieste dalla grande fonte dei dati e le rappresenti in una forma standard e strutturata pronta per l'analisi.

La progettazione del processo di estrazione dipende principalmente dall'area di applicazione; ad esempio i dati che si estraggono dai supporti utilizzati per la risonanza magnetica sono differenti da quelli utilizzati per le immagini delle stelle. I Big Data, inoltre, possono contenere alcune informazioni false. Ad esempio, i pazienti possono nascondere intenzionalmente alcuni sintomi che possono portare il medico a diagnosticare erroneamente la loro condizione. È necessario, pertanto, utilizzare tecniche di pulizia dei dati che comprendono vincoli per il controllo della validità dei dati e modelli di errore per garantire la loro qualità.

Immagazzinamento e integrazione

L’immagazzinamento dei Big Data è un problema che deriva da due necessità: memorizzare ed organizzare enormi dataset non strutturati o semi-strutturati ed allo stesso tempo garantire la loro disponibilità e la capacità di interazione con essi in modo affidabile, veloce e sicuro. Per rispondere a questi bisogni è stato unito allo sviluppo di infrastrutture hardware per l’archiviazione, anche la creazione di meccanismi per la gestione di questi dati, in particolare file system distribuiti e nuove tipologie di database.

L’infrastruttura a supporto dei Big Data consiste in insiemi di nodi di archiviazione ed elaborazione distribuiti in rete, connessi mediante reti di comunicazione ad alta velocità, in grado di scalare orizzontalmente ed essere configurata dinamicamente a seconda delle applicazioni. I file system distribuiti hanno il compito di fornire una visione unificata dell’infrastruttura di memoria distribuita sottostante, fornendo operazioni di base per la lettura e scrittura sequenziale di grandi quantità di dati, assicurando alte prestazioni ed allo stesso tempo un adeguato livello di tolleranza ai guasti. I file system distribuiti più conosciuti sono Google File System (GFS) ed Hadoop Distributed File System (HDFS). Vari tipi di database sono stati proposti negli anni nell’intento di memorizzare, gestire ed organizzare dataset caratterizzati da grandezze, strutture e provenienze diverse. A causa della staticità delle strutture tabellari, le soluzioni basate su RDBMS si sono rivelate inadatte ai requisiti di varietà e volume propri dei Big Data.

L’organizzazione logica dei dati è dunque affidata alle basi di dati NoSQL che abbandonano le restrizioni imposte dal modello relazionale e dal linguaggio SQL ma che invece possiedono caratteristiche fondamentali per i Big Data come l’essere "schemaless" e distribuite, avere una facile replicazione dei dati, eventual consistency e, non ultimo, il supporto per lo memoria persistente di grandi moli di dati. Alla fase di immagazzinamento viene affiancata spesso una fase di integrazione che consiste in ulteriori elaborazioni e trasformazioni dei dati per prepararli alla successiva fase di analisi. Ciò permette di ottenere una visione unificata e normalizzata dei dati. Le operazioni che vengono svolte più frequentemente in questa fase sono l’unione di dati da database esterni ed il riconoscimento di contenuti testuali da documenti provenienti da fonti come il Web o le repository aziendali.

Modellazione e analisi

Lo scopo della fase di analisi è quello di estrarre valore in forma di conoscenza dai Big Data, esaminando gli enormi dataset a disposizione alla scoperta di correlazioni, trend, pattern ed ulteriori indici statistici nascosti nei dati. Le analisi possono essere eseguite su dati strutturati, semi-strutturati e non strutturati, tra cui:

  • Analisi di testi: l’estrazione di informazioni e conoscenza a partire da testo non strutturato contenuto in documenti, email, pagine Web e post su blog e social network, nota anche come text mining, fa principalmente uso di tecniche di Natural language processing (NLP), machine learning ed analisi statistica. Grazie ad esse sono stati sviluppati algoritmi per il riconoscimento di argomenti (topic modeling), la ricerca delle migliori risposte ad una domanda (question answering), l’individuazione delle opinioni degli utenti su determinate notizie (opinion mining) ed altri ancora;
  • Analisi di dati multimediali: la natura non strutturata di contenuti multimediali quali immagini, video ed audio, la loro dimensione, eterogeneità ed il fatto di essere prodotti molto rapidamente rendono idonea la loro trattazione con sistemi di Big Data Analytics. Algoritmi di machine learning permettono di estrarre informazioni di basso ed alto livello utili alla descrizione semantica dei file multimediali. L’annotazione automatica tramite etichette testuali (multimedia annotation) e l’estrazione di feature visive o sonore (feature extraction) sono attività alla base di algoritmi d’indicizzazione (multimedia indexing) e raccomandazione (multimedia recommendation) di questi contenuti.
  • Analisi del Web: è possibile ricavare informazioni e conoscenza sui contenuti, la struttura e l’utilizzo del Web analizzando in maniera automatica pagine e collegamenti ipertestuali. L’analisi dei contenuti testuali e multimediali viene svolta facendo uso delle tecniche sopra citate. La topologia può essere ricostruita mediante algoritmi di crawling che seguono i collegamenti ipertestuali per rivelare relazioni tra pagine o siti Web. Uno degli algoritmi più noti che si ispira a tale meccanismo è il PageRank di Google. Il profiling dell’utilizzo del Web da parte di un'utenza sempre più diversificata viene eseguito esaminando un numero elevato di log di server, sessioni, transazioni, ricerche e visite al fine di personalizzare le esperienze individuali degli utenti.

Le tecniche di data mining, machine learning e di analisi statistica come clustering, correlazione e regressione, vengono applicate ai Big Data mediante l’uso di modelli di programmazione e framework di elaborazione distribuita che permettono di ottenere in tempi rapidi aggregati di informazioni dai database NoSQL o da altre fonti, analogamente a ciò che accade per il linguaggio SQL con i database relazionali. Quest’ultimi vengono classificati in base alla tempestività richiesta per le analisi (real time o batch analytics) e alla possibilità di velocizzare parte delle operazioni caricando o meno i dati in memoria primaria (in memory analytics). Fra i modelli di programmazione più diffusi ci sono MapReduce, parte del framework Apache Hadoop, che permette l’elaborazione in batch ed in parallelo di grandi dataset su cluster di macchine general purpose usando l’omonimo paradigma e Google Pregel che consente di eseguire elaborazioni distribuite su enormi grafi che possono rappresentare ad esempio grafi di reti di calcolatori o delle relazioni tra gli utenti di un social network.

Interpretazione

L'interpretazione dei parametri analizzati può fornire dei suggerimenti per verificare ipotesi empiriche su fenomeni di interesse, prendere decisioni di business più efficaci, individuare nuovi mercati nei quali investire, sviluppare campagne di marketing scientifico mirate e migliorare l’efficienza operativa.

Controversie

Il recente sviluppo di metodologie di acquisizione e di elaborazione di grandi masse di dati tramite algoritmi coinvolge tutti i settori economici ed ha sollevato dubbi sulla loro applicazione in mancanza di adeguate normative e controlli.

Nel 2008, in seguito alla crisi economica mondiale, due ingegneri finanziari, Emanuel Derman e Paul Wilmott, hanno elaborato un manifesto etico per gli scienziati dei dati, sul modello del Giuramento di Ippocrate per i medici[36].

Nel 2017 la data scientist Cathy O'Neil ha esposto in un libro le varie problematiche sorte con l'uso dei modelli basati su Big Data. Molti dei quali, lungi dall'essere equi ed obiettivi, si sono dimostrati codificazioni di pregiudizi umani che hanno portato ad errori sistemici senza possibilità di appello nei software che controllano le nostre vite in diversi ambiti, da quello legale a quello lavorativo e politico [37].

A differenza dell'America Settentrionale, il Parlamento Europeo ha già varato un Regolamento generale sulla protezione dei dati [38].

Secondo Kevin Kelly, «se si vuole modificare il comportamento in Rete delle persone, basta semplicemente alterare sullo schermo gli algoritmi che lo governano, che di fatto regolano il comportamento collettivo o spingono le persone in una direzione preferenziale»[39][40].

Nei primi mesi del 2018 è scoppiato lo scandalo Facebook: una società che analizza Big Data, Cambridge Analytica, avrebbe usato i dati personali di 87 milioni di utenti della rete sociale a scopo di propaganda politica[41]. Nello scandalo, la società britannica si presume abbia utilizzato i big data per influenzare le persone in occasione delle elezioni per il presidente degli Stati Uniti tenutesi nel novembre 2016. Facebook è stato accusato degli standard morali che le società di social networking avrebbe dovuto seguire e della maggiore protezione dei media online e della privacy che ogni utente online dovrebbe avere[Frase poco chiara.][42]. Pertanto, nell'aprile 2018 Facebook ha dovuto applicare alla propria piattaforma il regolamento generale sulla protezione dei dati.

Virtualizzazione dei Big Data

La virtualizzazione dei Big Data è un modo per raccogliere dati da poche fonti in un singolo livello. Il livello dati raccolto è virtuale. A differenza di altri metodi, la maggior parte dei dati rimane sul posto e viene presa su richiesta direttamente dai sistemi di origine.[43]

Note

  1. ^ (EN) megadati - Translation in English — TechDico, su www.TechDico. URL consultato il 19 luglio 2019.
  2. ^ (EN) Andrea De Mauro, Marco Greco e Michele Grimaldi, A Formal definition of Big Data based on its essential features, in Library Review, vol. 65, n. 3, 2016, pp. 122-135, DOI:10.1108/LR-06-2015-0061. URL consultato il 25 giugno 2017.
  3. ^ https://www.maticmind.it/approfondimenti/big-data-analytics-levoluzione-della-business-intelligence
  4. ^ Marco Russo, Luca De Biase, Che cosa pensereste se vi dicessero che in Italia i Big Data non esistono?, su blog.debiase.com. URL consultato il 28 ottobre 2014.
  5. ^ (EN) Jacobs, A., The Pathologies of Big Data, su queue.acm.org, ACMQueue, 6 luglio 2009. URL consultato il 21 ottobre 2013.
  6. ^ Gianluca Ferrari, Il vero significato dei "Big data", su searchcio.techtarget.it, 14 giugno 2011. URL consultato il 21 ottobre 2013.
  7. ^ Snijders, C., Matzat, U., & Reips, U.-D. (2012). ‘Big Data': Big gaps of knowledge in the field of Internet. International Journal of Internet Science, 7, 1-5. International Journal of Internet Science, Volume 7, Issue 1
  8. ^ De Mauro, Andrea., Big data analytics : guida per iniziare a classificare e interpretare dati con il machine learning, Apogeo, 2019, ISBN 9788850334780, OCLC 1065010076. URL consultato il 10 novembre 2019.
  9. ^ Douglas Laney, 3D Data Management: Controlling Data Volume, Velocity and Variety (PDF), su blogs.gartner.com, Gartner. URL consultato il 6 febbraio 2001.
  10. ^ Mark Beyer, Gartner Says Solving 'Big Data' Challenge Involves More Than Just Managing Volumes of Data, su gartner.com, Gartner. URL consultato il 13 luglio 2011 (archiviato il 10 luglio 2011).
  11. ^ a b (EN) Mark Beyer, Gartner Says Solving 'Big Data' Challenge Involves More Than Just Managing Volumes of Data, su gartner.com, 27 giugno 2011. URL consultato il 25 giugno 2017 (archiviato il 10 luglio 2011).
  12. ^ a b (EN) What is Big Data?, su villanovau.com, Villanova University.
  13. ^ a b (EN) IBM, The Four V's of Big Data, su ibmbigdatahub.com, ibm, 24 agosto 2012. URL consultato il 25 giugno 2017 (archiviato il 24 agosto 2012).
  14. ^ a b c (EN) Why only one of the 5 Vs of big data really matters, in IBM Big Data & Analytics Hub. URL consultato il 18 agosto 2017.
  15. ^ a b (EN) The 5 Vs of Big Data - Watson Health Perspectives, in Watson Health Perspectives, 17 settembre 2016. URL consultato il 18 agosto 2017.
  16. ^ (EN) Data Veracity, su www.datasciencecentral.com. URL consultato il 16 agosto 2017.
  17. ^ Big Data, su assoknowledge.org, ASSOKNOWLEDGE Confindustria Servizi Innovativi e Tecnologici. URL consultato il 9 giugno 2018 (archiviato il 9 giugno 2018).
  18. ^ BIG DATA, su logisticaefficiente.it. URL consultato il 9 giugno 2018 (archiviato il 9 giugno 2018).
  19. ^ Big Data, su multimac.it. URL consultato il 9 giugno 2018 (archiviato il 9 giugno 2018).
  20. ^ (EN) Andrea De Mauro, Marco Greco e Michele Grimaldi, Understanding Big Data Through a Systematic Literature Review: The ITMI Model, in International Journal of Information Technology & Decision Making, vol. 18, n. 04, 2019-7, pp. 1433–1461, DOI:10.1142/S0219622019300040. URL consultato il 10 novembre 2019.
  21. ^ Allard J. van Altena, Perry D. Moerland e Aeilko H. Zwinderman, Understanding big data themes from scientific biomedical literature through topic modeling, in Journal of Big Data, vol. 3, n. 1, 15 novembre 2016, pp. 23, DOI:10.1186/s40537-016-0057-0. URL consultato il 10 novembre 2019.
  22. ^ (EN) Elisabetta Raguseo, Big data technologies: An empirical investigation on their adoption, benefits and risks for companies, in International Journal of Information Management, vol. 38, n. 1, 2018-2, pp. 187–195, DOI:10.1016/j.ijinfomgt.2017.07.008. URL consultato il 23 ottobre 2019.
  23. ^ (EN) Economist, Data, data everywhere, su economist.com.
  24. ^ (EN) M. Hilbert e P. Lopez, The World's Technological Capacity to Store, Communicate, and Compute Information, in Science, vol. 332, n. 6025, 1º aprile 2011, pp. 60–65, DOI:10.1126/science.1200970. URL consultato il 10 novembre 2019.
  25. ^ a b I Big Data vi parlano. Li state ascoltando? (PDF), su italy.emc.com, EMC, 2012. URL consultato il 22 ottobre 2013.
  26. ^ a b (EN) Billings S.A. "Nonlinear System Identification: NARMAX Methods in the Time, Frequency, and Spatio-Temporal Domains". Wiley, 2013
  27. ^ (FR) Delort P., Big data Paris 2013
  28. ^ (FR) Delort P., Big Data car Low-Density Data? La faible densité en information comme facteur discriminant
  29. ^ (EN) Rasetti M., Merelli E., The Topological Field Theory of Data: a program towards a novel strategy for data mining through data language
  30. ^ Alessandro Piva, Come impostare un progetto di Big Data Analytics?. URL consultato il 21 giugno 2018.
  31. ^ (EN) Han Hu, Yonggang Wen, Tat-Seng Chua e Xuelong Li, Toward Scalable Systems for Big Data Analytics: A Technology Tutorial, in IEEE Access, vol. 2, 2014, pp. 652-687, DOI:10.1109/ACCESS.2014.2332453.
  32. ^ (EN) Chen, Min and Mao, Shiwen and Liu e Yunhao, Big Data: A Survey, in Mobile Networks and Applications, vol. 19, 2014, pp. 171-209, DOI:10.1007/s11036-013-0489-0.
  33. ^ (EN) Nasser Thabet e Tariq Rahim Soomro, Big Data Challenges, in Journal of Computer Engineering & Information Technology}, 2015, DOI:10.4172/2324-9307.1000133.
  34. ^ (EN) James R. Evans e Carl H. Lindner, Business Analytics: The Next Frontier for Decision Sciences, in Decision Lines, vol. 43, n. 2.
  35. ^ https://www.mdirector.com/it/marketing-digitale/cos-e-un-data-lake.html
  36. ^ https://www.uio.no/studier/emner/sv/oekonomi/ECON4135/h09/undervisningsmateriale/FinancialModelersManifesto.pdf
  37. ^ Cathy O'Neill, Weapons of Math destruction, Penguins Book, 2016; Armi di distruzione matematica, Come i Big Data aumentano la disuguaglianza e minacciano la democrazia, Bompiani, 2016, ISBN 978-88-452-9421-1.
  38. ^ http://www.lsoft.com/resources/optinlaws.asp
  39. ^ Kevin Kelly, The Inevitable (2016), L'inevitabile, le tendenze tecnologiche che rivoluzioneranno il nostro futuro (2017) Milano, Il Saggiatore, trad. Alberto Locca, ISBN 978-88-428-2376-6, pag. 94.
  40. ^ Yuval Noah Harari, Why Technology Favors Tyranny, in The Atlantic, 2018-10. URL consultato l'11 marzo 2019.
  41. ^ https://www.ilfattoquotidiano.it/2018/04/04/facebook-zuckerberg-testimoniera-alla-commissione-usa-l11-aprile-sul-caso-cambridge-analytica/4270478/
  42. ^ The Cambridge Analytica scandal changed the world – but it didn't change Facebook, su theguardian.com.
  43. ^ (EN) What is Data Virtualization?, su www.datawerks.com. URL consultato il 27 aprile 2018 (archiviato dall'url originale il 10 aprile 2018).

Bibliografia

  • Andrea De Mauro, Big Data Analytics. Analizzare e interpretare dati con il machine learning, ISBN 978-8850334780, Apogeo, 2019.
  • Marco Delmastro, Antonio Nicita, Big Data. Come stanno cambiando il nostro mondo, Il Mulino, 2019.
  • Stefano Mannoni, Guido Stazi, Is Competition A Click Away? Sfida al monopolio nell'era digitale, Editoriale scientifica 2018.
  • Viktor Mayer-Schonberger, Kenneth Cukier, Big Data: A Revolution That Will Transform How We Live, Work and Think, John Murray Publishers Ltd, 2013; Big data. Una rivoluzione che trasformerà il nostro modo di vivere e già minaccia la nostra libertà, Garzanti, 2013, ISBN 978-8811682479.
  • Marc Dugain, Christophe Labbé, L'uomo nudo. La dittatura invisibile del digitale, ISBN 978-88-99438-05-0, Enrico Damiani Editore, 2016.
  • Alessandro Rezzani, Big data. Architettura, tecnologie e metodi per l'utilizzo di grandi basi di dati, ISBN 978-8838789892, Apogeo Education, 2013.
  • Cathy O'Neill, Weapons of Math destruction, Penguins Book, 2016; Armi di distruzione matematica, Come i Big Data aumentano la disuguaglianza e minacciano la democrazia, Bompiani, 2016, ISBN 978-88-452-9421-1.

Voci correlate

Altri progetti

Collegamenti esterni

Controllo di autoritàThesaurus BNCF 56394 · LCCN (ENsh2012003227 · GND (DE4802620-7 · BNE (ESXX5324756 (data) · BNF (FRcb16657853j (data) · J9U (ENHE987007593186405171 · NDL (ENJA001147262