Big data

Da Wikipedia, l'enciclopedia libera.

Big data è il termine per descrivere una raccolta di dataset così grande e complessa da richiedere strumenti differenti da quelli tradizionali, in tutte le fasi del processo: dall'acquisizione, alla curation, passando per condivisione, analisi e visualizzazione.

Il progressivo aumento della dimensione dei dataset è legato alla necessità di analisi su un unico insieme di dati, con l'obiettivo di estrarre informazioni aggiuntive rispetto a quelle che si potrebbero ottenere analizzando piccole serie, con la stessa quantità totale di dati. Ad esempio, l'analisi per sondare gli "umori" dei mercati e del commercio, e quindi del trend complessivo della società e del fiume di informazioni che viaggiano e transitano attraverso Internet.

Big data rappresenta anche l'interrelazione di dati provenienti potenzialmente da fonti eterogenee, quindi non soltanto i dati strutturati, come i database, ma anche non strutturati, come immagini, email, dati GPS, informazioni prese dai social network.

Con i big data la mole dei dati è dell'ordine dei Zettabyte, ovvero miliardi di Terabyte.[1] Quindi si richiede una potenza di calcolo parallelo e massivo con strumenti dedicati eseguiti su decine, centinaia o anche migliaia di server.[2][3]

Caratteristiche[modifica | modifica sorgente]

Le caratteristiche principali dei big data, si possono riassumere nelle tre "V":[4][5][6]

  • volume: capacità di acquisire, memorizzare ed accedere a grandi volumi di dati;
  • velocità: capacità di effettuare analisi dei dati in tempo reale o quasi;
  • varietà: riferita alle varie tipologie di dati, provenienti da fonti diverse (strutturate e non).

Inoltre, alcune organizzazioni utilizzano una quarta V per indicare la "veridicità" dei dati, ossia la qualità dei dati intesa come il valore informativo che si riesce ad estrarre.[7]

Differenze con business intelligence[modifica | modifica sorgente]

La crescente maturità del concetto dei big data mette in evidenza le differenze con la business intelligence, in materia di dati e del loro utilizzo:

  • business intelligence utilizza la statistica descrittiva con dati ad alta densità di informazione per misurare cose, rilevare tendenze, ecc., cioè utilizza dataset limitati, dati puliti e modelli semplici;[8]
  • big data utilizza la statistica inferenziale e concetti di identificazione di sistemi non lineari[9] per dedurre leggi (regressioni, relazioni non lineari, ed effetti causali) da grandi insiemi di dati,[10] e per rivelare i rapporti, le dipendenze, e effettuare previsioni di risultati e comportamenti,[9][11] cioè utilizza dataset eterogenei (non correlati tra loro), dati raw e modelli predittivi complessi.[8]

Modelli[modifica | modifica sorgente]

Il volume di dati dei big data e l'ampio uso di dati non strutturati non permette l'utilizzo dei tradizionali RDBMS, che non rendono possibile archiviazione e velocità di analisi.[8] Gli operatori di mercato invece utilizzano sistemi con elevata scalabilità e soluzioni basate sulla NoSQL.[12]

Nell'ambito della business analytics nascono nuovi modelli di rappresentazione in grado di gestire tale mole di dati con elaborazioni in parallelo dei database. Architetture di elaborazione distribuita di grandi insiemi di dati sono offerte da MapReduce di Google, e dalla controparte open source Apache Hadoop.[13] Con questo sistema le applicazioni sono separate e distribuite con nodi in parallelo, e quindi eseguite in parallelo (funzione map). I risultati vengono poi raccolti e restituiti (funzione reduce).

Note[modifica | modifica sorgente]

  1. ^ Marco Russo, Luca De Biase, Che cosa pensereste se vi dicessero che in Italia i Big Data non esistono?. URL consultato il 21 ottobre 2013.
  2. ^ (EN) Jacobs, A., The Pathologies of Big Data, ACMQueue, 6 luglio 2009. URL consultato il 21 ottobre 2013.
  3. ^ Gianluca Ferrari, Il vero significato dei "Big data", 14 giugno 2011. URL consultato il 21 ottobre 2013.
  4. ^ (EN) Mark Beyer, Gartner Says Solving 'Big Data' Challenge Involves More Than Just Managing Volumes of Data, Gartner, 27 giugno 2011. URL consultato il 21 ottobre 2013.
  5. ^ Lorenzo Pascucci, Big Data: cosa sono. URL consultato il 21 ottobre 2013.
  6. ^ Big Data: dalla teoria all'implementazione, 1º luglio 2013. URL consultato il 21 ottobre 2013.
  7. ^ (EN) What is Big Data?, Villanova University. URL consultato il 21 ottobre 2013.
  8. ^ a b c I Big Data vi parlano. Li state ascoltando?, EMC, 2012. URL consultato il 22 ottobre 2013.
  9. ^ a b (EN) Billings S.A. "Nonlinear System Identification: NARMAX Methods in the Time, Frequency, and Spatio-Temporal Domains". Wiley, 2013
  10. ^ (FR) Delort P., Big data Paris 2013
  11. ^ (FR) Delort P., Big Data car Low-Density Data ? La faible densité en information comme facteur discriminant
  12. ^ (FR) http://www.fermigier.com/assets/pdf/bigdata-opensource.pdf
  13. ^ (EN) John. Webster, MapReduce: Simplified Data Processing on Large Clusters in Search Storage, Google, 2004. URL consultato il 22 ottobre 2013.

Voci correlate[modifica | modifica sorgente]