Big data

Da Wikipedia, l'enciclopedia libera.
Versione del 6 gen 2015 alle 13:58 di FrescoBot (discussione | contributi) (Bot: stile delle date)
Vai alla navigazione Vai alla ricerca

Big data è il termine per descrivere una raccolta di dataset così grande e complessa da richiedere strumenti differenti da quelli tradizionali, in tutte le fasi del processo: dall'acquisizione, alla curation, passando per condivisione, analisi e visualizzazione.

Il progressivo aumento della dimensione dei dataset è legato alla necessità di analisi su un unico insieme di dati, con l'obiettivo di estrarre informazioni aggiuntive rispetto a quelle che si potrebbero ottenere analizzando piccole serie, con la stessa quantità totale di dati. Ad esempio, l'analisi per sondare gli "umori" dei mercati e del commercio, e quindi del trend complessivo della società e del fiume di informazioni che viaggiano e transitano attraverso Internet.

Big data rappresenta anche l'interrelazione di dati provenienti potenzialmente da fonti eterogenee, quindi non soltanto i dati strutturati, come i database, ma anche non strutturati, come immagini, email, dati GPS, informazioni prese dai social network.

Con i big data la mole dei dati è dell'ordine dei Zettabyte, ovvero miliardi di Terabyte.[1] Quindi si richiede una potenza di calcolo parallelo e massivo con strumenti dedicati eseguiti su decine, centinaia o anche migliaia di server.[2][3]

Definizione

Si parla di Big Data quando si ha un dataset grande da richiedere strumenti non convenzionali per estrapolare, gestire e processare informazioni entro un tempo ragionevole.[4] Non esiste una dimensione di riferimento ma questa cambia sempre poiché le macchine sono sempre più veloci e i dataset sono sempre più grandi. Secondo uno studio del 2001[5], l'analista Doug Laney aveva definito il modello di crescita come tridimensionale (modello delle "3V"[6]): con il passare del tempo aumentano volume (dei dati), velocità e varietà (dei dati). In molti casi questo modello è ancora valido, nonostante nel 2012 il modello sia stato esteso ad una quarta variabile, la veridicità[7]. Vediamo queste caratteristiche nel dettaglio.

Caratteristiche

Le caratteristiche principali dei Big Data, si possono riassumere nelle seguenti caratteristiche:[8][9][10]

  • volume: rappresenta la dimensione effettiva del dataset;
  • velocità: si riferisce alla velocità di generazione dei dati; si tende all'effettuare analisi dei dati in tempo reale o quasi;
  • varietà: riferita alle varie tipologie di dati, provenienti da fonti diverse (strutturate e non);

Il modello iniziale si fermava qui. Col tempo il modello si è esteso, andando ad aggiungere le seguenti caratteristiche:

  • variabilità: questa caratteristica può essere un problema; si riferisce alla possibilità di inconsistenza dei dati;
  • complessità: maggiore è la dimensione del dataset, maggiore è la complessità dei dati da gestire; il compito più difficile è collegare le informazioni, ed ottenerne di interessanti.

Inoltre, alcune organizzazioni utilizzano una quarta V per indicare la "veridicità" dei dati, ossia la qualità dei dati intesa come il valore informativo che si riesce ad estrarre.[11]

Differenze con business intelligence

La crescente maturità del concetto dei big data mette in evidenza le differenze con la business intelligence, in materia di dati e del loro utilizzo:

  • business intelligence utilizza la statistica descrittiva con dati ad alta densità di informazione per misurare cose, rilevare tendenze, ecc., cioè utilizza dataset limitati, dati puliti e modelli semplici;[12]
  • big data utilizza la statistica inferenziale e concetti di identificazione di sistemi non lineari[13] per dedurre leggi (regressioni, relazioni non lineari, ed effetti causali) da grandi insiemi di dati,[14] e per rivelare i rapporti, le dipendenze, e effettuare previsioni di risultati e comportamenti,[13][15] cioè utilizza dataset eterogenei (non correlati tra loro), dati raw e modelli predittivi complessi.[12]

Analisi di mercato

I Big Data sono un argomento interessante per molte aziende, le quali negli ultimi anni hanno investito più di 15 miliardi di Dollari, finanziando lo sviluppo di software per gestione dei dati e analisi. Questo è accaduto perché le economie più forti sono molto motivate all'analisi di enormi quantità di dati: basti pensare che ci sono oltre 4,6 miliardi di smartphone attivi e circa 2 miliardi di persone hanno accesso a internet. Vediamo come il volume dei dati in circolazione si sia evoluto:

  • nel 1986 i dati erano 281 PetaBytes;
  • nel 1993 i dati erano 471 PetaBytes;
  • nel 2000 i dati erano 2,2 ExaBytes;
  • nel 2007 i dati erano 65 ExaBytes;
  • nel 2014 si prevede uno scambio di oltre 650 ExaBytes[16].

Modelli

Come è stato detto in precedenza, il volume di dati dei Big Data e l'ampio uso di dati non strutturati non permette l'utilizzo dei tradizionali RDBMS, che non rendono possibile archiviazione e velocità di analisi.[12] Gli operatori di mercato invece utilizzano sistemi con elevata scalabilità e soluzioni basate sulla NoSQL.[17]

Nell'ambito della business analytics nascono nuovi modelli di rappresentazione in grado di gestire tale mole di dati con elaborazioni in parallelo dei database. Architetture di elaborazione distribuita di grandi insiemi di dati sono offerte da MapReduce di Google, e dalla controparte open source Apache Hadoop.[18] Con questo sistema le applicazioni sono separate e distribuite con nodi in parallelo, e quindi eseguite in parallelo (funzione map). I risultati vengono poi raccolti e restituiti (funzione reduce).

Tecnologie utilizzate

Oltre a modificare il metodo di approccio rispetto ai canonici dataset, per i Big Data è necessario sfruttare anche tecnologie particolari per poter processare in modo efficiente l'enorme ammontare di dati. Un report del 2011 di McKinsey[19] suggerisce, tra le altre, le seguenti tecnologie:

  • crowdsourcing
  • fusione e integrazione dei dati
  • algoritmi genetici
  • machine learning
  • simulazione

Note

  1. ^ Marco Russo, Luca De Biase, Che cosa pensereste se vi dicessero che in Italia i Big Data non esistono?, su blog.debiase.com. URL consultato il 28 ottobre 2014.
  2. ^ (EN) Jacobs, A., The Pathologies of Big Data, su queue.acm.org, ACMQueue, 6 luglio 2009. URL consultato il 21 ottobre 2013.
  3. ^ Gianluca Ferrari, Il vero significato dei "Big data", su searchcio.techtarget.it, 14 giugno 2011. URL consultato il 21 ottobre 2013.
  4. ^ Snijders, C., Matzat, U., & Reips, U.-D. (2012). ‘Big Data’: Big gaps of knowledge in the field of Internet. International Journal of Internet Science, 7, 1-5. http://www.ijis.net/ijis7_1/ijis7_1_editorial.html
  5. ^ Douglas Laney, 3D Data Management: Controlling Data Volume, Velocity and Variety (PDF), su blogs.gartner.com, Gartner. URL consultato il 6 febbraio 2001.
  6. ^ Mark Beyer, Gartner Says Solving 'Big Data' Challenge Involves More Than Just Managing Volumes of Data, su gartner.com, Gartner. URL consultato il 13 luglio 2011 (archiviato il 10 July 2011).
  7. ^ (EN) What is Big Data?, su villanovau.com, Villanova University.
  8. ^ (EN) Mark Beyer, Gartner Says Solving 'Big Data' Challenge Involves More Than Just Managing Volumes of Data, su gartner.com, Gartner, 27 giugno 2011. URL consultato il 21 ottobre 2013.
  9. ^ Lorenzo Pascucci, Big Data: cosa sono, su webmasterpoint.org. URL consultato il 21 ottobre 2013.
  10. ^ Big Data: dalla teoria all'implementazione, su losviluppatore.it, 1º luglio 2013. URL consultato il 21 ottobre 2013.
  11. ^ (EN) What is Big Data?, su villanovau.com, Villanova University.
  12. ^ a b c I Big Data vi parlano. Li state ascoltando? (PDF), su italy.emc.com, EMC, 2012. URL consultato il 22 ottobre 2013.
  13. ^ a b (EN) Billings S.A. "Nonlinear System Identification: NARMAX Methods in the Time, Frequency, and Spatio-Temporal Domains". Wiley, 2013
  14. ^ (FR) Delort P., Big data Paris 2013
  15. ^ (FR) Delort P., Big Data car Low-Density Data ? La faible densité en information comme facteur discriminant
  16. ^ (EN) Economist, Data, data everywhere, su economist.com.
  17. ^ (FR) http://www.fermigier.com/assets/pdf/bigdata-opensource.pdf
  18. ^ (EN) John. Webster, MapReduce: Simplified Data Processing on Large Clusters (PDF), su Search Storage, Google, 2004. URL consultato il 22 ottobre 2013.
  19. ^ James Manyika, Michael Chui, Jaques Bughin, Brad Brown, Richard Dobbs first6=Charles, Roxburgh e Angela Hung Byers, Big Data: The next frontier for innovation, competition, and productivity, McKinsey Global Institute, maggio 2011.

Riferimenti

(EN) "Big Data (inglese)"

Voci correlate