Scienza dei dati

Da Wikipedia, l'enciclopedia libera.
Vai alla navigazione Vai alla ricerca
Schema di un processo di analisi nell'ambito della scienza dei dati.

La scienza dei dati è l'insieme di principi metodologici (basati sul metodo scientifico) e di tecniche multidisciplinari volto a interpretare ed estrarre conoscenza dai dati attraverso la relativa fase di analisi da parte di un esperto, chiamato scienziato dei dati (data scientist)[1][2].

I metodi della scienza dei dati (spesso associati al concetto di data mining) si basano su tecniche provenienti da varie discipline, principalmente da matematica, statistica, scienza dell'informazione, informatica e scienze sociali, in particolar modo nei seguenti sottodomini: basi di dati e visualizzazione dati o business intelligence, intelligenza artificiale o apprendimento automatico. Il ruolo di scienziato dei dati è stato definito dalla Harvard Business Review come «la professione più attraente del XXI secolo»[3] ed è considerato uno dei quattro ruoli chiave preposti all'utilizzo sistematico dei big data nelle aziende[4].

Storia[modifica | modifica wikitesto]

Nel 1962, John Tukey descrisse un campo che chiamò "analisi dei dati", che ricorda la moderna scienza dei dati.[5] Il termine "scienza dei dati" è stato introdotto per la prima volta nel 1974 dall'informatico danese Peter Naur nel suo libro Concise Survey of Computer Methods come evoluzione del concetto di datalogy utilizzato dallo stesso Naur qualche anno prima[6] per contrapporlo al concetto più limitativo di informatica. In questa prima definizione, Naur intende la scienza dei dati come una disciplina relativa alla gestione e alla manipolazione dei dati così come si presentano[7], ponendo poca enfasi alla possibilità di estrarre, dagli stessi dati, informazioni di valore.

È stata riconosciuta come disciplina a sé stante (quindi non più una branca di informatica e statistica) soltanto nel 2001, quando William Cleveland ne delineò i campi di competenza, elencando sei diverse aree: ricerca multidisciplinare, modelli, elaborazione dati, pedagogia, valutazione degli strumenti e teoria[8].

Con l'avvento dei big data e dell'idea di "valore del dato" propria di questo paradigma, è evoluto il concetto stesso di scienza dei dati, che diviene così una scienza olistica[senza fonte], il quale principio fondante non è la mera gestione del dato, ma una più ampia valorizzazione della grande mole eterogenea di dati proveniente da diverse fonti (data warehouse, sensori, web, ecc...). La scienza dei dati al giorno d'oggi va quindi intesa come una disciplina trasversale, cui fanno capo sia le sfere dell'informatica, della statistica e della matematica, come nell'accezione originale, sia un insieme di competenze più manageriali, legate alla più recente necessità di sapere leggere, interpretare e capitalizzare i dati a fini di business.

L'«Osservatorio Big data analytics & Business intelligence» del Politecnico di Milano nel 2018 ha svolto un'analisi delle offerte di lavoro pubblicate su LinkedIn individuando le figure professionali più richieste dalle aziende nel settore delle Scienze dei dati. Da quest'analisi è stato possibile individuare almeno tre tipi di profili professionali distinti: il data scientist, il data engineer e il data analyst.[9]

La scienza dei dati è una parte importante della cosiddetta industria 4.0,[10] che concettualizza il rapido cambiamento della tecnologia, delle industrie e dei modelli e dei processi sociali nel 21º secolo a causa della crescente interconnettività e dell'automazione intelligente.[11]

Relazione con la statistica[modifica | modifica wikitesto]

Molti statistici, tra cui Nate Silver, hanno sostenuto che la scienza dei dati non è un campo nuovo, ma piuttosto un altro nome per scienza della statistica. Altri sostengono che la scienza dei dati è distinta dalle statistiche perché si concentra su problemi e tecniche esclusivi dei dati digitali. Vasant Dhar scrive che la statistica enfatizza i dati quantitativi e la descrizione. Al contrario, la scienza dei dati si occupa di dati quantitativi e qualitativi (ad esempio immagini) e sottolinea la previsione e l'azione.[12]

Andrew Gelman della Columbia University ha descritto le statistiche come una parte non essenziale della scienza dei dati.[13] Il professore di Stanford David Donoho scrive che la scienza dei dati non si distingue dalle statistiche per la dimensione dei set di dati o l'uso dell'informatica, e che molti programmi di laurea pubblicizzano in modo fuorviante la loro formazione analitica e statistica come l'essenza di un programma di scienza dei dati.[14]

Descrive la scienza dei dati come un campo applicato che nasce dalla statistica tradizionale. In sintesi, la scienza dei dati può essere quindi descritta come una branca applicata della statistica.

Note[modifica | modifica wikitesto]

  1. ^ (EN) Foster Provost e Tom Fawcett, Data Science and its Relationship to Big Data and Data-Driven Decision Making, in Big Data, vol. 1, n. 1, 13 febbraio 2013, pp. 51–59, DOI:10.1089/big.2013.1508. URL consultato il 27 agosto 2017.
  2. ^ Vasant Dhar, Data Science and Prediction, in Commun. ACM, vol. 56, n. 12, dicembre 2013, pp. 64–73, DOI:10.1145/2500499. URL consultato il 27 agosto 2017.
  3. ^ Data Scientist: The Sexiest Job of the 21st Century, in Harvard Business Review. URL consultato il 27 agosto 2017.
  4. ^ Andrea De Mauro, Marco Greco e Michele Grimaldi, Human resources for Big Data professions: A systematic classification of job roles and required skill sets, in Information Processing & Management, DOI:10.1016/j.ipm.2017.05.004. URL consultato il 27 agosto 2017.
  5. ^ David Donoho, 50 years of Data Science (PDF), su courses.csail.mit.edu, 18 settembre 2015. URL consultato il 2 aprile 2020.
  6. ^ Peter Naur, The science of datalogy, in Communications of the ACM, vol. 9, n. 7, 1966.
  7. ^ Peter Naur, Concise Survey of Computer Methods, Studentlitteratur, 1974.
  8. ^ William S. Cleveland, Data science: An action plan for expanding the technical areas of the field of statistics, in International Statistical Review, 2001.
  9. ^ Data Science: i must have per la gestione dei Big Data, su blog.osservatori.net.
  10. ^ (EN) Chunguang Bai, Patrick Dallasega, Guido Orzes e Joseph Sarkis, Industry 4.0 technologies assessment: A sustainability perspective, in International Journal of Production Economics, vol. 229, 1º novembre 2020, pp. 107776, DOI:10.1016/j.ijpe.2020.107776, ISSN 0925-5273 (WC · ACNP).
  11. ^ Kevin Huo, Nick Singh, Ace the data science interview, 2021, ISBN 978-0578973838.
  12. ^ (EN) DharVasant, Data science and prediction, in Communications of the ACM, vol. 56, n. 12, 1º dicembre 2013, pp. 64–73, DOI:10.1145/2500499.
  13. ^ Nate Silver: What I need from statisticians - Statistics Views, su statisticsviews.com. URL consultato il 3 aprile 2020.
  14. ^ Jake VanderPlas, Python Data Science Handbook, O'Reilly Media, 2016, ISBN 978-1491912058.

Voci correlate[modifica | modifica wikitesto]

Altri progetti[modifica | modifica wikitesto]

  Portale Statistica: accedi alle voci di Wikipedia che trattano di statistica