Data integration: differenze tra le versioni

Naviga nella cronologia in modo interattivo

← Differenza precedente Differenza successiva →

Contenuto cancellato Contenuto aggiunto

In linea

Versione delle 14:40, 5 dic 2016

Data integration si riferisce ai processi da attuare su dati provenienti da diverse sorgenti per fornire all'utente una visione unificata di quei dati. ^[1] Questo processo si rivela importante in molteplici situazioni, nell'ambito sia commerciale (si pensi a due imprese che debbano unire i loro database) sia scientifico (per esempio, combinare risultati da diversi archivi bioinformatici). La data integration compare con sempre maggior frequenza, allo stesso modo in cui sta esplodendo il volume e la necessità di condividere i dati esistenti.^[2] Questa materia è diventata il centro di un ampio lavoro tecnico, e numerosi problemi aperti restano irrisolti.

Storia

Problemi nella combinazione di fonti di dati eterogenee, spesso identificati come silos di informazioni, attraverso una singola interfaccia per query esistettero per diverso tempo.

Nei primi anni Ottanta, i tecnici informatici cominciarono a progettare sistemi per l'interoperabilità di basi di dati eterogenee.^[3] Il primo sistema di integrazione dei dati guidato da metadati strutturati è stato progettato presso l'Università del Minnesota nel 1991 per Integrated Public Use Microdata Series (IPUMS). IPUMS impiegava un approccio in stile data warehouse che estrae, trasforma e carica i dati provenienti da sorgenti eterogenee in una unica vista, affinché i dati diventino compatibili..^[4] Rendendo interoperabili centinaia di basi di dati relative alla popolazione, IPUMS ha dimostrato la praticabilità di integrazione di dati su larga scala. L'approccio data warehouse offre un'architettura fortemente accoppiata, perché i dati sono già fisicamente riconciliati in un unico archivio interrogabile, in modo che di solito richieda poco tempo risolvere le query.^[5]

L'approccio data warehouse è meno realizzabile per insiemi di dati aggiornati frequentemente: ciò richiede la continua esecuzione del processo ETL (Ectract, Transform, Load) per la sincronizzazione. Difficoltà nascono anche nella costruzione di data warehouse quando si ha un'interfaccia di interrogazione solo su dati sintetizzati e non si ha accesso alla loro totalità. Questo problema sorge frequentemente quando si integrano diversi servizi di interrogazione commerciale quali viaggi o applicazioni web con pubblicità classificata.

A partire dal 2009 l'andamento nella data integration ha l'accoppiamento tra dati fornendo un'interfaccia unificata per l'accesso ai dati in tempo reale attraverso uno schema intermedio, che consente alle informazioni di essere recuperate direttamente dalle basi di dati originali. Ciò è coerente con l'approccio SOA, popolare in quel momento. Questo approccio si basa sulla mappatura tra lo schema intermedio e gli schemi delle fonti originali, trasformando una query in query specializzate sugli schemi specifici delle sorgenti originali. Tali mappature possono essere definite in due modi: con una mappatura dalle entità dello schema intermedio alle entità delle fonti originali (approccio "Global As View" (GAV)), o una mappatura dalle entità dei sorgenti originali alle entità dello schema intermedio (approccio "Local As View" (LAV)). Il secondo approccio richiede inferenze più sofisticate per risolvere interrogazioni sullo schema intermedio, ma rende più facile aggiungere nuove fonti di dati a uno (stabile) schema intermedio.

A partire dal 2010 una parte del lavoro di ricerca sull'integrazione dei dati si occupa del problema dell'integrazione semantica. Questo problema non riguarda il modo di strutturare l'architettura di integrazione, bensì il modo di risolvere i conflitti di semantica tra sorgenti di dati eterogenee. Per esempio: se due società fondono i loro database, alcuni concetti e definizioni nei rispettivi schemi, tipo "guadagni", hanno inevitabilmente significati diversi. In un database potrebbe significare profitti in euro (espressi in numero decimale), mentre nell'altro potrebbe rappresentare il numero di vendite (espresse in numero intero). Una strategia comune per la risoluzione di tali problemi implica l'uso di ontologie che definiscano esplicitamente i termini dello schema e quindi aiutino a risolvere i conflitti semantici. Questo approccio rappresenta l'integrazione dei dati basata su ontologie. D'altra parte, il problema di combinare i risultati di ricerca da archivi bioinformatici differenti richiede benchmarking delle somiglianze calcolato a partire da diverse fonti di dati su un unico criterio, per esempio il valore predittivo positivo. Ciò abilita le diverse fonti a un confronto diretto, e possono essere integrate anche quando la natura degli esperimenti è distinta.^[6]

A partire dal 2011 ci si è resi conti che i metodi di modellazione dei dati attuali stavano imprimendo l'isolamento dei dati in ogni architettura sotto forma di isole di dati disparati e silos di informazioni. Questo isolamento dei dati è un artefatto involontario della metodologia di modellazione dati che provoca lo sviluppo di modelli di dati dissimili. Modelli di dati dissimili, quando stoccati in basi di dati, formano basi di dati dissimili. Modelli avanzati di dati sono stati sviluppati per eliminare l'artefatto e per promuovere lo sviluppo di modelli di dati integrati.^[7]^[8] Un metodo di modellazione dei dati avanzato rimaneggia i modelli di dati aumentandoli con metadati strutturali, sotto forma di entità di dati standardizzate. Come risultato della riscrittura di modelli multipli di dati, l'insieme dei modelli di dati rimaneggiati condivide uno o più relazioni di comunanza che riguardano i metadati strutturali ora comuni a questi modelli di dati. Le relazioni di comunanza sono un tipo di relazione peer-to-peer tra entità, che legano le entità di dati dei modelli multipli standardizzati. I modelli di dati multipli che contengono la stessa entità di dati standard possono partecipare alla stessa relazione comunanza. Quando i modelli di dati integrati sono istanziati come banche dati e sono adeguatamente popolati da una serie comune di dati principali, questi database vengono integrati.

Dal 2011, gli approcci di maggiore intersse per la disciplina si sono rivolti maggiormente al data hub rispetto ai data warehouse completamente strutturati (tipicamente relazionali). Dal 2013 gli approcci di tipo data lake sono arrivati al livello dei data hub.(Si vedano le popolarità dei tre termini di ricerca su Google Trends.^[9] Questi approcci combinano dati non strutturati o diversi in un'unica posizione, ma non richiedono necessariamente uno schema relazionale principale, spesso complesso, per strutturare e definire tutti i dati contenuti.

Teoria dell'integrazione dei dati

La teoria dell'integrazione dei dati costituisce un sottoinsieme della teoria delle basi di dati e formalizza i concetti di fondo del problema attraverso la logica del primo ordine. Applicando le teorie dà indicazione circa la fattibilità e la difficoltà di integrazione. Nonostante le sue teorie possano apparire astratte, esse godono di sufficiente generalità per adattarsi a tutti i sistemi di integrazione,^[10] compresi quelli che includono relazionale nidificato o basi di dati XML^[11] e quelli che trattano i database come programmi^[12]. Le connessioni a particolari DBMS quali Oracle o DB2 sono fornite dalle tecnologie a livello di implementazione, come JDBC, e non sono studiate a livello teorico.

Data integration nella vita scientifica

Interrogativi scientifici su larga scala, come il riscaldamento globale, la diffusione di specie infestanti e l'esaurimento delle risorse richiedono sempre più la raccolta di dati eterogenei per la meta-analisi. Questo tipo di integrazione è particolarmente impegnativa per i dati ambientali ed ecologici, perché gli standard sui metadati non concordati e ci sono molti tipi diversi di dati prodotti in questi campi. Le iniziative della National Science Foundation come Datanet hanno lo scopo di facilitare agli scienziati l'integrazione dei dati, fornendo infrastrutture informatiche e impostazioni standard. Le cinque iniziative Datanet finanziate sono:

DataONE, guidata da William Michener presso l'Università del New Mexico;
The Data Conservancy, guidata da Sayeed Choudhury della Johns Hopkins University;
SEAD (Sustainable Environment through Actionable Data), guidata da Margaret Hedstrom dell'Università del Michigan;
DataNet Federation Consortium, guidata da Reagan Moore della University of North Carolina;
Terra Populus, guidata da Steven Ruggles della University of Minnesota;

La The Data Conservancy ha di recente esplorato la creazione di strutture globali di integrazione. Il progetto OpenPHACTS, finanziato attraverso l'Iniziativa su Medicinali Innovativi dell'Unione Europea, ha costruito una piattaforma di scoperta di nuovi farmaci collegando dataset da parte di fornitori come l'Istituto europeo di bioinformatica, la Royal Society of Chemistry, la UniProt, WikiPathways e la DrugBank.

Bibliografia

^ Maurizio Lenzerini, Data Integration: A Theoretical Perspective (PDF), 2002, pp. 233–246.
^ Frederick Lane, IDC: World Created 161 Billion Gigs of Data in 2006 IDC: World Created 161 Billion Gigs of Data in 2006.
^ John Miles Smith, Multibase: integrating heterogeneous distributed database systems, p. 487–499.
^ Steven Ruggles, J. David Hacker, and Matthew Sobek, Order out of Chaos: The Integrated Public Use Microdata Series, p. 33–39.
^ Jennifer Widom, Research problems in data warehousing, p. 25–30.
^ Shubhra S. Ray, Combining Multi-Source Information through Functional Annotation based Weighting: Gene Function Prediction in Yeast (PDF), in IEEE Transactions on Biomedical Engineering, vol. 56, n. 2, 2009, pp. 229–236, DOI:10.1109/TBME.2008.2005955.
^ Michael Mireku Kwakye, A Practical Approach To Merging Multidimensional Data Models.
^ Rapid Architectural Consolidation Engine – The enterprise solution for disparate data models. (PDF), su iri.com, 2011.
^ Hub Lake and Warehouse search trends, su google.com.
^ A Model Theory for Generic Schema Management, su link.springer.com.
^ Nested Mappings: Schema Mapping Reloaded (PDF), su vldb.org.
^ The Common Framework Initiative for algebraic specification and development of software (PDF), su homepages.inf.ed.ac.uk.

[refone-1] Maurizio Lenzerini, Data Integration: A Theoretical Perspective (PDF), 2002, pp. 233–246.

[DataExplode-2] Frederick Lane, IDC: World Created 161 Billion Gigs of Data in 2006 IDC: World Created 161 Billion Gigs of Data in 2006.

[3] John Miles Smith, Multibase: integrating heterogeneous distributed database systems, p. 487–499.

[4] Steven Ruggles, J. David Hacker, and Matthew Sobek, Order out of Chaos: The Integrated Public Use Microdata Series, p. 33–39.

[5] Jennifer Widom, Research problems in data warehousing, p. 25–30.

[6] Shubhra S. Ray, Combining Multi-Source Information through Functional Annotation based Weighting: Gene Function Prediction in Yeast (PDF), in IEEE Transactions on Biomedical Engineering, vol. 56, n. 2, 2009, pp. 229–236, DOI:10.1109/TBME.2008.2005955.

[7] Michael Mireku Kwakye, A Practical Approach To Merging Multidimensional Data Models.

[8] Rapid Architectural Consolidation Engine – The enterprise solution for disparate data models. (PDF), su iri.com, 2011.

[9] Hub Lake and Warehouse search trends, su google.com.

[10] A Model Theory for Generic Schema Management, su link.springer.com.

[11] Nested Mappings: Schema Mapping Reloaded (PDF), su vldb.org.

[12] The Common Framework Initiative for algebraic specification and development of software (PDF), su homepages.inf.ed.ac.uk.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

@@ Riga 2: / Riga 2: @@
 {{F|informatica|novembre 2016}}
 {{W|informatica|novembre 2016}}
-'''Data integration''' si riferisce ai processi da attuare su dati provenienti da diverse sorgenti per fornire all'utente una visione unificata di quei dati.
+'''Data integration''' si riferisce ai processi da attuare su dati provenienti da diverse sorgenti per fornire all'utente una visione unificata di quei dati. <ref name="refone">
+{{cite conference | author=Maurizio Lenzerini | title=Data Integration:  A Theoretical Perspective | booktitle=PODS 2002 | year=2002 | pages=233–246 | url=http://www.dis.uniroma1.it/~lenzerin/homepagine/talks/TutorialPODS02.pdf}}</ref>
 Questo processo si rivela importante in molteplici situazioni, nell'ambito sia commerciale (si pensi a due imprese che debbano unire i loro [[Base di dati|database]]) sia scientifico (per esempio, combinare risultati da diversi archivi [[Bioinformatica|bioinformatici]]).
-La data integration compare con sempre maggior frequenza, allo stesso modo in cui sta esplodendo il volume e la necessità di condividere i dati esistenti.
+La data integration compare con sempre maggior frequenza, allo stesso modo in cui sta esplodendo il volume e la necessità di condividere i dati esistenti.<ref name="DataExplode">{{cite news | author=Frederick Lane | title=IDC: World Created 161 Billion Gigs of Data in 2006 | year=2006 | url=http://www.toptechnews.com/story.xhtml?story_id=01300000E3D0&full_skip=1 IDC: World Created 161 Billion Gigs of Data in 2006}}</ref>
 Questa materia è diventata il centro di un ampio lavoro tecnico, e numerosi problemi aperti restano irrisolti.
@@ Riga 10: / Riga 11: @@
 Problemi nella combinazione di fonti di dati [[Eterogeneità|eterogenee]], spesso identificati come silos di informazioni, attraverso una singola interfaccia per [[query]] esistettero per diverso tempo.
-Nei primi anni Ottanta, i tecnici informatici cominciarono a progettare sistemi per l'interoperabilità di basi di dati eterogenee.
+Nei primi anni Ottanta, i tecnici informatici cominciarono a progettare sistemi per l'interoperabilità di basi di dati eterogenee.<ref>{{cite news | author= John Miles Smith | title= Multibase: integrating heterogeneous distributed database systems | year=1982 | journal=AFIPS '81 Proceedings of the May 4–7, 1981, national computer conference  | pages= 487–499 |url=http://dl.acm.org/citation.cfm?id=1500483|display-authors=etal}}</ref>
-Il primo sistema di integrazione dei dati guidato da metadati strutturati è stato progettato presso l'[[Università del Minnesota]] nel 1991 per Integrated Public Use Microdata Series (IPUMS). IPUMS impiegava un approccio in stile [[data warehouse]] che estrae, trasforma e carica i dati provenienti da sorgenti eterogenee in una unica vista, affinché i dati diventino compatibili.
+Il primo sistema di integrazione dei dati guidato da metadati strutturati è stato progettato presso l'[[Università del Minnesota]] nel 1991 per Integrated Public Use Microdata Series (IPUMS). IPUMS impiegava un approccio in stile [[data warehouse]] che estrae, trasforma e carica i dati provenienti da sorgenti eterogenee in una unica vista, affinché i dati diventino compatibili..<ref>{{cite news | author= [[Steven Ruggles]], J. David Hacker, and Matthew Sobek | title= Order out of Chaos: The Integrated Public Use Microdata Series | year=1995 | journal=Historical Methods |volume=28 | pages= 33–39}}</ref>
-Rendendo interoperabili centinaia di basi di dati relative alla popolazione, IPUMS ha dimostrato la praticabilità di integrazione di dati su larga scala. L'approccio data warehouse offre un'architettura fortemente accoppiata, perché i dati sono già fisicamente riconciliati in un unico archivio interrogabile, in modo che di solito richieda poco tempo risolvere le query.
+Rendendo interoperabili centinaia di basi di dati relative alla popolazione, IPUMS ha dimostrato la praticabilità di integrazione di dati su larga scala. L'approccio data warehouse offre un'architettura fortemente accoppiata, perché i dati sono già fisicamente riconciliati in un unico archivio interrogabile, in modo che di solito richieda poco tempo risolvere le query.<ref>{{cite news | author= Jennifer Widom | title= Research problems in data warehousing | year=1995 | journal=CIKM '95 Proceedings of the fourth international conference on information and knowledge management | pages= 25–30 | url=http://dl.acm.org/citation.cfm?id=221319}}</ref>
 L'approccio data warehouse è meno realizzabile per insiemi di dati aggiornati frequentemente: ciò richiede la continua esecuzione del processo [[ETL|ETL (Ectract, Transform, Load)]] per la sincronizzazione. Difficoltà nascono anche nella costruzione di data warehouse quando si ha un'interfaccia di interrogazione solo su dati sintetizzati e non si ha accesso alla loro totalità.
@@ Riga 22: / Riga 23: @@
 A partire dal 2010 una parte del lavoro di ricerca sull'integrazione dei dati si occupa del problema dell'integrazione semantica. Questo problema non riguarda il modo di strutturare l'architettura di integrazione, bensì il modo di risolvere i conflitti di semantica tra sorgenti di dati eterogenee. Per esempio: se due società fondono i loro database, alcuni concetti e definizioni nei rispettivi schemi, tipo "guadagni", hanno inevitabilmente significati diversi. In un database potrebbe significare profitti in euro (espressi in numero decimale), mentre nell'altro potrebbe rappresentare il numero di vendite (espresse in numero intero). Una strategia comune per la risoluzione di tali problemi implica l'uso di [[Ontologia (informatica)|ontologie]] che definiscano esplicitamente i termini dello schema e quindi aiutino a risolvere i conflitti semantici.
 Questo approccio rappresenta l'integrazione dei dati basata su ontologie.
-D'altra parte, il problema di combinare i risultati di ricerca da archivi bioinformatici differenti richiede benchmarking delle somiglianze calcolato a partire da diverse fonti di dati su un unico criterio, per esempio il valore predittivo positivo. Ciò abilita le diverse fonti a un confronto diretto, e possono essere integrate anche quando la natura degli esperimenti è distinta.
+D'altra parte, il problema di combinare i risultati di ricerca da archivi bioinformatici differenti richiede benchmarking delle somiglianze calcolato a partire da diverse fonti di dati su un unico criterio, per esempio il valore predittivo positivo. Ciò abilita le diverse fonti a un confronto diretto, e possono essere integrate anche quando la natura degli esperimenti è distinta.<ref>{{cite journal| url=http://shubhrasankar.tripod.com/cgi-bin/combiningMultisourceIEEE.pdf  | journal=IEEE Transactions on Biomedical Engineering | title=Combining Multi-Source Information through Functional Annotation based Weighting: Gene Function Prediction in Yeast| author=Shubhra S. Ray| volume = 56 | pages=229–236 | pmid=19272921 | year=2009| issue=2 | doi=10.1109/TBME.2008.2005955|display-authors=etal}}</ref>
-A partire dal 2011 ci si è resi conti che i metodi di modellazione dei dati attuali stavano imprimendo l'isolamento dei dati in ogni architettura sotto forma di isole di dati disparati e silos di informazioni. Questo isolamento dei dati è un artefatto involontario della metodologia di modellazione dati che provoca lo sviluppo di modelli di dati dissimili. Modelli di dati dissimili, quando stoccati in basi di dati, formano basi di dati dissimili. Modelli avanzati di dati sono stati sviluppati per eliminare l'artefatto e per promuovere lo sviluppo di modelli di dati integrati.
+A partire dal 2011 ci si è resi conti che i metodi di modellazione dei dati attuali stavano imprimendo l'isolamento dei dati in ogni architettura sotto forma di isole di dati disparati e silos di informazioni. Questo isolamento dei dati è un artefatto involontario della metodologia di modellazione dati che provoca lo sviluppo di modelli di dati dissimili. Modelli di dati dissimili, quando stoccati in basi di dati, formano basi di dati dissimili. Modelli avanzati di dati sono stati sviluppati per eliminare l'artefatto e per promuovere lo sviluppo di modelli di dati integrati.<ref>{{cite news | author= Michael Mireku Kwakye | title= A Practical Approach To Merging Multidimensional Data Models | year=2011 | url=http://hdl.handle.net/10393/20457 }}</ref><ref>{{cite web | url=http://www.iri.com/pdf/RapidAce-Brochure.pdf  | title=Rapid Architectural Consolidation Engine&nbsp;– The enterprise solution for disparate data models. | year=2011 }}</ref>
 Un metodo di modellazione dei dati avanzato rimaneggia i modelli di dati aumentandoli con metadati strutturali, sotto forma di entità di dati standardizzate. Come risultato della riscrittura di modelli multipli di dati, l'insieme dei modelli di dati rimaneggiati condivide uno o più relazioni di comunanza che riguardano i metadati strutturali ora comuni a questi modelli di dati. Le relazioni di comunanza sono un tipo di relazione peer-to-peer tra entità, che legano le entità di dati dei modelli multipli standardizzati. I modelli di dati multipli che contengono la stessa entità di dati standard possono partecipare alla stessa relazione comunanza. Quando i modelli di dati integrati sono istanziati come banche dati e sono adeguatamente popolati da una serie comune di dati principali, questi database vengono integrati.
 Dal 2011, gli approcci di maggiore intersse per la disciplina si sono rivolti maggiormente al [[Data_hub |data hub]] rispetto ai data warehouse completamente strutturati (tipicamente relazionali).
-Dal 2013 gli approcci di tipo data lake sono arrivati al livello dei data hub.
+Dal 2013 gli approcci di tipo data lake sono arrivati al livello dei data hub.(Si vedano le popolarità dei tre termini di ricerca su Google Trends.<ref>{{cite web |title=Hub Lake and Warehouse search trends|url=https://www.google.com/trends/explore#q=enterprise%20data%20warehouse%2C%20%22data%20hub%22%2C%20%22data%20lake%22&cmpt=q&tz=Etc%2FGMT%2B5}}</ref>
 Questi approcci combinano dati non strutturati o diversi in un'unica posizione, ma non richiedono necessariamente uno schema relazionale principale, spesso complesso, per strutturare e definire tutti i dati contenuti.
 ==Teoria dell'integrazione dei dati==
 La teoria dell'integrazione dei dati costituisce un sottoinsieme della teoria delle basi di dati e formalizza i concetti di fondo del problema attraverso la [[logica del primo ordine]].
-Applicando le teorie dà indicazione circa la fattibilità e la difficoltà di integrazione. Nonostante le sue teorie possano apparire astratte, esse godono di sufficiente generalità per adattarsi a tutti i sistemi di integrazione, compresi quelli che includono relazionale nidificato o [[Database XML|basi di dati XML]] e quelli che trattano i database come programmi.
+Applicando le teorie dà indicazione circa la fattibilità e la difficoltà di integrazione. Nonostante le sue teorie possano apparire astratte, esse godono di sufficiente generalità per adattarsi a tutti i sistemi di integrazione,<ref>{{cite web|url=http://link.springer.com/chapter/10.1007/3-540-46093-4_14 |title=A Model Theory for Generic Schema Management}}</ref> compresi quelli che includono relazionale nidificato o [[Database XML|basi di dati XML]]<ref>{{cite web|url=http://www.vldb.org/conf/2006/p67-fuxman.pdf |title=Nested Mappings: Schema Mapping Reloaded }}</ref> e quelli che trattano i database come programmi<ref>{{cite web|url=http://homepages.inf.ed.ac.uk/dts/pub/psi.pdf |title=The Common Framework Initiative for algebraic specification and development of software}}</ref>.
 Le connessioni a particolari [[DBMS]] quali [[Oracle]] o [[DB2]] sono fornite dalle tecnologie a livello di implementazione, come [[JDBC]], e non sono studiate a livello teorico.
@@ Riga 46: / Riga 47: @@
 La ''The Data Conservancy'' ha di recente esplorato la creazione di strutture globali di integrazione.
 Il progetto OpenPHACTS, finanziato attraverso l'Iniziativa su Medicinali Innovativi dell'[[Unione Europea]], ha costruito una piattaforma di scoperta di nuovi farmaci collegando dataset da parte di fornitori come l'[[Istituto europeo di bioinformatica]], la [[Royal Society of Chemistry]], la [[UniProt]], WikiPathways e la [[DrugBank]].
+==Bibliografia==
+<references/>

Data integration: differenze tra le versioni

Versione delle 14:40, 5 dic 2016

Indice

Storia

Teoria dell'integrazione dei dati

Data integration nella vita scientifica

Bibliografia

Menu di navigazione

Data integration: differenze tra le versioni

Versione delle 14:40, 5 dic 2016

Storia

Teoria dell'integrazione dei dati

Data integration nella vita scientifica

Bibliografia

Menu di navigazione

Ricerca