Vai al contenuto

Dati composizionali

Da Wikipedia, l'enciclopedia libera.

In statistica, i dati composizionali sono descrizioni quantitative delle parti di un tutto, che esprimono esclusivamente informazioni relative al tutto. Possono essere considerate dati composizionali misurazioni che comprendono probabilità, proporzioni e percentuali. La caratteristica più rilevante di questo tipo di dati è che la loro somma è sempre uguale a una costante (1 per le proporzioni e 100 per le percentuali). Tali dati sono molto comuni in settori di ricerca come, ad esempio, la geologia. [1]

La definizione originale, data dallo statistico scozzese John Aitchison nel 1986, ha diverse implicazioni:

  • Un punto composizionale o, più brevemente, una composizione, può essere rappresentato da un vettore di reali positivi con tante parti quante sono quelle considerate. Se il totale è fisso e noto, una componente del vettore può anche essere omessa.
  • Poiché le composizioni contengono solo informazioni relative, l'unica informazione è fornita attraverso rapporti fra componenti. Di conseguenza, una composizione moltiplicata per una qualsiasi costante positiva contiene la stessa informazione della precedente. Pertanto, i vettori positivi proporzionali risultano equivalenti se visti come come composizioni.
  • Come di consueto in matematica, classi equivalenti sono rappresentate da un elemento della classe, chiamato rappresentante. Pertanto, le composizioni equivalenti possono essere rappresentate da vettori positivi le cui componenti sommate danno una costante prefissata . L'operazione vettoriale che assegna il rappresentante della somma costante è detta chiusura ed è indicata con :

dove denota il numero di parti (componenti) e indica un vettore-riga.

  • I dati composizionali possono essere rappresentati da vettori reali a somma costante con componenti positive e questi vettori coprono un simplesso, definito come segue: [2]

Lo spazio campionario è anche noto come simplesso di Aitchison. È possibile definire una struttura alternativa dello spazio vettoriale nel simplesso di Aitchison, il che ha portato allo sviluppo della geometria di Aitchison. [3]

  • Ogni punto dati potrebbe corrispondere a una roccia composta da tre minerali diversi: una roccia che ha il 10% composto dal primo minerale, il 30% composto dal secondo minerale e il restante 60% composto dal terzo minerale corrisponderebbe a triplo ; un insieme di dati conterrebbe una tripla siffatta per ogni roccia in un campione di roccia.
  • Ogni dato può corrispondere a una città: una città in cui il 35% degli abitanti è cristiano, il 55% musulmano, il 6% ebreo e il restante 4% di altre religioni corrisponderebbe alla quadrupla ; un insieme di dati potrebbe costituire un elenco di città.
  • In chimica, le composizioni possono essere espresse come concentrazioni molari di ciascun componente. Poiché la somma di tutte le concentrazioni non è determinata, è necessaria l'intera composizione delle parti quindi espressa come un vettore di concentrazioni molari. Queste composizioni possono essere tradotte in un peso in percentuale moltiplicando ciascun componente per la costante appropriata.
  • In un sondaggio, le proporzioni di persone che rispondono positivamente a diversi elementi possono essere espresse come percentuali. Poiché la quantità totale è identificata come 100, il vettore composizionale di componenti può essere definito utilizzando solo componenti, supponendo che la componente rimanente sia la percentuale richiesta affinché l'intero vettore dia come risultato 100.
  • In probabilità e statistica, una partizione dello spazio campionario in eventi disgiunti è descritta dalle probabilità assegnate a tali eventi. Il vettore di le probabilità possono essere considerate come una composizione di parti. Poiché la loro somma è 1, una probabilità può essere eliminata e la composizione è completamente determinata.
  • Nel sequenziamento ad alto rendimento, i dati ottenuti sono composizioni di conteggio, poiché la capacità della macchina determina il numero di letture osservate. Queste possono essere ridotte alle probabilità di osservare una caratteristica data la profondità di sequenziamento. [4]
  1. (EN) J. Aitchison, The Statistical Analysis of Compositional Data, Springer Netherlands, 4 ottobre 2011, ISBN 9789401083249.
  2. Boogaart, K. Gerald van den., Analyzing compositional data with R, Springer, 2013, ISBN 9783642368097, OCLC 852961394.
  3. Vera Pawlowsky-Glahn, Juan José Egozcue e Raimon Tolosana-Delgado, Lecture Notes on Compositional Data Analysis, 2007.
  4. (EN) Vera Pawlowsky-Glahn, Juan José Egozcue e Raimon Tolosana-Delgado, Modeling and Analysis of Compositional Data, John Wiley & Sons, 30 marzo 2015, ISBN 9781118443064.