Variabile (statistica)

Da Wikipedia, l'enciclopedia libera.

In statistica per variabile o carattere s'intende generalmente un insieme di caratteristiche rilevate su una o più unità statistiche appartenenti ad una popolazione o ad un campione di riferimento come esito di un'indagine, a tal proposito di parla di variabili semplici (il cui oggetto è una sola caratteristica specifica) e di variabili multiple — doppie, triple, ecc. — (i cui oggetti sono più caratteristiche di riferimento).

Classificazione[modifica | modifica wikitesto]

I dati che possono venire fuori da un'indagine statistica possono essere di natura differente e, spesso, non sempre è logico confrontare o accorpare dati diversi allo scopo di una loro sintetizzazione in termini di significato statistico autentico e affidabile, per tale motivo si suole distinguere le variabili statistiche (semplici) per natura, compatibilmente con il tipo di dati ivi contenuti, principalmente in:

  • Variabili qualitative (o mutabili statistiche)
  • Variabili quantitative (o semplicemente solo variabili)

Questi due tipi di variabili possiedono chiaramente caratteristiche differenti e molte proprietà o peculiarità che valgono per le une (ossia per le quantitative) non valgono per le altre, in particolare, in termini di ricchezza di contenuto informativo — derivante dal tipo di relazioni che è possibile stabilire tra i valori che le variabili possono assumere — si può stabilire un ordine gerarchico in cui generalmente  Var.qualitative< Var.quantitative

All'interno di queste due categorie generali si possono ulteriormente fare distinzioni più specifiche per contraddistinguere meglio il contenuto qualitativo–informativo dei caratteri considerati, così, fra le variabili qualitative (o mutabili statistiche) si hanno:

  • Variabili qualitative sconnesse
  • Variabili qualitative ordinate (o ordinabili o rettilinee)

Mentre, per i caratteri quantitativi si avranno:

  • Variabili quantitative discrete
  • Variabili quantitative continue

All'interno della categoria dei caratteri quantitativi continui si può poi distinguere fra:

  • Variabili quantitative per scala di intervalli
  • Variabili quantitative per scala di rapporti

Una variabile multipla, le cui singole variabili semplici siano tutte dello stesso tipo, viene detta variabile omogenea.

Tali distinzioni sono di notevole importanza per l'interpretazione dei dati forniti dall'indagine di un particolare fenomeno statistico e, inoltre, sono particolarmente utili nello stabilire i più opportuni indici di sintetizzazione degli stessi, giacché, come è già di facile intuizione, non tutti i dati si prestano a particolari operazioni di calcolo senza alterarne il significato logico e statistico.

Proprietà[modifica | modifica wikitesto]

Sul piano formale si può considerare una variabile statistica come una funzione che assegna ad ogni particolare modo di manifestarsi di una caratteristica del carattere in esame un determinato valore informativo. In generale il valore assunto da una variabile viene denominato modalità, tuttavia a volte tale termine viene preferito attribuirlo alle sole variabili qualitative e assegnare il solo termine valore ai caratteri quantitativi.

Siano  C un generico insieme dei possibili modi di manifestarsi di un carattere  X , e  M un generico insieme che attribuisce un determinato valore informativo agli  c_i elementi di  C [1], allora si avrà:

\begin{matrix} X: & C & \longrightarrow & M \end{matrix}

con  X(C)= m_i o  X(C)=x_i che indica la i-esima modalità (o valore) assunta dal carattere  X, con  i=1,2,...,k ove  k è la cardinalità di  C, se  C è un insieme finito, o in generale il numero di manifestazioni prese in considerazione del carattere (ovvero il numero di modalità) per selta se  C eventualmente fosse un insieme infinito.

Di seguito vengono riportate le singole proprietà relative ai diversi tipi di variabili statistiche:

Variabili qualitative sconnesse[modifica | modifica wikitesto]

Tale tipo di variabili contiene il più elementare genere di dati statistici, con i quali è solamente possibile stabilire una relazione d'equivalenza \sim perché tale tipo di caratteri, da un punto di vista statistico, può solamente fornire tale tipo di contenuto informativo e non avrebbe nessun significato stabilire qualsivoglia altro tipo di relazione. Così, per tale tipo di caratteri, in sostanza è possibile stabilire solamente l'"uguaglianza" o meno tra le varie modalità rilevate. Esempi di tali tipi di variabili sono i caratteri: sesso, religione, colore dei capelli ecc. fra le cui diverse modalità possibili (maschio o femmina, islamico o ebreo o cristiano ecc., biondo o castano o rosso ecc.) non è cioè possibile stabilire una gerarchia ordinale (non ha nessun tipo di significato statistico dire che maschio < femmina o che biondo > castano eccetera, si può solamente stabilire maschio = maschio o femmina ≠ maschio); tali caratteri, dunque, sono quelli dal più povero contenuto informativo. L'unico indice di tendenza centrale dei dati che ha senso determinare con tale tipo di variabili è la moda.

Variabili qualitative ordinate[modifica | modifica wikitesto]

Il contenuto informativo di queste variabili è già superiore a quello delle variabili qualitative sconnesse e, fra le variabili qualitative, contengono indubbiamente il contenuto informativo più ampio. Per tali caratteri è possibile stabilire sia una relazione di equivalenza \sim che una relazione d'ordine \preccurlyeq. Tali caratteri sono quindi ordinabili in senso crescente e decrescente e ciò è particolarmente vantaggioso rispetto ai caratteri qualitativi sconnessi poiché con essi, oltre alla moda o norma, è possibile determinare (approssimativamente) anche indici di posizione come i quantili, in particolare la mediana, nonché, in una distribuzione di frequenza, le cosiddette frequenze cumulate, utili per trarre informazioni quali-quantitative in più dai dati. Esempi di tali variabili sono caratteri come: titolo di studio, grado professionale, stato di salute ecc., cioè tutti quei caratteri che si manifestano qualitativamente ma per i quali è possibile stabilire, oltre alla "uguaglianza" o "diversità", un ordine oggettivo fra le modalità che può assumere (diploma superiore < laurea triennale, diploma superiore ≠ laurea triennale).

Variabili quantitative continue[modifica | modifica wikitesto]

Questo genere di variabili statistiche afferisce a dati che vengono ricavati da processi di misurazione, per cui per esse assume importanza la scala di misura adottata: di intervalli o di rapporti. Si può comodamente affermare che per questo tipo di caratteri,  X sia una funzione:

\begin{matrix} X: & C & \longrightarrow & \Bbb{R} \end{matrix}

dato che ora le modalità possono assumere valori numerici nel campo dei reali, siano essi positivi o negativi. Naturalmente tale tipo di caratteri presenta un contenuto informativo maggiore delle variabili qualitative, giacché con esse è possibile estrapolare maggiori informazioni di sintesi che, grazie alla natura quantitativa dei caratteri, possono trarsi grazie almeno alle operazioni di somma algebrica, le quali possono sempre effettuarsi senza disturbare il significato statistico di ciò che si ottiene (il rapporto algebrico assume senso statistico solo per i caratteri quantitativi per scala di rapporto). Con tali caratteri è possibile determinare tutti i possibili indici di tendenza centrale, gli indici di variabilità e gli indici di forma e di asimmetria.

Si esaminano i due tipi di caratteri quantitativi in base alla scala di misurazione adottata:

Per scala di intervallo[modifica | modifica wikitesto]

In questo tipo di variabili, fissata un'unità di misura ed un'origine della scala di misura, un qualsiasi intervallo fra due valori della scala indica sempre la medesima quantità, ossia si ha conservazione degli intervalli; si parla in tal caso di relazione d'uguaglianza, oltre alle già citate in precedenza relazioni d'equivalenza e d'ordine. Il confronto fra due valori di uno stesso carattere rilevati con unità di misura diverse e con strumenti con stessa precisione, infatti, mantiene inalterata la loro differenza (tenendo conto delle differenze fra le diverse scale). Se le misure venissero rilevate sempre con le stesse condizioni fisico-ambientali, rimarrebbero inalterati pure i rapporti (valga per tutti il caso della temperatura: al variare delle condizioni di pressione atmosferica cambia l'intervallo fra il punto di congelamento dell'acqua e il punto di ebollizione e quindi le relative unità di misura basate su tale intervallo perdono in termini di significato assoluto), giacché però ciò non può verificarsi sempre, poiché in queste scale l'origine è convenzionale (e quindi possono assumere anche valori negativi: motivo per cui non può in linea generale calcolarsi la media geometrica per tale tipo di dati) e non coincide con lo zero fisico — vale a dire un valore al di sotto del quale non è possibile che si presentino i dati —, in generale non vale la relazione di rapporto.

Per scala di rapporto[modifica | modifica wikitesto]

Avendo tali variabili come origine della scala di misura lo zero fisico (o assoluto), per tali caratteri vale anche la cosiddetta relazione di rapporto, che statisticamente indica una condizione con la quale assume senso, da un punto di vista informativo, operare anche rapporti algebrici tra le modalità della variabile. Da ciò dunque si evince che tali caratteri sono quelli più ricchi dal punto di vista del contenuto informativo poiché è possibile effettuarne operazioni di sintesi e di calcolo sempre e comunque.

Variabili quantitative discrete[modifica | modifica wikitesto]

Tali variabili si riferiscono a dati che vengono ricavati da un processo di enumerazione e, in termini formali, il loro insieme di arrivo  M è un insieme numerico discreto appartenente alla famiglia dei naturali (M \subseteq \mathbb{N}). I dati che presenta questo tipo di variabile sono molto controversi, infatti, attraverso un'operazione di codifica è possibile associare un valore quantitativo discreto alle modalità di una variabile quantitativa, va de sé che dunque il significato informativo espresso dalle modalità da tale genere di carattere può non rappresentare in realtà alcun significato aritmetico, poiché gli "intervalli" fra i valori numerici ottenuti non esprimono nessuna differenza quantitativamente definibile con chiarezza o precisione, giacché non pervenuta tramite strumenti di misura bensì tramite valutazioni e giudizi soggettivi (un caso emblematico sono i giudizi espressi in termini di voto, come ad esempio a scuola — in effetti, il carattere "voto" — a parte il dato quantitativo — è a tutti gli effetti una variabile qualitativa ordinata). Oppure, il conteggio numerico tramite il quale si è pervenuti ai dati rappresentanti le modalità del carattere è possibile che descriva invero una caratteristica vaga, non definibile chiaramente (es. "numero di auto vendute", "numero di incidenti stradali", "numero di vani di un appartamento" ecc.), che non consente di descrivere meglio le caratteristiche intrinseche del fenomeno in esame, per tale ragione il trattamento di questi dati tramite misure di sintesi va effettuato molto cautelativamente, poiché in molte istanze determinati indici statistici non hanno neppure un significato "materiale" (si pensi ad una eventuale media aritmetica degli incidenti stradali, il risultato che se ne trarrebbe sarebbe già un numero continuo e non più discreto ed avrebbe poco senso in termini tangibili), pertanto l'uso che si fa di tali indici su questo tipo di variabili è da considerarsi solo come "descrittivo" e non già come di "sintesi".

Riepilogando dunque vi è:

Tipologia dato Contenuto informativo
Variabili qualitative sconnesse Relazione d'equivalenza
Variabili qualitative ordinate Relazione d'equivalenza + Relazione d'ordine
Variabili quantitative continue per scala di intervallo Relazione d'equivalenza + Relazione d'ordine + Relazione d'uguaglianza
Variabili quantitative continue per scala di rapporto Relazione d'equivalenza + Relazione d'ordine + Relazione d'uguaglianza + Relazione di rapporto

Note[modifica | modifica wikitesto]

  1. ^ Si noti come la definizione formale sia assai affine a quella di variabile casuale (o aleatoria): infatti è possibile considerare una variabile statistica come la versione empirica di una variabile aleatoria relativa ad un fenomeno stocastico di cui se ne studia l'andamento sperimentale.

Bibliografia[modifica | modifica wikitesto]

Voci correlate[modifica | modifica wikitesto]

statistica Portale Statistica: accedi alle voci di Wikipedia che trattano di statistica