P-P plot

Da Wikipedia, l'enciclopedia libera.
Vai alla navigazione Vai alla ricerca
Da non confondere con Q-Q plot

Un P-P plot (Probability-Probability plot, o Percent-Percent plot) è un probability plot per valutare quanto due set di dati siano simili, tracciando su di un grafico le due funzioni di ripartizione (in inglese dette cumulative distribution function o cdf). Questo è meno utilizzato del Q-Q plot, ma entrambi vengono definiti come diagrammi di probabilità, e quindi sono facilmente confondibili dai non esperti.

Definizione[modifica | modifica wikitesto]

Date due distribuzioni di probabilità, con funzioni di ripartizione "F" e "G", il P-P plot traccia su un grafico al variare di z tra e . Siccome una funzione di ripartizione ha immagine in , il dominio di questo grafico parametrico è e l'immagine è il quadrato X .

Così per ogni input z l'output è la coppia di numeri corrispondenti alla probabilità che f e g siano minori o uguali a z.

La linea di comparazione è la linea a 45° che ha per estremi e -- le distribuzioni sono uguali se e solo se il grafico cade su questa linea -- ogni deviazione indica una differenza tra le distribuzioni.

Utilizzo[modifica | modifica wikitesto]

Se due distribuzioni sono separate nello spazio, il P-P plot darà poche informazioni - è utile solo per comparare distribuzioni di probabilità che hanno locazioni vicine o uguali. Da notare che passerà per il punto se e solo se le due distribuzioni hanno la stessa mediana.

I P-P plot a volte sono limitati a paragoni tra due campionamenti piuttosto che per effettuare un confronto tra un campionamento e un teorico modello di una distribuzione empirica. Comunque, sono di utilizzo generale, particolarmente quando le osservazioni non sono tutte descritte con la stessa distribuzione.

Comunque, hanno trovato uso nel paragone di una distribuzione campionaria da una nota distribuzione teorica: dati n campionamenti, plottando la cdf teorica continua contro la cdf empirica si produrrebbe un grafico a gradini (un gradino ogni volta che z tocca un campionamento), e toccherebbe l'estremo superiore del quadrato in corrispondenza dell'ultimo punto dei dati.

  Portale Statistica: accedi alle voci di Wikipedia che trattano di statistica