Che cosa è un T-Test?
Un t-test è un tipo di statistica inferenziale utilizzato per determinare se esiste una differenza significativa tra i mezzi di due gruppi, che possono essere correlati in determinate caratteristiche. Viene utilizzato principalmente quando i set di dati, come il set di dati registrato come risultato del lancio di una moneta 100 volte, seguirebbero una distribuzione normale e potrebbero avere varianze sconosciute. Un t-test viene utilizzato come strumento di test di ipotesi, che consente di testare un’ipotesi applicabile a una popolazione.,
Un t-test esamina la statistica t, i valori di distribuzione t e i gradi di libertà per determinare la significatività statistica. Per condurre un test con tre o più mezzi, è necessario utilizzare un’analisi della varianza.
T-Test
Spiegando il T-Test
in sostanza, un t-test ci permette di confrontare la media dei valori dei due insiemi di dati e determinare se essi provengono dalla stessa popolazione., Negli esempi precedenti, se dovessimo prendere un campione di studenti della classe A e un altro campione di studenti della classe B, non ci aspetteremmo che abbiano esattamente la stessa media e la stessa deviazione standard. Allo stesso modo, i campioni prelevati dal gruppo di controllo alimentato con placebo e quelli prelevati dal gruppo prescritto dal farmaco dovrebbero avere una media e una deviazione standard leggermente diverse.
Matematicamente, il t-test prende un campione da ciascuno dei due set e stabilisce l’istruzione del problema assumendo un’ipotesi nulla che i due mezzi siano uguali., Sulla base delle formule applicabili, determinati valori vengono calcolati e confrontati con i valori standard e l’ipotesi nulla assunta viene accettata o respinta di conseguenza.
Se l’ipotesi nulla si qualifica per essere respinta, indica che le letture dei dati sono forti e probabilmente non sono dovute al caso. Il t-test è solo uno dei tanti test utilizzati per questo scopo. Gli statistici devono inoltre utilizzare test diversi dal t-test per esaminare più variabili e test con campioni di dimensioni maggiori. Per un campione di grandi dimensioni, gli statistici utilizzano un test Z., Altre opzioni di test includono il test chi-quadrato e il test F.
Esistono tre tipi di t-test e sono classificati come t-test dipendenti e indipendenti.
Key Takeaways
- Un t-test è un tipo di statistica inferenziale utilizzato per determinare se esiste una differenza significativa tra i mezzi di due gruppi, che possono essere correlati in alcune caratteristiche.
- Il t-test è uno dei molti test utilizzati ai fini del test di ipotesi in statistica.
- Il calcolo di un t-test richiede tre valori chiave dei dati., Includono la differenza tra i valori medi di ciascun set di dati (chiamata differenza media), la deviazione standard di ciascun gruppo e il numero di valori di dati di ciascun gruppo.
- Esistono diversi tipi di t-test che possono essere eseguiti a seconda dei dati e del tipo di analisi richiesto.
Risultati dei test ambigui
Si consideri che un produttore di farmaci vuole testare un farmaco di nuova invenzione. Segue la procedura standard di provare il farmaco su un gruppo di pazienti e dare un placebo ad un altro gruppo, chiamato gruppo di controllo., Il placebo dato al gruppo di controllo è una sostanza di nessun valore terapeutico previsto e serve come punto di riferimento per misurare come l’altro gruppo, che è dato il farmaco reale, risponde.
Dopo lo studio del farmaco, i membri del gruppo di controllo nutrito con placebo hanno riportato un aumento dell’aspettativa di vita media di tre anni, mentre i membri del gruppo a cui viene prescritto il nuovo farmaco riportano un aumento dell’aspettativa di vita media di quattro anni. L’osservazione istantanea può indicare che il farmaco sta effettivamente funzionando in quanto i risultati sono migliori per il gruppo che utilizza il farmaco., Tuttavia, è anche possibile che l’osservazione possa essere dovuta a un evento casuale, in particolare a un sorprendente pezzo di fortuna. Un t-test è utile per concludere se i risultati sono effettivamente corretti e applicabili all’intera popolazione.
In una scuola, 100 studenti della classe A hanno ottenuto una media dell ‘ 85% con una deviazione standard del 3%. Altri 100 studenti appartenenti alla classe B hanno ottenuto una media dell ‘ 87% con una deviazione standard del 4%., Mentre la media della classe B è migliore di quella della classe A, potrebbe non essere corretto saltare alla conclusione che le prestazioni complessive degli studenti della classe B sono migliori di quelle degli studenti della classe A. Questo perché c’è una variabilità naturale nei punteggi dei test in entrambe le classi, quindi la differenza potrebbe essere dovuta al solo caso. Un test t può aiutare a determinare se una classe è andata meglio dell’altra.
Ipotesi T-Test
- La prima ipotesi fatta riguardo ai t-test riguarda la scala di misura., L’ipotesi per un t-test è che la scala di misurazione applicata ai dati raccolti segue una scala continua o ordinale, come i punteggi per un test del QI.
- La seconda ipotesi fatta è quella di un semplice campione casuale, che i dati siano raccolti da una porzione rappresentativa, selezionata casualmente della popolazione totale.
- La terza ipotesi è che i dati, quando tracciati, risultino in una distribuzione normale, curva di distribuzione a forma di campana.
- L’ipotesi finale è l’omogeneità della varianza., La varianza omogenea o uguale esiste quando le deviazioni standard dei campioni sono approssimativamente uguali.
Calcolo T-Test
Il calcolo di un t-test richiede tre valori chiave di dati. Includono la differenza tra i valori medi di ciascun set di dati (chiamata differenza media), la deviazione standard di ciascun gruppo e il numero di valori di dati di ciascun gruppo.
Il risultato del t-test produce il valore T. Questo valore t calcolato viene quindi confrontato con un valore ottenuto da una tabella di valori critici (chiamata Tabella di distribuzione T)., Questo confronto aiuta a determinare l’effetto del caso da solo sulla differenza e se la differenza è al di fuori di tale intervallo di probabilità. Il t-test domanda se la differenza tra i gruppi rappresenta una vera differenza nello studio o se è forse una differenza casuale priva di significato.
Tabelle di distribuzione T
La tabella di distribuzione T è disponibile nei formati a una coda e a due code. Il primo è usato per valutare casi che hanno un valore fisso o un intervallo con una direzione chiara (positiva o negativa)., Ad esempio, qual è la probabilità che il valore di output rimanga inferiore a -3 o ottenga più di sette quando si tira un paio di dadi? Quest’ultimo viene utilizzato per l’analisi del limite di intervallo, ad esempio chiedendo se le coordinate rientrano tra -2 e +2.
I calcoli possono essere eseguiti con programmi software standard che supportano le funzioni statistiche necessarie, come quelle che si trovano in MS Excel.
T-Valori e gradi di libertà
Il t-test produce due valori come output: t-valore e gradi di libertà., Il valore t è un rapporto tra la differenza tra la media dei due set di campioni e la variazione esistente all’interno dei set di campioni. Mentre il valore del numeratore (la differenza tra la media dei due set di campioni) è semplice da calcolare, il denominatore (la variazione che esiste all’interno dei set di campioni) può diventare un po ‘ complicato a seconda del tipo di valori di dati coinvolti. Il denominatore del rapporto è una misura della dispersione o della variabilità. Valori più alti del valore t, chiamato anche t-score, indicano che esiste una grande differenza tra i due set di campioni., Più piccolo è il valore t, maggiore è la somiglianza tra i due set di campioni.
- Un grande punteggio t indica che i gruppi sono diversi.
- Un piccolo punteggio t indica che i gruppi sono simili.
Gradi di libertà si riferisce ai valori in uno studio che ha la libertà di variare e sono essenziali per valutare l’importanza e la validità dell’ipotesi nulla. Il calcolo di questi valori di solito dipende dal numero di record di dati disponibili nel set di campioni.,
Test T correlato (o accoppiato)
Il test t correlato viene eseguito quando i campioni sono tipicamente costituiti da coppie abbinate di unità simili o quando vi sono casi di misure ripetute. Ad esempio, ci possono essere casi degli stessi pazienti sottoposti a test ripetutamente—prima e dopo aver ricevuto un particolare trattamento. In questi casi, ogni paziente viene utilizzato come campione di controllo contro se stessi.,
Questo metodo si applica anche ai casi in cui i campioni sono correlati in qualche modo o hanno caratteristiche corrispondenti, come un’analisi comparativa che coinvolge bambini, genitori o fratelli. I test t correlati o accoppiati sono di tipo dipendente, in quanto coinvolgono casi in cui i due set di campioni sono correlati.
La formula per calcolare il valore t e i gradi di libertà per un test t accoppiato è:
I restanti due tipi appartengono ai test t indipendenti., Gli esempi di questi tipi vengono selezionati indipendentemente l’uno dall’altro, ovvero i set di dati nei due gruppi non si riferiscono agli stessi valori. Includono casi come un gruppo di 100 pazienti suddivisi in due gruppi di 50 pazienti ciascuno. Uno dei gruppi diventa il gruppo di controllo e viene somministrato un placebo, mentre l’altro gruppo riceve il trattamento prescritto. Ciò costituisce due gruppi di campioni indipendenti che non sono accoppiati tra loro.,
Varianza uguale (o in pool) T-Test
La varianza uguale t-test viene utilizzato quando il numero di campioni in ogni gruppo è lo stesso, o la varianza dei due set di dati è simile. Viene utilizzata la seguente formula per il calcolo di t-valore e gradi di libertà per la parità di varianza t-test:
e,
Varianza T-Test
La varianza di t-test è utilizzato quando il numero di campioni in ogni gruppo è diverso, e la varianza di due insiemi di dati è diversa. Questo test è anche chiamato t-test di Welch., Viene utilizzata la seguente formula per il calcolo di t-valore e gradi di libertà per una varianza di t-test:
e,
la Corretta Determinazione della T-Test per l’Uso
Il seguente diagramma di flusso può essere utilizzata per determinare il t-test deve essere utilizzato in base alle caratteristiche del set di campioni. Gli elementi chiave da considerare includono se i record di esempio sono simili, il numero di record di dati in ciascun set di campioni e la varianza di ciascun set di campioni.,
Varianza T-Test di Esempio
Si supponga che stiamo prendendo una diagonale di dipinti ricevuto in una galleria d’arte. Un gruppo di campioni comprende 10 dipinti, mentre l’altro comprende 20 dipinti., The data sets, with the corresponding mean and variance values, are as follows:
Set 1 | Set 2 | |
19.7 | 28.3 | |
20.4 | 26.7 | |
19.6 | 20.1 | |
17.8 | 23.3 | |
18.5 | 25.2 | |
18.9 | 22.1 | |
18.3 | 17.,7 | |
18.9 | 27.6 | |
19.5 | 20.6 | |
21.95 | 13.7 | |
23.2 | ||
17.5 | ||
20.6 | ||
18 | ||
23.9 | ||
21.6 | ||
24.3 | ||
20.4 | ||
23.,9 | ||
13.3 | ||
Media | 19.4 | 21.6 |
Varianza | 1.4 | 17.1 |
anche Se la media dei Set di 2 è superiore a quello della serie 1, non possiamo concludere che la popolazione corrispondente a Set di 2 ha una media superiore rispetto alla popolazione corrispondente a 1. La differenza tra 19,4 e 21,6 è dovuta solo al caso, o esistono davvero differenze nella popolazione complessiva di tutti i dipinti ricevuti nella galleria d’arte?, Stabiliamo il problema assumendo l’ipotesi nulla che la media sia la stessa tra i due set di campioni e conduciamo un t-test per verificare se l’ipotesi è plausibile.
Poiché il numero di record di dati è diverso (n1 = 10 e n2 = 20) e anche la varianza è diversa, il valore t e i gradi di libertà sono calcolati per il set di dati sopra utilizzando la formula menzionata nella sezione Test T Varianza disuguale.
Il valore t è -2.24787. Poiché il segno meno può essere ignorato quando si confrontano i due valori t, il valore calcolato è 2.24787.,
Il valore dei gradi di libertà è 24,38 e viene ridotto a 24, a causa della definizione della formula che richiede l’arrotondamento del valore al minor valore intero possibile.
Si può specificare un livello di probabilità (livello alfa, livello di significatività, p) come criterio per l’accettazione. Nella maggior parte dei casi, si può assumere un valore del 5%.
Usando il valore del grado di libertà come 24 e un livello di significatività del 5%, uno sguardo alla tabella di distribuzione del valore t dà un valore di 2.064. Confrontando questo valore con il valore calcolato di 2.,247 indica che il valore t calcolato è maggiore del valore della tabella con un livello di significatività del 5%. Pertanto, è sicuro rifiutare l’ipotesi nulla che non vi sia alcuna differenza tra i mezzi. L’insieme della popolazione ha differenze intrinseche e non sono un caso.,