Qu’est-ce qu’un Test t?
un test t est un type de statistique inférentielle utilisée pour déterminer s’il existe une différence significative entre les moyennes de deux groupes, qui peut être liée dans certaines caractéristiques. Il est principalement utilisé lorsque les ensembles de données, comme l’ensemble de données enregistré comme le résultat de retourner une pièce 100 fois, suivrait une distribution normale et peut avoir des variances inconnues. Un test t est utilisé comme un outil de test d’hypothèse, qui permet de tester une hypothèse applicable à une population.,
Un test t examine la statistique t, les valeurs de la distribution t et les degrés de liberté pour déterminer la signification statistique. Pour effectuer un test avec trois moyens ou plus, il faut utiliser une analyse de la variance.
T-Test
Expliquant le T-Test
Essentiellement, un t-test nous permet de comparer les valeurs moyennes des deux ensembles de données et de déterminer s’ils proviennent de la même population., Dans les exemples ci-dessus, si nous devions prendre un échantillon d’élèves de la classe A et un autre échantillon d’élèves de la Classe B, Nous ne nous attendrions pas à ce qu’ils aient exactement la même moyenne et l’écart type. De même, les échantillons prélevés dans le groupe témoin administré par placebo et ceux prélevés dans le groupe prescrit par le médicament devraient avoir une moyenne et un écart type légèrement différents.
Mathématiquement, le t-test prend un échantillon de chacun des deux ensembles et établit l’énoncé du problème, en supposant une hypothèse nulle que les deux moyens sont égaux., Sur la base des formules applicables, certaines valeurs sont calculées et comparées aux valeurs standard, et l’hypothèse nulle supposée est acceptée ou rejetée en conséquence.
Si l’hypothèse nulle peut être rejetée, cela indique que les lectures de données sont fortes et ne sont probablement pas dues au hasard. Le test t n’est qu’un des nombreux tests utilisés à cette fin. Les statisticiens doivent en outre utiliser des tests autres que le test t pour examiner plus de variables et des tests avec des échantillons de plus grande taille. Pour un échantillon de grande taille, les statisticiens utilisent un test z., D’autres options de test incluent le test du chi-carré et le test F.
Il existe trois types de T-tests, et ils sont classés comme T-tests dépendants et indépendants.
principaux points à retenir
- Un test t est un type de statistique inférentielle utilisé pour déterminer s’il existe une différence significative entre les moyennes de deux groupes, qui peut être liée dans certaines caractéristiques.
- Le test t est l’un des nombreux tests utilisés dans le but de tester des hypothèses en statistique.
- Le calcul d’un test t nécessite trois valeurs de données clés., Ils comprennent la différence entre les valeurs moyennes de chaque ensemble de données (appelé la différence moyenne), l’écart-type de chaque groupe, et le nombre de valeurs de données de chaque groupe.
- Il existe plusieurs types de test t qui peuvent être effectués en fonction des données et du type d’analyse requis.
résultats des tests Ambigus
considérez qu’un fabricant de médicaments veut tester un médicament nouvellement inventé. Il suit la procédure standard consistant à essayer le médicament sur un groupe de patients et à donner un placebo à un autre groupe, appelé groupe témoin., Le placebo administré au groupe témoin est une substance sans valeur thérapeutique prévue et sert de référence pour mesurer la réaction de l’autre groupe auquel le médicament est administré.
Après l’essai, les membres du groupe témoin ayant reçu un placebo ont signalé une augmentation de l’espérance de vie moyenne de trois ans, tandis que les membres du groupe à qui le nouveau médicament a été prescrit signalent une augmentation de l’espérance de vie moyenne de quatre ans. Une observation instantanée peut indiquer que le médicament fonctionne effectivement car les résultats sont meilleurs pour le groupe utilisant le médicament., Cependant, il est également possible que l’observation soit due à un hasard, en particulier à un hasard surprenant. Un test t est utile pour conclure si les résultats sont réellement corrects et applicables à l’ensemble de la population.
dans une école, 100 élèves de la classe A ont obtenu une moyenne de 85% avec un écart type de 3%. 100 autres élèves appartenant à la Classe B ont obtenu une moyenne de 87% avec un écart type de 4%., Bien que la moyenne de la Classe B soit meilleure que celle de la classe A, il n’est peut-être pas correct de conclure que la performance globale des élèves de la Classe B est meilleure que celle des élèves de la classe A. c’est parce qu’il existe une variabilité naturelle des résultats aux tests dans les deux classes, Un test t peut aider à déterminer si une classe s’en sort mieux que l’autre.
hypothèses de Test T
- la première hypothèse faite concernant les tests t concerne l’échelle de mesure., L’hypothèse pour un test t est que l’échelle de mesure appliquée aux données collectées suit une échelle continue ou ordinale, comme les scores pour un test de QI.
- La deuxième hypothèse est celle d’un échantillon aléatoire simple, à savoir que les données sont recueillies auprès d’une partie représentative et aléatoire de la population totale.
- La troisième hypothèse est que les données, une fois tracées, aboutissent à une distribution normale, courbe de distribution en forme de cloche.
- l’hypothèse finale est l’homogénéité de la variance., Une variance homogène ou égale existe lorsque les écarts types des échantillons sont approximativement égaux.
calcul des Tests T
Le calcul d’un test T nécessite trois valeurs de données clés. Ils comprennent la différence entre les valeurs moyennes de chaque ensemble de données (appelé la différence moyenne), l’écart-type de chaque groupe, et le nombre de valeurs de données de chaque groupe.
le résultat du test T produit la valeur t. Cette valeur t calculée est ensuite comparée à une valeur obtenue à partir d’une table de valeurs critiques (appelée Table de Distribution T)., Cette comparaison permet de déterminer l’effet du hasard seul sur la différence, et si la différence est en dehors de cette plage de chance. Le test t se demande si la différence entre les groupes représente une vraie différence dans l’étude ou s’il s’agit peut-être d’une différence aléatoire sans signification.
tables de Distribution T
La Table de Distribution t est disponible dans les formats une queue et deux queues. Le premier est utilisé pour évaluer les cas qui ont une valeur fixe ou une plage avec une direction claire (positive ou négative)., Par exemple, Quelle est la probabilité que la valeur de sortie reste inférieure à -3 ou obtienne plus de sept lors du lancer d’une paire de dés? Ce dernier est utilisé pour l’analyse liée à la plage, comme demander si les coordonnées se situent entre -2 et +2.
Les calculs peuvent être effectués avec des logiciels standard qui prennent en charge les fonctions statistiques nécessaires, comme ceux trouvés dans MS Excel.
valeurs T et degrés de liberté
le test T produit deux valeurs en sortie: valeur T et degrés de liberté., La valeur t est un rapport entre la différence entre la moyenne des deux ensembles d’échantillons et la variation qui existe dans les ensembles d’échantillons. Alors que la valeur du numérateur (la différence entre la moyenne des deux ensembles d’échantillons) est simple à calculer, le dénominateur (la variation qui existe dans les ensembles d’échantillons) peut devenir un peu compliqué en fonction du type de valeurs de données impliquées. Le dénominateur du rapport est une mesure de la dispersion ou de la variabilité. Des valeurs plus élevées de la valeur t, également appelée score t, indiquent qu’il existe une grande différence entre les deux ensembles d’échantillons., Plus la valeur t est petite, plus la similitude existe entre les deux ensembles d’échantillons.
- Un grand t-score indique que les groupes sont différents.
- Un petit t-score indique que les groupes sont similaires.
Degrés de liberté se réfère aux valeurs dans une étude qui a la liberté de varier et sont essentiels pour évaluer l’importance et la validité de l’hypothèse nulle. Le calcul de ces valeurs dépend généralement du nombre d’enregistrements de données disponibles dans l’ensemble d’échantillons.,
test T corrélé (ou apparié)
le test T corrélé est effectué lorsque les échantillons sont généralement constitués de paires appariées d’unités similaires, ou lorsqu’il existe des cas de mesures répétées. Par exemple, il peut y avoir des cas où les mêmes patients sont testés à plusieurs reprises—avant et après avoir reçu un traitement particulier. Dans de tels cas, chaque patient est utilisé comme échantillon témoin contre lui-même.,
Cette méthode s’applique également aux cas où les échantillons sont liés d’une manière ou d’une autre ou présentent des caractéristiques correspondantes, comme une analyse comparative impliquant des enfants, des parents ou des frères et sœurs. Les tests t corrélés ou appariés sont de type dépendant, car ils impliquent des cas où les deux ensembles d’échantillons sont liés.
La formule de calcul de la t-valeur et des degrés de liberté pour un test t apparié est:
Les deux autres types appartiennent à des tests t pour échantillons indépendants., Les échantillons de ces types sont sélectionnés indépendamment les uns des autres—c’est-à-dire que les ensembles de données des deux groupes ne se réfèrent pas aux mêmes valeurs. Ils comprennent des cas comme un groupe de 100 patients divisés en deux groupes de 50 patients chacun. L’un des groupes devient le groupe de contrôle et un placebo, tandis que l’autre groupe reçoit le traitement prescrit. Il s’agit de deux groupes d’échantillons indépendants qui ne sont pas appariés l’un avec l’autre.,
test T de Variance égale (ou mise en commun)
le test T de variance égale est utilisé lorsque le nombre d’échantillons dans chaque groupe est le même ou que la variance des deux ensembles de données est similaire. La formule suivante est utilisée pour calculer la valeur t et les degrés de liberté pour le test T de variance égale:
et,
test T de Variance inégale
le test T de variance inégale est utilisé lorsque le nombre d’échantillons dans chaque groupe est différent et que la variance des deux ensembles de données est également différente. Ce test est également appelé le test T de Welch., La formule suivante est utilisée pour calculer la valeur t et les degrés de liberté pour un test T de variance inégale:
et,
détermination du test T Correct à utiliser
L’organigramme suivant peut être utilisé pour déterminer quel test T doit être utilisé en fonction des caractéristiques des ensembles d’échantillons. Les éléments clés à considérer que l’échantillon des dossiers sont similaires, le nombre d’enregistrements de données dans chaque échantillon, et de la variance de chaque ensemble de l’échantillon.,
Variance Inégale T-Exemple de Test
Supposons que nous avons une diagonale de peintures reçu dans une galerie d’art. Un groupe d’échantillons comprend 10 peintures, tandis que l’autre comprend 20 peintures., The data sets, with the corresponding mean and variance values, are as follows:
Set 1 | Set 2 | |
19.7 | 28.3 | |
20.4 | 26.7 | |
19.6 | 20.1 | |
17.8 | 23.3 | |
18.5 | 25.2 | |
18.9 | 22.1 | |
18.3 | 17.,7 | |
18.9 | 27.6 | |
19.5 | 20.6 | |
21.95 | 13.7 | |
23.2 | ||
17.5 | ||
20.6 | ||
18 | ||
23.9 | ||
21.6 | ||
24.3 | ||
20.4 | ||
23.,9 | ||
13.3 | ||
Moyenne | 19.4 | 21.6 |
Écart | 1.4 | 17.1 |
Bien que la moyenne de l’Ensemble 2 est plus élevé que celui de la série 1, on ne peut conclure que la population correspondant à l’Ensemble 2 a une moyenne plus élevée que celle de la population correspondant à la série 1. La différence de 19,4 à 21,6 est – elle due au hasard seul, ou Existe-t-elle vraiment des différences dans les populations globales de toutes les peintures reçues dans la galerie d’art?, Nous établissons le problème en supposant l’hypothèse nulle que la moyenne est la même entre les deux ensembles d’échantillons et effectuons un test t pour vérifier si l’hypothèse est plausible.
étant donné que le nombre d’enregistrements de données est différent (n1 = 10 et n2 = 20) et que la variance est également différente, la valeur t et les degrés de liberté sont calculés pour l’ensemble de données ci-dessus en utilisant la formule mentionnée dans la section test T de Variance inégale.
La t-valeur est -2.24787. Étant donné que le signe moins peut être ignoré lors de la comparaison des deux valeurs t, la valeur calculée est 2.24787.,
la valeur des degrés de liberté est de 24,38 et est réduite à 24, en raison de la définition de la formule nécessitant un arrondi vers le bas de la valeur à la valeur entière la plus faible possible.
On peut spécifier un niveau de probabilité (alpha niveau de, niveau de signification, p) comme un critère d’acceptation. Dans la plupart des cas, une valeur de 5% peut être supposée.
En utilisant la valeur du degré de liberté comme 24 et un niveau de Signification de 5%, un regard sur la table de distribution de la valeur t donne une valeur de 2,064. Comparer cette valeur à la valeur calculée de 2.,247 indique que la valeur t calculée est supérieure à la valeur de la table à un niveau de Signification de 5%. Par conséquent, il est prudent de rejeter l’hypothèse nulle selon laquelle il n’y a pas de différence entre les moyennes. L’ensemble de la population présente des différences intrinsèques, et elles ne sont pas le fruit du hasard.,