co je T-Test?

t-test je typ inferenční statistika používá k určení, zda existuje významný rozdíl mezi průměry dvou skupin, které mohou být spojeny v určité vlastnosti. Většinou se používá, když datové sady, jako je datová sada zaznamenaná jako výsledek při 100násobném převrácení mince, by následovaly normální distribuci a mohly by mít neznámé odchylky. T-test se používá jako nástroj pro testování hypotéz, který umožňuje testování předpokladu použitelného pro populaci.,

t-test se zabývá statistikou t, hodnotami t-distribuce a stupni volnosti pro stanovení statistické významnosti. Chcete-li provést test se třemi nebo více prostředky, musíte použít analýzu rozptylu.

1:38

T-Test

Vysvětlující T-Test

v Podstatě, t-test nám umožňuje porovnat průměrné hodnoty ze dvou sad dat a určit, zda pocházejí ze stejné populace., Ve výše uvedených příkladech, pokud bychom měli vzít vzorek studentů z třídy a a další vzorek studentů ze třídy B, neměli bychom očekávat, že budou mít přesně stejný průměr a směrodatná odchylka. Podobně by vzorky odebrané z kontrolní skupiny podávané placebem a vzorky odebrané z předepsané skupiny léků měly mít mírně odlišnou střední a směrodatnou odchylku.

Matematicky, t-test má vzorek z každé sady a stanoví problém prohlášení za předpokladu nulové hypotézy, že dva prostředky jsou stejné., Na základě platných vzorců se vypočítávají a porovnávají určité hodnoty proti standardním hodnotám a předpokládaná nulová hypotéza je odpovídajícím způsobem přijata nebo zamítnuta.

Pokud se nulová hypotéza kvalifikuje k odmítnutí, znamená to, že údaje jsou silné a pravděpodobně nejsou způsobeny náhodou. T-test je jen jedním z mnoha testů používaných pro tento účel. Statistici musí navíc použít jiné testy než T-test, aby prozkoumali více proměnných a testů s většími velikostmi vzorků. Pro velkou velikost vzorku používají statistici z-test., Mezi další možnosti testování patří test chi-square a f-test.

existují tři typy t-testů a jsou klasifikovány jako závislé a nezávislé t-testy.

Klíčové Takeaways

  • t-test je typ inferenční statistika používá k určení, zda existuje významný rozdíl mezi průměry dvou skupin, které mohou být spojeny v určité vlastnosti.
  • t-test je jedním z mnoha testů používaných pro účely testování hypotéz ve statistice.
  • výpočet t-testu vyžaduje tři klíčové datové hodnoty., Zahrnují rozdíl mezi průměrnými hodnotami z každé datové sady (nazývané průměrný rozdíl), směrodatnou odchylkou každé skupiny a počtem datových hodnot každé skupiny.
  • existuje několik různých typů t-testu, které lze provést v závislosti na požadovaných datech a typu analýzy.

nejednoznačné výsledky testů

se domnívají, že výrobce léků chce testovat nově vynalezený lék. Následuje standardní postup zkoušení léku na jednu skupinu pacientů a podávání placeba jiné skupině nazvané kontrolní skupina., Placebo podávané kontrolní skupině je látka bez zamýšlené terapeutické hodnoty a slouží jako měřítko pro měření toho, jak druhá skupina, která dostává skutečný lék, reaguje.

Po léku, členové placebo-kontrolní skupina fed oznámil zvýšení průměrné délky života tří let, zatímco členové skupiny, kteří jsou předepsán nový lék, hlásí nárůst průměrné délky života o čtyři roky. Okamžité pozorování může naznačovat, že lék skutečně funguje, protože výsledky jsou lepší pro skupinu užívající drogu., Je však také možné, že pozorování může být způsobeno náhodným výskytem, zejména překvapivým štěstí. T-test je užitečný k závěru, pokud jsou výsledky skutečně správné a použitelné pro celou populaci.

ve škole zaznamenalo 100 studentů ve třídě a v průměru 85% se standardní odchylkou 3%. Dalších 100 studentů patřících do třídy B zaznamenalo v průměru 87% se standardní odchylkou 4%., Zatímco průměrná třídy B je lepší než u třídy A, to nemusí být správné na skok k závěru, že celkový výkon studentů ve třídě B je lepší než u studentů ve třídě a. To je proto, že je přirozená variabilita v testu v obou třídách, takže rozdíl by mohl být v důsledku šance sám. T-test může pomoci určit, zda se jedné třídě dařilo lépe než druhé.

t-testovací předpoklady

  1. první předpoklad týkající se t-testů se týká měřítka měření., Předpokladem pro T-test je, že měřítko měření aplikované na shromážděná data následuje kontinuální nebo pořadovou stupnici, jako jsou skóre pro IQ test.
  2. druhý předpoklad je jednoduchý náhodný vzorek, že data jsou shromažďována od reprezentativní, náhodně vybrané části celkové populace.
  3. třetím předpokladem jsou data, kdy jsou vykreslena, mají za následek normální distribuční křivku ve tvaru zvonu.
  4. konečným předpokladem je homogenita rozptylu., Homogenní nebo stejná odchylka existuje, když jsou standardní odchylky vzorků přibližně stejné.

výpočet t-testů

výpočet t-testu vyžaduje tři klíčové datové hodnoty. Zahrnují rozdíl mezi průměrnými hodnotami z každé datové sady (nazývané průměrný rozdíl), směrodatnou odchylkou každé skupiny a počtem datových hodnot každé skupiny.

výsledek t-testu vytváří hodnotu T. Tato vypočtená hodnota t se pak porovnává s hodnotou získanou z tabulky kritické hodnoty (nazývané tabulka distribuce T)., Toto srovnání pomáhá určit vliv náhody na rozdíl a zda je rozdíl mimo tento rozsah šancí. T-test zpochybňuje, zda rozdíl mezi skupinami představuje skutečný rozdíl ve studii nebo zda je to možná bezvýznamný náhodný rozdíl.

t-distribuční tabulky

tabulka t-distribuce je k dispozici ve formátech one-tail a two-tails. První z nich se používá k hodnocení případů, které mají pevnou hodnotu nebo rozsah s jasným směrem (pozitivní nebo negativní)., Například, jaká je pravděpodobnost, že výstupní hodnota zůstane pod -3, nebo získat více než sedm při válcování pár kostek? Ten se používá pro analýzu rozsahu vázaného, jako je dotaz, zda souřadnice spadají mezi -2 a +2.

výpočty lze provádět se standardními softwarovými programy, které podporují potřebné statistické funkce,jako jsou ty, které se nacházejí v MS Excel.

t-hodnoty a stupně volnosti

t-test vytváří dvě hodnoty jako jeho výstup: t-hodnota a stupně volnosti., Hodnota t je poměr rozdílu mezi průměrem dvou sad vzorků a variací, která existuje v rámci množin vzorků. Zatímco čitatel hodnoty (rozdíl mezi tím dvě sady vzorků), je jednoduché vypočítat, jmenovatel (varianta, která existuje v rámci sady vzorků) může být trochu složitější v závislosti na typu dat hodnoty podílí. Jmenovatelem poměru je měření disperze nebo variability. Vyšší hodnoty hodnoty t-hodnoty, nazývané také T-skóre, naznačují, že mezi oběma sadami vzorků existuje velký rozdíl., Čím menší je hodnota t, tím větší podobnost existuje mezi oběma sadami vzorků.

  • velké T-skóre znamená, že skupiny jsou různé.
  • malé T-skóre znamená, že skupiny jsou podobné.

Stupně volnosti se týká hodnot ve studii, která má možnost měnit a jsou nezbytné pro posouzení významu a platnosti nulové hypotézy. Výpočet těchto hodnot obvykle závisí na počtu datových záznamů dostupných ve vzorové sadě.,

korelovaný (nebo spárovaný) T-Test

korelovaný t-test se provádí, když se vzorky obvykle skládají z odpovídajících párů podobných jednotek nebo pokud existují případy opakovaných opatření. Například mohou existovat případy opakovaného testování stejných pacientů-před a po podání určité léčby. V takových případech je každý pacient používán jako kontrolní vzorek proti sobě.,

tato metoda platí také pro případy, kdy jsou vzorky nějakým způsobem příbuzné nebo mají odpovídající vlastnosti, jako je srovnávací analýza zahrnující děti, rodiče nebo sourozence. Korelované nebo spárované t-testy jsou závislého typu, protože se jedná o případy, kdy jsou dvě sady vzorků příbuzné.

vzorce pro výpočet t-hodnota a stupně volnosti pro párový t-test je:

zbývající dva typy patří do nezávislé t-testy., Vzorky těchto typů jsou vybírány nezávisle na sobě-to znamená, že datové sady ve dvou skupinách se nevztahují na stejné hodnoty. Zahrnují případy, jako je skupina 100 pacientů, která je rozdělena na dvě sady po 50 pacientech. Jedna ze skupin se stává kontrolní skupinou a dostává placebo, zatímco druhá skupina dostává předepsanou léčbu. Jedná se o dvě nezávislé skupiny vzorků, které jsou navzájem nepárové.,

Rovná Rozptylu (nebo sdílené) T-Test

rovné rozptylu, t-test se používá, když je počet vzorků v každé skupině je stejný, nebo rozptyl dvou souborů údajů je podobná. Následující vzorec se používá pro výpočet t-hodnota a stupně volnosti pro rovné rozptylu, t-test:

a,

Nerovný Rozptyl T-Test

nestejném rozptylu, t-test se používá, když je počet vzorků v každé skupině je jiný, a rozptyl ze dvou sad dat se také liší. Tento test se také nazývá welchův t-test., Následující vzorec se používá pro výpočet t-hodnota a stupně volnosti pro nerovné rozptyly t-test:

a,

Určení Správné T-Test na Použití

následující vývojový diagram lze použít k určení, které t-test by měl být použit na základě charakteristik vzorku sady. Mezi klíčové položky, které je třeba zvážit, patří, zda jsou vzorové záznamy podobné, počet datových záznamů v každé sadě vzorků a rozptyl každé sady vzorků.,

Obrázek Julie Bang © Investopedia 2019

Nerovný Rozptyl T-Test Příklad:

Předpokládejme, že jsme s úhlopříčkou obrazy obdržel v galerii. Jedna skupina vzorků zahrnuje 10 obrazů, zatímco druhá zahrnuje 20 obrazů., The data sets, with the corresponding mean and variance values, are as follows:

Set 1 Set 2
19.7 28.3
20.4 26.7
19.6 20.1
17.8 23.3
18.5 25.2
18.9 22.1
18.3 17.,7
18.9 27.6
19.5 20.6
21.95 13.7
23.2
17.5
20.6
18
23.9
21.6
24.3
20.4
23.,9
13.3
19.4 21.6
Rozptyl 1.4 17.1

i Když střední Set 2 je vyšší než u Nastavení 1, nemůžeme konstatovat, že populace odpovídající Sada 2 má vyšší průměr než populace odpovídajícího Nastavit 1. Je rozdíl od 19.4 do 21.6 jen kvůli náhodě, nebo skutečně existují rozdíly v celkové populaci všech obrazů získaných v galerii umění?, Jsme vytvořit problém za předpokladu nulové hypotézy, že průměr je stejný mezi dvě sady vzorků a provedení t-testu otestovat, zda hypotéza je přijatelný.

Protože počet záznamů je jiný (n1 = 10 a n2 = 20) a rozptyl se také liší, t-hodnota a stupně volnosti jsou počítány pro výše uvedené datové sady pomocí vzorce uvedené v nestejném Rozptylu, T-Test sekce.

hodnota t je -2.24787. Vzhledem k tomu, že znaménko mínus lze při porovnávání dvou hodnot t ignorovat, vypočítaná hodnota je 2.24787.,

hodnota stupně volnosti je 24,38 a je snížena na 24, vzhledem k definici vzorce vyžadující zaokrouhlení hodnoty na nejmenší možnou celočíselnou hodnotu.

jako kritérium pro přijetí lze určit úroveň pravděpodobnosti (úroveň alfa, úroveň významnosti, p). Ve většině případů lze předpokládat hodnotu 5%.

při použití stupně hodnoty svobody jako 24 a 5% úrovně významu dává pohled na tabulku distribuce hodnoty t hodnotu 2.064. Porovnáním této hodnoty s vypočítanou hodnotou 2.,247 znamená, že vypočtená hodnota t je větší než hodnota tabulky na úrovni významnosti 5%. Proto je bezpečné odmítnout nulovou hypotézu, že neexistuje žádný rozdíl mezi prostředky. Populační soubor má vnitřní rozdíly a nejsou náhodou.,

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *