logo

Porozumění testování hypotéz

Testování hypotéz zahrnuje formulování předpokladů o parametrech populace na základě výběrových statistik a důsledné vyhodnocení těchto předpokladů proti empirickým důkazům. Tento článek vrhá světlo na význam testování hypotéz a kritické kroky zahrnuté v procesu.

metody java string

Co je testování hypotéz?

Testování hypotéz je statistická metoda, která se používá ke statistickému rozhodování pomocí experimentálních dat. Testování hypotéz je v podstatě předpoklad, který o populačním parametru uděláme. Vyhodnocuje dva vzájemně se vylučující výroky o populaci, aby určil, který výrok nejlépe podporují ukázková data.



Příklad: Říkáte, že průměrná výška ve třídě je 30 nebo je chlapec vyšší než dívka. To vše je předpoklad, který předpokládáme, a potřebujeme nějaký statistický způsob, jak to dokázat. Potřebujeme nějaký matematický závěr, ať už předpokládáme, že je pravda.

Definování hypotéz

  • Nulová hypotéza (H 0 ): Ve statistice je nulová hypotéza obecné tvrzení nebo výchozí pozice, že neexistuje žádný vztah mezi dvěma měřenými případy nebo žádný vztah mezi skupinami. Jinými slovy, je to základní předpoklad nebo vytvořený na základě znalosti problému.
    Příklad : Průměrná produkce společnosti je 50 jednotek/den H0: mu= 50.
  • Alternativní hypotéza (H 1 ): Alternativní hypotéza je hypotéza použitá při testování hypotéz, která je v rozporu s nulovou hypotézou.
    Příklad: Produkce společnosti se nerovná 50 jednotkám/den, tj. H1: mu 
padesáti.

Klíčové pojmy testování hypotéz

  • Úroveň významnosti : Vztahuje se k míře významnosti, ve které přijímáme nebo odmítáme nulovou hypotézu. Pro přijetí hypotézy není možná 100% přesnost, proto volíme hladinu významnosti, která je obvykle 5 %. To je obvykle označeno s alphaa obecně je to 0,05 nebo 5 %, což znamená, že váš výstup by měl mít 95% jistotu, že poskytne podobný druh výsledku v každém vzorku.
  • P-hodnota: The Hodnota P , nebo vypočítaná pravděpodobnost, je pravděpodobnost nalezení pozorovaných/extrémních výsledků, když je pravdivá nulová hypotéza (H0) problému daného studiem. Pokud je vaše P-hodnota nižší než zvolená hladina významnosti, zamítnete nulovou hypotézu, tj. akceptujete, že váš vzorek tvrdí, že podporuje alternativní hypotézu.
  • Statistika testu: Testovací statistika je numerická hodnota vypočítaná z dat vzorku během testu hypotézy, která se používá k určení, zda zamítnout nulovou hypotézu. Porovnává se s kritickou hodnotou nebo p-hodnotou, aby bylo možné rozhodnout o statistické významnosti pozorovaných výsledků.
  • Kritická hodnota : Kritická hodnota ve statistice je práh nebo mezní bod používaný k určení, zda zamítnout nulovou hypotézu v testu hypotéz.
  • Stupně svobody: Stupně volnosti jsou spojeny s variabilitou nebo volností, kterou člověk má při odhadování parametru. Stupně volnosti se vztahují k velikosti vzorku a určují tvar.

Proč používáme testování hypotéz?

Testování hypotéz je důležitým postupem ve statistice. Testování hypotéz vyhodnocuje dvě vzájemně se vylučující populační tvrzení, aby se určilo, které tvrzení je nejvíce podporováno ukázkovými daty. Když říkáme, že zjištění jsou statisticky významná, díky testování hypotéz.

Jednoocasý a dvouocasý test

Jednostranný test se zaměřuje na jeden směr, buď větší, nebo menší než zadaná hodnota. Jednostranný test používáme, pokud existuje jasné směrové očekávání založené na předchozích znalostech nebo teorii. Kritická oblast se nachází pouze na jedné straně distribuční křivky. Pokud vzorek spadá do této kritické oblasti, je nulová hypotéza zamítnuta ve prospěch hypotézy alternativní.



Jednoocasý test

Existují dva typy jednostranného testu:

  • Test levého ocasu (levostranný): Alternativní hypotéza tvrdí, že skutečná hodnota parametru je menší než nulová hypotéza. Příklad: H0: mu geq 50a H1:
  • a H1: mu>50

Dvouocasý test

Dvoustranný test bere v úvahu oba směry, větší a menší než specifikovaná hodnota. Dvoustranný test používáme, když neexistují žádné specifické směrové očekávání a chceme zjistit jakýkoli významný rozdíl.

Příklad: H0: in =50 a H1: mu 
eq 50



Jaké jsou chyby typu 1 a typu 2 v testování hypotéz?

Při testování hypotéz, Chyby typu I a typu II jsou dvě možné chyby, kterých se mohou výzkumníci dopustit při vyvozování závěrů o populaci na základě vzorku dat. Tyto chyby jsou spojeny s rozhodnutími týkajícími se nulové hypotézy a alternativní hypotézy.

  • Chyba typu I: Když zamítneme nulovou hypotézu, ačkoli tato hypotéza byla pravdivá. Chyba typu I je označena alfa( alpha).
  • Chyby typu II: Když přijmeme nulovou hypotézu, ale je nepravdivá. Chyby typu II jsou označeny beta( eta).


Nulová hypotéza je pravdivá

Nulová hypotéza je nepravdivá

Nulová hypotéza je pravdivá (přijmout)

Správné rozhodnutí

Chyba typu II (falešně negativní)

Alternativní hypotéza je pravdivá (odmítnout)

Chyba typu I (falešně pozitivní)

Správné rozhodnutí

Jak funguje testování hypotéz?

Krok 1: Definujte nulovou a alternativní hypotézu

Vyslovte nulovou hypotézu ( H_0), představující žádný účinek, a alternativní hypotéza ( H_1), což naznačuje účinek nebo rozdíl.

Nejprve identifikujeme problém, o kterém chceme učinit předpoklad, přičemž musíme mít na paměti, že náš předpoklad by si měl navzájem odporovat, za předpokladu Normálně distribuovaná data.

Krok 2 – Vyberte úroveň významnosti

Vyberte hladinu významnosti ( alpha), typicky 0,05, pro určení prahu pro zamítnutí nulové hypotézy. Poskytuje platnost našemu testu hypotézy a zajišťuje, že máme dostatek dat k podpoře našich tvrzení. Obvykle před testem určíme naši hladinu významnosti. The p-hodnota je kritérium použité pro výpočet naší hodnoty významnosti.

Krok 3 Sbírejte a analyzujte data.

Shromážděte relevantní data pozorováním nebo experimentováním. Analyzujte data pomocí vhodných statistických metod, abyste získali testovací statistiku.

Krok 4 – Výpočet statistiky testu

Data pro testy jsou vyhodnocena v tomto kroku hledáme různá skóre na základě charakteristik dat. Výběr testovací statistiky závisí na typu prováděného testu hypotézy.

Existují různé testy hypotéz, každý vhodný pro jiný cíl pro výpočet našeho testu. To by mohlo být a Z-test , Chí-kvadrát , T-test , a tak dále.

  1. Z-test : Pokud jsou známy střední hodnoty populace a standardní odchylky. Běžně se používá Z-statistika.
  2. t-test : Pokud standardní odchylky populace nejsou známy. a velikost vzorku je malá, než je vhodnější statistika t-testu.
  3. Chí-kvadrát test : Chí-kvadrát test se používá pro kategorická data nebo pro testování nezávislosti v kontingenčních tabulkách
  4. F-test : F-test se často používá při analýze rozptylu (ANOVA) k porovnání rozptylů nebo testování rovnosti průměrů napříč více skupinami.

Máme menší soubor dat, takže pro testování naší hypotézy je vhodnější T-test.

T-statistika je mírou rozdílu mezi průměry dvou skupin ve vztahu k variabilitě v každé skupině. Vypočítá se jako rozdíl mezi průměrem vzorku dělený směrodatnou chybou rozdílu. Je také známá jako t-hodnota nebo t-skóre.

Krok 5 – Porovnání statistik testu:

V této fázi se rozhodujeme, kde přijmeme nulovou hypotézu nebo zamítneme nulovou hypotézu. Existují dva způsoby, jak rozhodnout, kde bychom měli přijmout nebo zamítnout nulovou hypotézu.

Metoda A: Použití kritických hodnot

Porovnáním testovací statistiky a tabulkové kritické hodnoty, kterou máme,

  • Pokud Statistika testu>Kritická hodnota: Zamítněte nulovou hypotézu.
  • Pokud statistika testu ≤ kritická hodnota: Nepodařilo se zamítnout nulovou hypotézu.

Poznámka: Kritické hodnoty jsou předem stanovené prahové hodnoty, které se používají k rozhodování při testování hypotéz. K určení kritické hodnoty pro testování hypotéz obvykle odkazujeme na tabulku statistického rozdělení , jako jsou tabulky normálního rozdělení nebo tabulky t-rozdělení založené na.

Metoda B: Použití P-hodnot

Můžeme také dojít k závěru pomocí p-hodnoty,

  • Pokud je p-hodnota menší nebo rovna hladině významnosti, tj. pleqalfa), zamítáte nulovou hypotézu. To naznačuje, že je nepravděpodobné, že by k pozorovaným výsledkům došlo pouze náhodou, což poskytuje důkaz ve prospěch alternativní hypotézy.
  • Pokud je p-hodnota větší než hladina významnosti, tj. pgeq alpha), nepodaří se vám zamítnout nulovou hypotézu. To naznačuje, že pozorované výsledky jsou v souladu s tím, co by se dalo očekávat podle nulové hypotézy.

Poznámka : P-hodnota je pravděpodobnost získání testovací statistiky stejně extrémní nebo extrémnější než ta pozorovaná ve vzorku, za předpokladu, že je pravdivá nulová hypotéza. K určení p-hodnota pro testování hypotéz obvykle odkazujeme na tabulku statistického rozdělení , jako jsou tabulky normálního rozdělení nebo tabulky t-rozdělení založené na.

Krok 7 – Interpretace výsledků

Nakonec můžeme náš experiment ukončit pomocí metody A nebo B.

Výpočet statistiky testu

K ověření naší hypotézy o populačním parametru, který používáme statistické funkce . Používáme z-skóre, p-hodnotu a hladinu významnosti (alfa), abychom prokázali naši hypotézu normálně distribuovaná data .

1. Z-statistika:

Když jsou známy průměry populace a standardní odchylky.

z = frac{ar{x} - mu}{frac{sigma}{sqrt{n}}}

kde,

  • ar{x}je průměr vzorku,
  • μ představuje průměr populace,
  • σ je směrodatná odchylka
  • a n je velikost vzorku.

2. T-statistika

T test se používá, když n<30,

t-statistický výpočet je dán:

t=frac{x̄-Μ}{s/sqrt{n}}

kde,

  • t = t-skóre,
  • x̄ = průměr vzorku
  • μ = průměr populace,
  • s = standardní odchylka vzorku,
  • n = velikost vzorku

3. Chí-kvadrát test

Chí-kvadrát test pro kategorická data nezávislosti (nenormálně distribuovaná) pomocí:

chi^2 = sum frac{(O_{ij} - E_{ij})^2}{E_{ij}}

kde,

  • O_{ij}je pozorovaná frekvence v buňce {ij}
  • i,j jsou indexy řádků a sloupců.
  • E_{ij}je očekávaná frekvence v buňce {ij}, počítáno jako:
    frac{{	ext{{Součet řádků}} 	imes 	ext{{Celkový počet sloupců}}}}{{	ext{{Celkový počet pozorování}}}}

Příklad testování hypotézy ze skutečného života

Podívejme se na testování hypotéz pomocí dvou reálných situací,

Případ A: D Ovlivňuje nový lék krevní tlak?

Představte si, že farmaceutická společnost vyvinula nový lék, o kterém věří, že dokáže účinně snížit krevní tlak u pacientů s hypertenzí. Před uvedením léku na trh musí provést studii, která zhodnotí jeho dopad na krevní tlak.

Data:

  • Před ošetřením: 120, 122, 118, 130, 125, 128, 115, 121, 123, 119
  • Po ošetření: 115, 120, 112, 128, 122, 125, 110, 117, 119, 114

Krok 1 : Definujte hypotézu

  • Nulová hypotéza : (H0)Nový lék nemá žádný vliv na krevní tlak.
  • Alternativní hypotéza : (H1)Nový lék má vliv na krevní tlak.

Krok 2: Definujte úroveň významnosti

Uvažujme hladinu významnosti na 0,05, což znamená zamítnutí nulové hypotézy.

Pokud důkazy naznačují méně než 5% šanci na pozorování výsledků v důsledku náhodné odchylky.

Krok 3 : Vypočítejte statistiku testu

Použitím párový T-test analyzovat data pro získání testovací statistiky a p-hodnoty.

Testovací statistika (např. T-statistika) se vypočítá na základě rozdílů mezi měřením krevního tlaku před a po léčbě.

t = m/(s/√n)

Kde:

  • m = průměr rozdílu tj X po, X před
  • s = směrodatná odchylka rozdílu (d) tj d i = X po, i X před,
  • n = velikost vzorku,

potom m = -3,9, s = 1,8 a n = 10

vypočítáme , T-statistiku = -9 na základě vzorce pro párový t test

Krok 4: Najděte p-hodnotu

Vypočtená t-statistika je -9 a stupně volnosti df = 9, můžete najít p-hodnotu pomocí statistického softwaru nebo tabulky t-rozdělení.

tedy p-hodnota = 8,538051223166285e-06

Krok 5: Výsledek

  • Pokud je p-hodnota menší nebo rovna 0,05, výzkumníci zamítají nulovou hypotézu.
  • Pokud je p-hodnota větší než 0,05, nepodaří se jim zamítnout nulovou hypotézu.

Závěr: Vzhledem k tomu, že p-hodnota (8,538051223166285e-06) je nižší než hladina významnosti (0,05), výzkumníci zamítají nulovou hypotézu. Existují statisticky významné důkazy, že průměrný krevní tlak před a po léčbě novým lékem je odlišný.

Implementace testování hypotéz v Pythonu

Vytvořme testování hypotéz pomocí pythonu, kde testujeme, zda nový lék ovlivňuje krevní tlak. Pro tento příklad použijeme párový T-test. Budeme používat scipy.stats> knihovna pro T-test.

Implementujeme náš první skutečný problém prostřednictvím pythonu,

Python3

import> numpy as np> from> scipy>import> stats> # Data> before_treatment>=> np.array([>120>,>122>,>118>,>130>,>125>,>128>,>115>,>121>,>123>,>119>])> after_treatment>=> np.array([>115>,>120>,>112>,>128>,>122>,>125>,>110>,>117>,>119>,>114>])> # Step 1: Null and Alternate Hypotheses> # Null Hypothesis: The new drug has no effect on blood pressure.> # Alternate Hypothesis: The new drug has an effect on blood pressure.> null_hypothesis>=> 'The new drug has no effect on blood pressure.'> alternate_hypothesis>=> 'The new drug has an effect on blood pressure.'> # Step 2: Significance Level> alpha>=> 0.05> # Step 3: Paired T-test> t_statistic, p_value>=> stats.ttest_rel(after_treatment, before_treatment)> # Step 4: Calculate T-statistic manually> m>=> np.mean(after_treatment>-> before_treatment)> s>=> np.std(after_treatment>-> before_treatment, ddof>=>1>)># using ddof=1 for sample standard deviation> n>=> len>(before_treatment)> t_statistic_manual>=> m>/> (s>/> np.sqrt(n))> # Step 5: Decision> if> p_value <>=> alpha:> >decision>=> 'Reject'> else>:> >decision>=> 'Fail to reject'> # Conclusion> if> decision>=>=> 'Reject'>:> >conclusion>=> 'There is statistically significant evidence that the average blood pressure before and after treatment with the new drug is different.'> else>:> >conclusion>=> 'There is insufficient evidence to claim a significant difference in average blood pressure before and after treatment with the new drug.'> # Display results> print>(>'T-statistic (from scipy):'>, t_statistic)> print>(>'P-value (from scipy):'>, p_value)> print>(>'T-statistic (calculated manually):'>, t_statistic_manual)> print>(f>'Decision: {decision} the null hypothesis at alpha={alpha}.'>)> print>(>'Conclusion:'>, conclusion)>
>
>

Výstup:

T-statistic (from scipy): -9.0 P-value (from scipy): 8.538051223166285e-06 T-statistic (calculated manually): -9.0 Decision: Reject the null hypothesis at alpha=0.05. Conclusion: There is statistically significant evidence that the average blood pressure before and after treatment with the new drug is different.>

Ve výše uvedeném příkladu, za předpokladu T-statistiky přibližně -9 a extrémně nízké hodnoty p, výsledky naznačují silný důvod pro zamítnutí nulové hypotézy na hladině významnosti 0,05.

  • Výsledky naznačují, že nový lék, léčba nebo intervence má významný vliv na snížení krevního tlaku.
  • Negativní T-statistika ukazuje, že průměrný krevní tlak po léčbě je významně nižší než předpokládaný průměr populace před léčbou.

Případ B : Hladina cholesterolu v populaci

Data: Odebere se vzorek 25 jedinců a změří se jejich hladina cholesterolu.

Hladiny cholesterolu (mg/dl): 205, 198, 210, 190, 215, 205, 200, 192, 198, 205, 198, 202, 208, 200, 205, 198, 22, 19, 08, 22, 19, 08 205, 210, 192, 205.

Průměr populace = 200

Směrodatná odchylka populace (σ): 5 mg/dl (udáváno pro tento problém)

Krok 1: Definujte hypotézu

  • Nulová hypotéza (H 0 ): Průměrná hladina cholesterolu v populaci je 200 mg/dl.
  • Alternativní hypotéza (H 1 ): Průměrná hladina cholesterolu v populaci se liší od 200 mg/dl.

Krok 2: Definujte úroveň významnosti

Protože směr odchylky není dán, předpokládáme dvoustranný test a na základě tabulky normálního rozdělení lze kritické hodnoty pro hladinu významnosti 0,05 (dvoustranný) vypočítat pomocí z-tabulka a jsou přibližně -1,96 a 1,96.

Krok 3 : Vypočítejte statistiku testu

Statistika testu se vypočítá pomocí vzorce z S = (203,8–200) / (5 div sqrt{25})a podle toho dostaneme, S =2,039999999999992.

Krok 4: Výsledek

Protože absolutní hodnota testovací statistiky (2,04) je větší než kritická hodnota (1,96), nulovou hypotézu zamítáme. A došli k závěru, že existují statisticky významné důkazy, že průměrná hladina cholesterolu v populaci se liší od 200 mg/dl

Implementace testování hypotéz v Pythonu

Python3

import> scipy.stats as stats> import> math> import> numpy as np> # Given data> sample_data>=> np.array(> >[>205>,>198>,>210>,>190>,>215>,>205>,>200>,>192>,>198>,>205>,>198>,>202>,>208>,>200>,>205>,>198>,>205>,>210>,>192>,>205>,>198>,>205>,>210>,>192>,>205>])> population_std_dev>=> 5> population_mean>=> 200> sample_size>=> len>(sample_data)> # Step 1: Define the Hypotheses> # Null Hypothesis (H0): The average cholesterol level in a population is 200 mg/dL.> # Alternate Hypothesis (H1): The average cholesterol level in a population is different from 200 mg/dL.> # Step 2: Define the Significance Level> alpha>=> 0.05> # Two-tailed test> # Critical values for a significance level of 0.05 (two-tailed)> critical_value_left>=> stats.norm.ppf(alpha>/>2>)> critical_value_right>=> ->critical_value_left> # Step 3: Compute the test statistic> sample_mean>=> sample_data.mean()> z_score>=> (sample_mean>-> population_mean)>/> > >(population_std_dev>/> math.sqrt(sample_size))> # Step 4: Result> # Check if the absolute value of the test statistic is greater than the critical values> if> abs>(z_score)>>max>(>abs>(critical_value_left),>abs>(critical_value_right)):> >print>(>'Reject the null hypothesis.'>)> >print>(>'There is statistically significant evidence that the average cholesterol level in the population is different from 200 mg/dL.'>)> else>:> >print>(>'Fail to reject the null hypothesis.'>)> >print>(>'There is not enough evidence to conclude that the average cholesterol level in the population is different from 200 mg/dL.'>)>
>
>

Výstup:

Reject the null hypothesis. There is statistically significant evidence that the average cholesterol level in the population is different from 200 mg/dL.>

Omezení testování hypotéz

  • Ačkoli je to užitečná technika, testování hypotéz nenabízí komplexní pochopení studovaného tématu. Aniž by plně odrážela složitost nebo celý kontext jevů, soustředí se na určité hypotézy a statistickou významnost.
  • Přesnost výsledků testování hypotéz závisí na kvalitě dostupných dat a vhodnosti použitých statistických metod. Nepřesná data nebo špatně formulované hypotézy mohou vést k nesprávným závěrům.
  • Spoléhat se pouze na testování hypotéz může způsobit, že analytici přehlédnou významné vzorce nebo vztahy v datech, které nejsou zachyceny konkrétními testovanými hypotézami. Toto omezení podtrhuje důležitost komplimentu testování hypotéz s jinými analytickými přístupy.

Závěr

Testování hypotéz je základním kamenem statistické analýzy, umožňuje vědcům orientovat se v nejistotách a vyvozovat věrohodné závěry ze vzorků dat. Systematickým definováním nulových a alternativních hypotéz, výběrem hladin významnosti a využitím statistických testů mohou výzkumníci posoudit platnost svých předpokladů. Článek také objasňuje kritický rozdíl mezi chybami typu I a typu II a poskytuje komplexní pochopení rozhodovacího procesu, který je součástí testování hypotéz. Skutečný příklad testování účinku nového léku na krevní tlak pomocí párového T-testu ukazuje praktickou aplikaci těchto principů a podtrhuje důležitost statistické přísnosti v rozhodování založeném na datech.

Často kladené otázky (FAQ)

1. Jaké jsou 3 typy testu hypotéz?

Existují tři typy testů hypotéz: pravostranné, levostranné a dvoustranné. Pravostranné testy hodnotí, zda je parametr větší, levostranné, pokud je menší. Dvoustranné testy kontrolují nesměrové rozdíly, větší nebo menší.

2.Jaké jsou 4 složky testování hypotéz?

Nulová hypotéza ( H_o): Neexistuje žádný účinek nebo rozdíl.

Alternativní hypotéza ( H_1): Existuje efekt nebo rozdíl.

Úroveň významnosti ( alpha): Riziko zamítnutí nulové hypotézy, když je pravdivá (chyba typu I).

Statistika testu: Číselná hodnota představující pozorovaný důkaz proti nulové hypotéze.

3.Co je testování hypotéz v ML?

Statistická metoda pro hodnocení výkonnosti a platnosti modelů strojového učení. Testuje konkrétní hypotézy o chování modelu, například zda funkce ovlivňují předpovědi nebo zda model dobře zobecňuje na neviditelná data.

4.Jaký je rozdíl mezi Pytestem a hypotézou v Pythonu?

Pytest využívá obecný testovací rámec pro kód Python, zatímco Hypothesis je testovací rámec založený na vlastnostech pro Python, který se zaměřuje na generování testovacích případů na základě specifikovaných vlastností kódu.