logo

Chí-kvadrát test v R

The chí-kvadrát test nezávislosti hodnotí, zda existuje souvislost mezi kategoriemi těchto dvou proměnných. V zásadě existují dva typy náhodných proměnných a poskytují dva typy dat: numerická a kategorická. v Programovací jazyk R Chí-kvadrát statistika se používá ke zkoumání, zda se distribuce kategorických proměnných navzájem liší. Chí-kvadrát test je také užitečný při porovnávání sčítání nebo počtu kategorických odpovědí mezi dvěma (nebo více) nezávislými skupinami.

V programovacím jazyce R je funkce používaná pro provádění testu chí-kvadrát chisq.test()> .



Syntax:

chisq.test(data)

projíždění stromů

Parametry:



data : data je tabulka obsahující hodnoty počtu proměnných v tabulce.

Údaje z průzkumu převezmeme v MASS> knihovna, která představuje data z průzkumu provedeného u studentů.

R






# load the MASS package> library>(MASS)> print>(>str>(survey))>

>

napište json do souboru python

>

Výstup:

'data.frame': 237 obs. of 12 variables:  $ Sex : Factor w/ 2 levels 'Female','Male': 1 2 2 2 2 1 2 1 2 2 ...  $ Wr.Hnd: num 18.5 19.5 18 18.8 20 18 17.7 17 20 18.5 ...  $ NW.Hnd: num 18 20.5 13.3 18.9 20 17.7 17.7 17.3 19.5 18.5 ...  $ W.Hnd : Factor w/ 2 levels 'Left','Right': 2 1 2 2 2 2 2 2 2 2 ...  $ Fold : Factor w/ 3 levels 'L on R','Neither',..: 3 3 1 3 2 1 1 3 3 3 ...  $ Pulse : int 92 104 87 NA 35 64 83 74 72 90 ...  $ Clap : Factor w/ 3 levels 'Left','Neither',..: 1 1 2 2 3 3 3 3 3 3 ...  $ Exer : Factor w/ 3 levels 'Freq','None',..: 3 2 2 2 3 3 1 1 3 3 ...  $ Smoke : Factor w/ 4 levels 'Heavy','Never',..: 2 4 3 2 2 2 2 2 2 2 ...  $ Height: num 173 178 NA 160 165 ...  $ M.I : Factor w/ 2 levels 'Imperial','Metric': 2 1 NA 2 2 1 1 2 2 2 ...  $ Age : num 18.2 17.6 16.9 20.3 23.7 ... NULL>

Výše uvedený výsledek ukazuje, že soubor dat má mnoho proměnných faktoru, které lze považovat za kategorické proměnné. Pro náš model budeme uvažovat proměnné Exer a Kouř .Sloupec Kouř zaznamenává kuřácké návyky studentů, zatímco sloupec Exer zaznamenává úroveň jejich cvičení. Naším cílem je otestovat hypotézu, zda je kouření studentů nezávislé na úrovni jejich cvičení na hladině významnosti 0,05.

R




# Create a data frame from the main data set.> stu_data =>data.frame>(survey$Smoke,survey$Exer)> # Create a contingency table with the needed variables.> stu_data =>table>(survey$Smoke,survey$Exer)> > print>(stu_data)>

>

>

Výstup:

 Freq None Some  Heavy 7 1 3  Never 87 18 84  Occas 12 3 4  Regul 9 1 7>

A nakonec aplikujeme chisq.test()> funkce do kontingenční tabulky stu_data.

R




bajtů na řetězec python
# applying chisq.test() function> print>(>chisq.test>(stu_data))>

>

>

Výstup:

 Pearson's Chi-squared test  data: stu_data X-squared = 5.4885, df = 6, p-value = 0.4828>

Protože p-hodnota 0,4828 je větší než 0,05, docházíme k závěru, že kouření je nezávislé na úrovni cvičení studenta, a proto existuje slabá nebo žádná korelace mezi těmito dvěma proměnnými. Kompletní R kód je uveden níže.

přečtěte si soubor csv v jazyce Java

Souhrnně lze tedy říci, že je velmi snadné provést Chí-kvadrát test pomocí R. Tento úkol lze provést pomocí chisq.test()> funkce v R.

Vizualizujte data testu chí-kvadrát

R




# Load required library> library>(MASS)> # Print structure of the survey dataset> print>(>str>(survey))> # Create a data frame for smoking and exercise columns> stu_data <->data.frame>(survey$Smoke, survey$Exer)> stu_data <->table>(survey$Smoke, survey$Exer)> # Print the table> print>(stu_data)> # Perform the Chi-Square Test> chi_result <->chisq.test>(stu_data)> print>(chi_result)> # Visualize the data with a bar plot> barplot>(stu_data, beside =>TRUE>, col =>c>(>'lightblue'>,>'lightgreen'>),> >main =>'Smoking Habits vs Exercise Levels'>,> >xlab =>'Exercise Level'>, ylab =>'Number of Students'>)> # Add legend separately> legend>(>'center'>, legend =>rownames>(stu_data), fill =>c>(>'lightblue'>,>'lightgreen'>))>

>

>

Výstup:

gh

Chí-kvadrát test v R

V tomto kódu používámeMASS>knihovny, aby provedla Chi-Square Test na „průzkumném“ datovém souboru se zaměřením na vztah mezi kuřáckými návyky a úrovní cvičení.

Vytvoří kontingenční tabulku, provede statistický test a vizualizuje data pomocí sloupcového grafu. Legenda je přidána samostatně do levého horního rohu a rozlišuje mezi různými kuřáckými návyky s odlišnými barvami.

Cílem kodexu je prozkoumat a komunikovat souvislosti mezi kuřáckým chováním a cvičením v rámci datové sady.