カイ二乗検定

全体像が分かってない、つまり理解してないんだけど、

二つのものについてデータがでた時に、その数値から、二者には関連があるかどうかを調べられる。
つまり、どっちが優位かどうかを言える。
自由度1の場合の話になるけど。これがとりあえず使用頻度が高そう。

  yes no
 green 719,377 211,375
 blue 196,559 59,785

といった感じの時に、greenとblueに優劣はあるのか?

Rでやるには、
> brw <- matrix(c(719377, 196559,211375,59785),2,2)
> rownames(b) <- c("green", "blue")
> colnames(b) <- c("yes","no")
> brw
       [,1]   [,2]
[1,] 719377 211375
[2,] 196559  59785
> brw <- matrix(c(719377, 196559,211375,59785),2,2)
> rownames(brw) <- c("green", "blue")
> colnames(brw) <- c("yes","no")
> brw
         yes     no
green 719377 211375
blue  196559  59785
> chisq.test(brw, correct=FALSE)

Pearson's Chi-squared test

data:  brw 
X-squared = 42.7188, df = 1, p-value = 6.32e-11


pの値は0.0が11個。カイ二乗値も4超と、全然有意。
(Xからpはでるので、両者を言及する必要はない)


Xは、期待値からの実際値のズレの累計なので分散といっても良いのか?
言わない。
二つの確率変数(観測値集団?)からの期待値なので。

その期待値の計算方法は、、、、周辺度数の積を観測総数で割る。
直感に訴えないので、また今度、書く。
これで、満足なのでこれでよし。

Comments