全体像が分かってない、つまり理解してないんだけど、 二つのものについてデータがでた時に、その数値から、二者には関連があるかどうかを調べられる。 つまり、どっちが優位かどうかを言える。 自由度1の場合の話になるけど。これがとりあえず使用頻度が高そう。
といった感じの時に、greenとblueに優劣はあるのか? Rでやるには、 > brw <- matrix(c(719377, 196559,211375,59785),2,2) > rownames(b) <- c("green", "blue") > colnames(b) <- c("yes","no") > brw [,1] [,2] [1,] 719377 211375 [2,] 196559 59785 > brw <- matrix(c(719377, 196559,211375,59785),2,2) > rownames(brw) <- c("green", "blue") > colnames(brw) <- c("yes","no") > brw yes no green 719377 211375 blue 196559 59785 > chisq.test(brw, correct=FALSE) Pearson's Chi-squared test data: brw X-squared = 42.7188, df = 1, p-value = 6.32e-11 (Xからpはでるので、両者を言及する必要はない) Xは、期待値からの実際値のズレの累計なので分散といっても良いのか? 言わない。 二つの確率変数(観測値集団?)からの期待値なので。 その期待値の計算方法は、、、、周辺度数の積を観測総数で割る。 直感に訴えないので、また今度、書く。 と思ったけど、ここに非常に分かりやすく書いてあった。 これで、満足なのでこれでよし。 |