2010年2月28日日曜日

クロス集計表の有意差検定

このエントリーをはてなブックマークに追加
アンケート結果などの集計表をみたときに、これって差があると言えるのかなという疑問を持ったことはありませんか?有意な差があるかの検定は、Excelで簡単にできますので、試してください。

先日、アンケートのクロス集計の結果を有意検定して欲しいと依頼があったので、カイ2乗 (χ2) 検定と調整残差から残差判定の結果を添付しました。そのときの期待値などの説明を手書きで書いてPDFにしたものを送付したのですが、折角書いたのでブログにも記しておきます。

Excelでカイ二乗検定を調べると、CHITESTという関数があります。(と、いうかExcelでカイ二乗検定ができることを知りませんでした...。)

ヘルプには下記の集計表が記載されています。

A B C
1 男性(結果) 女性(結果) 説明
2 58 35 賛成
3 11 25 中立
4 10 23 反対
5 男性(予想) 女性(予想) 説明
6 45.35 47.65 賛成
7 17.56 18.44 中立
8 16.09 16.91 反対

=CHITEST(A2:B4,A6:B8)

χ2 統計量が 16.16957、自由度が 2 になる上のデータのカイ 2 乗分布の確率を求めます (0.000308)。

と、説明されています。
表計算ソフトの“おまけ機能”としては十二分ですが、説明はあまりにも貧弱です。

クロス集計表のカイ2乗 (χ2) 検定は、実測値(Excelの説明でいう結果)と期待値(Excelの説明でいう予想)から求めます。

期待値とは

期待値とは、下記の考え方に基づきます。

実測値:
A B C D E
1 説明 男性 女性 列計 行比率
2 賛成 58 35 93 57%
3 中立 11 25 36 22%
4 反対 10 23 33 20%
5 行計 79 83 162 100%
6 列比率 49% 51% 100%

1)全体の男女比率は49:51なので、賛成、中立、反対それぞれも男女比率は49:51になるハズ。
2)賛成、中立、反対の全体での比率は、57:22:20なので、男性も女性も57:22:20の比率になるハズ。

これは下記の数式から求まります。

男性・賛成のセル(B2)の期待値は、93×79÷162=45.35185です。Excelでは、=$D2*B$5/$D$5で求まります。

期待値:
A B C
7 説明 男性 女性
8 賛成 45.35 47.65
9 中立 17.56 18.44
10 反対 16.09 16.91
※小数点2桁で表示

カイ2乗 (χ2)値

実測値と期待値にどれだけ差があるかを計るために、実測値と期待値の差を2乗した総和を求めます。
Excelでは、χ2値を算出する関数はないので(多分)、わかりやすく段階的に求めてみます。先ずは、各セルの実測値と期待値の差を2乗して期待値で割った値を求めます。男性・賛成は、実測値がA2、期待値がB8となので、=(B2-B8)^2/B8 で求まります。同様に各セルの値を求めたものが下記の表になります。

(実測値-期待値)2/期待値:
A B C
11 説明 男性 女性
12 賛成 3.53 3.36
13 中立 2.45 2.33
14 反対 2.31 2.20
※小数点2桁で表示

そして、それぞれのセルを合算します。=sum(B12:C14)

χ2値=16.16492

Excelのヘルプには、χ2 統計量が 16.16957とありますが、若干異なります?

自由度

今回の例でいえば、男女であればどちらかが決まれば、残りが決まってしまうような場合は、自由度は1となります。また賛成、中立、反対のように3種類あれば2つが決まれば全部が決まるので自由度は2となります。クロス表では行と列があるのでこれを掛け合わせます

自由度=(列数-1)×(行数-1)

今回は2列3行の表なので、自由度=(2-1)×(3-1)で、自由度は2となります。行と列の計がわかっているので2つのセルが決まれば残りも確定できるという意味です。

カイ2乗検定

Excelでカイ2乗検定は、=CHITEST(実測値の範囲:期待値の範囲)と指定します。上記の例では、=CHITEST(B2:C4,B8:C10)となり、p値=0.00030891です。

帰無仮説や有意水準の詳しい説明は省きますが、p値が0.05よりも小さければ、このクロス表の実測値と期待値との差がない確率は、5%以下と判定します。また0.01よりも小さければ差がない確率は1%以下となります。

つまり、男女の賛成、反対、中立というクロス表では、差があると判定されます。

残差判定

χ2検定で差があると判定されたクロス集計表ですが、この検定結果だけでは、どのセルに差があるのかは判りません。そこで残差判定を行います。

残差とは、実測値-期待値になります。A16のセルであれば、=B2-B8となります。

残差:
A B C
15 説明 男性 女性
16 賛成 12.65 -12.65
17 中立 -6.56 6.56
18 反対 -6.09 6.09
※小数点2桁で表示

残差を見ると、賛成は男女の差が大きく、男性がプラス方向、女性がマイナス方向であることが判ります。また中立と反対は、賛成よりも差が大きくはないけど、男性が小さく、女性が大きいことが判ります。しかし、残差は基準値がないので、差が大きい小さいの判断が一概には言えません。

調整残差(調整済み残差)

調整残差(調整済み残差)は、各セルに有意差があるかを判定するために、正規分布しているものと仮定して、ブレがどの程度あるかを求めます。
男性・賛成の調整残差は、=(B2-B8)/SQRT(B8*(1-$D2/$D$5)*(1-B$5/$D$5))で求まります。

調整残差:
A B C
1 説明 男性 女性
2 賛成 4.02 -4.02
3 中立 -2.48 2.48
4 反対 -2.38 2.38
※小数点2桁で表示

調整残差の値が、1.96より大きい、若しくは-1.96より小さい場合は、有意差がない確率は5%となります。つまり上記のクロス集計表の各セルはすべて差があると判定されます。1.96という数字は、標準正規分布表を見るとz値は0.975です。これは1.96の右側が面積の2.5%であることを意味し、1.96より大きい確率は2.5%です。また-1.96の左側の面積も同様に2.5%です。つまり両方合わせると5%となります。


また調整残差が2.58よりも大きければ(-2.56よりも小さければ)有意水準は1%なり、差がないと間違う確率は1%となります。

上記の結果から、全セルとも95%の確率で差があるといえるけど、99%を求められると男女の賛成の差だけとなります。


調整残差については、すべてわかるアンケートデータの分析を参考文献としています。

すべてわかるアンケートデータの分析
著者: 管 民郎
出版社:  現代数学社
発売日: 1998/11
価格: ¥3,675







今日の一曲

てぃんさぐぬ花とは、「てぃ(手)をさぐる(飾る)花」という意味で、マニュキアとして使われていたほうせんかのことです。

ほうせんかは爪先に染めなさい
親の教えは肝に染めなさい

といった教訓歌なのです。

沖縄民謡の代表的な曲で、多くの音楽家が奏でいるので一度は聴いたことがあるのではないでしょうか。今回は、Churamanaという女性二人組の「てぃんさぐぬ花」ですが、沖縄民謡とハワイアンを上手く調和させています。

アルバム名の「ふたつの楽園」も沖縄とハワイを指していると思います。

チュラナマ/Churamana - てぃんさぐぬ花

関連記事


コメントを投稿

 
"));