人工知能を作りたい!

統計的仮説検定

母平均の差に関する t 検定(2群、対応あり)




はじめに

母平均に差をもたらす原因を因子といいます。また、因子の中に含まれる個々の条件を水準といいます。

全て異なる被験者から得たデータ(被験者間のデータ)は対応がないデータといいます。同じ被験者から異なる水準で得たデータ(被験者内のデータ)は対応があるデータといいます。

ここでちょっと混乱が起こります。 t 検定(2群)も一元配置分散分析も、母平均差の検定を行います。そして、両方とも因子は1つです。では、t 検定(2群)と一元配置分散分析の違いは何でしょうか。

一元配置分散分析は「3つ以上の水準(標本群)の母平均差」を検定します。しかし、t 検定(2群)は「2つの水準(標本群)の母平均差」しか検定できません。つまり、まとめると以下のようになります。

●2つの標本群の母平均差を検定する場合 → t 検定(2群)
●3つ以上の標本群の母平均差を検定する場合 → 一元配置分散分析




例題

飲料会社Aは体脂肪を減らす効果があると思われるお茶Aを開発しました。17人の従業員を無作為に抽出し、一か月間、毎朝飲んでもらいました。その結果、実験開始前と一か月後の体脂肪率 (%) は以下のように変化しました。


 実験開始前  一か月後
 23.5  22.5
 27.5  27.3
 34.2  32.4
 14.6  15.0
 30.45  27.5
 27.2  25.4
 31.3  29.3
 23.7  24.4
 21.5  20.6
 16.5  17.6
 19.5  20.2
 29.4  26.5
 17.4  16.4
 20.6  21.4
 23.6  21.3
 32.3  30.1
 13.4  14.3

このデータから、お茶Aは体脂肪を減らす効果があると判断してよいでしょうか。




帰無仮説と対立仮説の設定

この検定は、 t 検定(2群、対応あり)ですが、一元分散分析(対応あり)と同じように、「因子と水準は何か」を考えると以下のようになります。

繰り返しますが、一元分散分析(対応あり)は3つ以上の水準(あるいは標本群)を持ちます。

1つの因子:
お茶Aの摂取

2つの水準(標本群)
水準(群)1:「お茶Aを飲まない」
水準(群)2:「お茶Aを飲んだ」

実験開始前の母平均を μA 、一か月後の母平均を μB とします。

帰無仮説 H0: μA = μB (実験開始前の母平均と一か月後の母平均に差はない)
対立仮説 H1: μA > μB (実験開始前の母平均は一か月後の母平均より大きい)
有意水準 α =0.05
片側検定となります。




Rによる統計解析

関数 t.test() を使って、母平均の差に関する t 検定(2群、対応あり)を実行します。

関数 t.test() の書式は
t.test(群1のデータ, 群2のデータ, paired=TRUE, alternative="greater") です。

2つの変数が対応のある場合、 paired=TRUE とオプションを指定します。

「対立仮説 H1: μA > μB 」は
「対立仮説 H1: μA - μB >0」つまり、
「対立仮説 H1: μA - μB greater than 0」と言い換えられます。ですので、 alternative="greater" とオプション指定をします。片側検定となります。


> 実験開始前 <-c(23.5, 27.5, 34.2, 14.6, 30.4, 27.2, 31.3, 23.7, 21.5, 16.5, 19.5, 29.4, 17.4, 20.6, 23.6, 32.3, 13.4)



実験開始前の体脂肪率のデータを変数「実験開始前」に格納します。


> 一か月後 <-c(22.5, 27.3, 32.4, 15.0, 27.5, 25.4, 29.3, 24.4, 20.6, 17.6, 20.2, 26.5, 16.4, 21.4, 21.3, 30.1, 14.3)


一か月後の体脂肪率のデータを変数「一か月後」に格納します。


> t.test(実験開始前, 一か月後, paired=TRUE, alternative="greater")

        Paired t-test

data: 実験開始前 and 一か月後
t = 2.4741, df = 16, p-value = 0.01247
alternative hypothesis: true difference in means is greater than 0
95 percent confidence interval:
 0.2493275 Inf
sample estimates:
mean of the differences
              0.8470588


「Paired t-test」は、「対応のある t 検定」というタイトルです。

「data:」の横に検定の対象となる変数が「実験開始前 and 一か月後」と示されます。下の行に行くと、検定統計量 t の実現値、 t 分布の自由度 df ( n -1=17-1=16)、p値が示されます。

p 値が0.01247となり、有意水準0.05より大きいので帰無仮説は棄却されます。つまり、「対立仮説 H1: μA > μB (実験開始前の母平均は一か月後の母平均より大きい)」が採択されました。

「alternative hypothesis: true difference in means is greater than 0」は、
「対立仮説 H1: μA > μB 」、つまり、「対立仮説 H1: μA - μB >0」を示しています。これより片側検定であることが分かります。

「95 percent confidence interval:」は、95%信頼区間の下限と上限の値を示しています。「sample estimates:」は、標本から計算された差の平均値を示しています。