人工知能を作りたい!

統計的仮説検定

母平均に関する t 検定(1群、母分散が未知)




はじめに

母集団分布が正規分布、母分散σ2が既知の場合、検定統計量 Z を求める数式は以下のようになります。

Z = Z 分子/ Z 分母
Z 分子:標本平均- μ
Z 分母: ( σ2 /サンプルデータ数 n )の平方根
( σ2 の値は既知の値を使う)

しかし、母集団分布が正規分布、母分散σ2 が未知の場合、検定統計量 Z の値を計算できません。そこで、検定統計量 t を使います。tを求める数式は以下のようになります。

t = t 分子/ t 分母
t 分子:標本平均-μ
t 分母: ( σ2 /サンプルデータ数 n )の平方根
( σ2 の値は不偏分散の値を使う)

不偏分散は「サンプルデータと標本平均の偏差の二乗和」を「サンプルデータ数 n -1」で割った値です。

不偏分散 = 不偏分散の分子 / 不偏分散の分母
不偏分散の分子:(データ1-標本平均)2+(データ2-標本平均)2+ . . . +(データ n -標本平均)2
不偏分散の分母:サンプルデータ数 n -1

ちなみに、標本分散は「サンプルデータと標本平均の偏差の二乗和」を「サンプルデータ数 n 」で割った値です。

標本分散 = 標本分散の分子/標本分散の分母
標本分散の分子:(データ1-標本平均)2+(データ2-標本平均)2+ . . . +(データ n -標本平均)2
標本分散の分母:サンプルデータ数 n

母数の推定量である不偏推定量を優先するなら不偏分散を使います。最尤(さいゆう)推定量を優先するなら標本分散を使います。

検定統計量 t は自由度 df (degrees of freedom) = n -1の t 分布に従います。それでは、 t 分布を用いた検定( t 検定と言います)により一つの平均値の検定を行います。




例題(両側検定の場合)

新しい数学習得法のもとで数学を学んだ学生群から無作為に20人を選び、数学テストを受けてもらいました。その得点データは以下のようになりました。

41, 52, 60, 73, 32, 53, 62, 70, 81, 48, 55, 62, 45, 85, 27, 72, 66, 77, 58, 40

過去の数年のデータの蓄積から、従来の数学習得法を受けた学生の数学テスト得点は、母平均 μ =40の正規分布に従うことが知られています。つまり、母集団分布は X~N(40, σ2) です。

新しい数学習得法を受けた20人の数学テスト得点の母平均は40から変化しているでしょうか。




帰無仮説と対立仮説の設定

帰無仮説 H0: μ =40(数学テストの母平均は40である)
対立仮説 H1: μ ≠40(数学テストの母平均は40ではない)
有意水準 α =0.05
両側検定である




Rによる統計解析

Rに用意されている関数 t.test() を使って t 検定を行います。

関数 t.test() の書式は
t.test(検定対象となるデータ, mu=帰無仮説に設定された平均値)
です。


> x <- c(41, 52, 60, 73, 32, 53, 62, 70, 81, 48, 55, 62, 45, 85, 27, 72, 66, 77, 58, 40)


数学テストの得点を変数「x」に格納します。


> t.test(x,mu=40)

        One Sample t-test

data: x
t = 5.0126, df = 19, p-value = 7.73e-05
alternative hypothesis: true mean is not equal to 40
95 percent confidence interval:
 50.45488 65.44512
sample estimates:
mean of x
    57.95


「One Sample t-test」は「一つのサンプルの t 検定」というタイトルです。

「data:」の横に検定の対象となる変数が示されます。下の行に行くと、検定統計量 t の実現値、t分布の自由度 ( df = n -1=20-1=19) 、 p 値(デフォルトでは両側検定を行う)が示されます。

p 値が7.73e-05、つまり、0.0000773となり、有意水準0.05より小さいので「帰無仮説 H0: μ =40(数学テストの母平均は40である)」は棄却され、検定の結果は有意となります。

「alternative hypothesis: true mean is not equal to 40」は「対立仮説 H1: μ ≠40(数学テストの母平均は40ではない)」を示しています。これより、両側検定であることが分かります。

「95 percent confidence interval:」は、95%信頼区間の下限と上限の値を示しています。「sample estimates:」は、標本から計算された標本平均の実現値を示しています。




例題(片側検定の場合)

新しい数学習得法のもとで数学を学んだ学生群から無作為に20人を選び、数学テストを受けてもらいました。その得点データは以下のようになりました。

41, 52, 60, 73, 32, 53, 62, 70, 81, 48, 55, 62, 45, 85, 27, 72, 66, 77, 58, 40

過去の数年のデータの蓄積から、従来の数学習得法を受けた学生の数学テスト得点は、母平均 μ =40の正規分布に従うことが知られています。つまり、母集団分布は X~N(40, σ2) です。

新しい数学習得法を受けた20人の数学テスト得点の母平均は40より大きくなっているでしょうか。




帰無仮説と対立仮説の設定

帰無仮説 H0: μ =40(数学テストの母平均は40である)
対立仮説 H1: μ >40(数学テストの母平均は40より大きい)
有意水準 α =0.05
片側検定である




Rによる統計解析

Rに用意されている関数 t.test() を使って t 検定を行います。

関数 t.test() の書式は
t.test(検定対象となるデータ, mu=帰無仮説に設定されたμの値, alternative="greater")
です。

デフォルトでは両側検定が行われますが、以下のようにオプションにて対立仮説の方向を指定することができます。
上片側検定: alternative="greater"
下片側検定: alternative="less"


> x <- c(41, 52, 60, 73, 32, 53, 62, 70, 81, 48, 55, 62, 45, 85, 27, 72, 66, 77, 58, 40)


数学テストの得点を変数「x」に格納します。


> t.test(x, mu=40, alternative="greater")

        One Sample t-test

data: x
t = 5.0126, df = 19, p-value = 3.865e-05
alternative hypothesis: true mean is greater than 40
95 percent confidence interval:
 51.75798 Inf
sample estimates:
mean of x
    57.95


「One Sample t-test」は「一つのサンプルの t 検定」というタイトルです。

「data:」の横に検定の対象となる変数が示されます。下の行に行くと、検定統計量 t の実現値、 t 分布の自由度 ( df = n -1=20-1=19) 、 p 値(上片側検定を設定しました)が示されます。

p 値が3.865e-05、つまり、0.00003865となり、有意水準0.05より小さいので「帰無仮説 H0: μ =40(数学テストの母平均は40である)」は棄却され、検定の結果は有意となります。

「alternative hypothesis: true mean is greater than 40」は「対立仮説 H1: μ >40(数学テストの母平均は40より大きい)」を示しています。これより、上片側検定であることが分かります。

「95 percent confidence interval:」は、95%信頼区間の下限と上限の値を示しています。「sample estimates:」は、標本から計算された標本平均の実現値を示しています。