遠田幹雄のフリートーク

中心極限定理と大数の法則は統計分析手法の基礎知識

この記事は約2分で読めます。

taisuunohousoku今通っている慶応大学のサマースクールでは統計学も学んでいる。なんとかこの1週間で統計学の基本をマスターしたい。
本日は統計分析を行うための基礎知識として、中心極限定理と大数の法則を学んだ。正規分布ではない母集団でも、うまくさばくことができるようになる…はず。
やはり実際の数値で活用しないと。公式だけでは身につかない。(^^;

taisuunohousoku2

これが公式。

大数の法則によればサンプル数が多ければ多いほどよいということになる。
では、最低のサンプル数はどれだけあればいいのか?
大学教授の説明では「最低でも30以上」ということだった。
30あればいいという意味ではなく、最低30はないと統計的な手法は使えないという意味だろう。

ビジネスの現場では、アンケート調査を行なうさいには最低数のサンプル数がどれくらいなのかを求める必要がある。基礎数値としては以下の数値が参考になるようだ、。

【母集団 →必要なサンプル数】
100人→80人(約80%)
1,000人→278人(約28%)
10,000人→370人(約4%)
100,000人→383人(約0.4%)
1,000,000人→384人(約0.04%)

上記の数値は、以下の表の信頼レベル95%の欄にあたる。

母集団 許容誤差 信頼レベル
10% 5% 1% 90% 95% 99%
100 50 80 99 74 80 88
500 81 218 476 176 218 286
1,000 88 278 906 215 278 400
10,000 96 370 4,900 264 370 623
100,000 96 383 8,763 270 383 660
1,000,000~ 97 384 9,513 271 384 664

表の出典https://jp.surveymonkey.com/mp/sample-size/

母集団が少ないほど必要なサンプル数の比率が高い。大数の法則とあわせて参考にしたい指標である。

▼必要なサンプル数を求める公式
 

 n = N / [ (ε/μ(α))2 × {(N-1)/ρ(1-ρ)} + 1 ]
 n : 必要サンプル数
 μ(α) : 信頼度100-αのときの正規分布の値、信頼度が高いほど高くなる。
      通常は信頼度95%の1.96か、信頼度99%の2.58を使います。
 N : 調査したい母集団の大きさ
 ε : 精度
 ρ : 母比率(これは経験的に求めるか、最もnが大きくなる0.5を用います)

公式の出典http://www.nsspirit-cashf.com/logical/toukei_kiso.html