統計
すこしばかり奇妙な話をしてみようかと思う。
なにかの統計を取るとき、標本の数、つまりはデータの数は多い方が望ましい。しかし、ある母集団のすべてを標本として調べあげるのは、だいたいの場合には難しいだろうということも、説明はいらないと思う。
統計を扱う場合、どのような分布であると仮定ないし想定するかには、代表的ないくつかのものがある。今回は、そのどれでもかまわないのだが、正規分布で考えてみることにする。
正規分布とはどういうものか。まぁ、検索してもらえばわかると思う。ここでは、平均値:μ = 0、分散:σ^2 = 1としておく。すると、式はこうなる:
f(x) = (1/sqrt(2π)) * EXP(−(x^2)/2)
式の書き方にちょっと癖があるが、これは誤解がないように細かく括弧を入れているためだ。また、“EXP”だが、これがすこしややこしい。「自然対数の底eの何乗」という使われかたもすれば、「10の何乗」という使われかたもする。工学系では「10の何乗」という場合がほとんどだ。この式の場合も「10の何乗」だ(それでいいと思うが、ミスってたら申し訳ありません)。
さて、これをグラフにすると次のようになる。
では、これの横軸を離散値にするとしよう。なお、こちらのグラフは手抜きだ。横軸xで、“−0.5”とあるのは、“−0.5 ≦ x < 0”の範囲だ。
さて、では本題だ。標本が一つしかない場合を考えてみよう。では、その標本の値は、どこに属している可能性が高いだろうか。細かい話はともかく、棒グラフの棒の面積で考えてみればいい。つまり、このグラフの場合、“−0.5 ≦ x < 0.5”の範囲に入っている可能性が高い。このグラフの場合、73%ほどで“−0.5 ≦ x < 0.5”という範囲に入っている。
上で「分散:σ^2 = 1」と書いたが、統計の場合「分散」とともに「標準偏差」(σ)もよく使われる。標準偏差の場合、“−1σ < x < 1σ”の範囲が68.2%を占める(あれ? グラフはミスってないはずだけど)。この場合、標本が一つしかない場合、それは68.2%の可能性で“−1σ < x < 1σ”の範囲に入っている。
この2つのグラフでは「平均値:μ = 0」としている。これは平均値なので、母集団によっていくらでも上下する。というわけで、一つの標本をポンと取り出した場合、68.2%の確率で“−1σ < x < 1σ”の範囲に入っており、その真中である平均値に近いと推測できる。“1σ”でなく、“0.5σ”とかを使ってもいい。どっちにしろ、平均値に近いものである可能性が高いことにかわりはない。
もちろん、すくない標本数で母集団をうんぬんするのは、危険でもある。だが、標本数がすくないならすくないなりの考え方がある。おおざっぱに言えば、「標本数がすくないから信頼できない」のは確かだとしても、ではどれくらい信頼できないのかという話であり、またどの程度の信頼できなさは許容するのかという話でもある。なのでたんに「標本数がすくないから信頼できない」とだけ言うのは、誤りだとも言える。このあたりは逆に、標本数が多くともそれが信頼できるのかという話でもある。
ちょっとばかり奇妙に思えるだろう話のつもりだったが、どうだろうか?
すみません。expは工学系での「10の何乗」ではなく「自然対数の底eの何乗」だったかも。
グラフの値がそれなりに変わりますが、正確ではないものの本題には関係ないので、そのままにしておきます。
あと、なんか単純なミスをしている気もしますが、σの話に持っていく準備なので、それっぽければいいとさせてください(笑。
(グラフを書き直すのが面倒くさいので。)




