例えば「日本人全体の平均」などを考えたいとしても,日本人全員にアンケートをとることは現実的には不可能ですが,無作為にアンケートをとって大まかに実態を推測することは可能です.
標本から推測を行う場合には,不偏推定量の概念が重要な場合があります.
不偏推定量は母集団の統計量の「良い」推測ができる標本の統計量の1つです.
とくに,分散の不偏推定量は不偏分散として計算でき,この不偏分散はなんだかよく分からないものとして敬遠されがちなものです.
この記事では,不偏推定量の考え方を説明し
- 平均の不偏推定量
- 分散の不偏推定量
を考えます.
推測統計と不偏推定量
考えたい対象の全てのデータを手に入れることができれば良いわけですが,データが多い場合などでは,当然のことながら全数調査は現実的ではありません.
このようなとき,どのようにして全体の様子を推測するかを考えましょう.
推測統計
いくつかの言葉を確認しておきましょう.
知りたい全てのデータを母集団といい,母集団全てのデータを集めて考えることを全数調査や悉皆調査などという.また,母集団から一部のデータを収集したとき,そのデータを標本という.
例えば,選挙速報などでは
- 全有権者のデータが母集団
- 出口調査のデータが標本
ということになりますね.
この選挙速報でもそうですが,全量調査が不可能な場合には標本から母集団の様子を推測することになります.
このように,標本から母集団を推測することを総称して推測統計といいます.
例えば,味噌汁を作るとき少しだけ味見をすれば全体の味が「推測」できます.
「推測統計」はいわばこの味見のようなもので,部分的にデータを収集する(標本を考える)ことで全体の様子を推測しようというものです.
しかし,味噌汁を作る際に十分に味噌が全体に混ざっていなければ,濃いところと薄いところができてしまいますから,しっかり味噌汁を混ぜてから味見をすることが大切です.
同様に,推測統計でも偏ったデータの取り方をしてしまうと,正しく全体の様子を推測することができません.
そこで,どのようなデータの取り方をしていても,だいたい母集団の実態を表せていることが保証される考え方をすることが大切です.
母数
ここで,「母数」という用語を定義しておきます.
母集団を特徴付ける量を総称して母数という.
例えば,
- 平均
- 分散
- 中央値
- 最大値
- 最小値
などは全て母数です.これについて,
- 母集団の平均を母平均
- 母集団の分散を母分散
といいます.これに対して,
- 標本の平均を標本平均
- 標本の分散を標本分散
といいます.
不偏推定量
さて,例えば母平均を標本から推測するにはどうすれば良いでしょうか?
母集団が10000個のデータ$\quicklatex{color=”#ff0000″}\{x_1,x_2,\dots,x_{9999},x_{10000}\}$からなるとしましょう.
ここから,100個のデータからなる標本をとるとき,例えば
- $\quicklatex{color=”#0000ff”}\{x_1,x_2,\dots,x_{99},x_{100}\}$
- $\quicklatex{color=”#0000ff”}\{x_2,x_3,\dots,x_{100},x_{101}\}$
- $\quicklatex{color=”#0000ff”}\{x_{31},x_{54},\dots,x_{9845},x_{9901}\}$
など様々な100個のデータの標本の選び出し方があります.
これらそれぞれの標本平均を考えると,
- 標本$\{x_1,x_2,\dots,x_{99},x_{100}\}$の平均は$\dfrac{x_1+x_2+\dots+x_{99}+x_{100}}{100}$
- 標本$\{x_2,x_3,\dots,x_{100},x_{101}\}$の平均は$\dfrac{x_2+x_3+\dots+x_{100}+x_{101}}{100}$
- 標本$\{x_{31},x_{54},\dots,x_{9845},x_{9901}\}$の平均は$\dfrac{x_{31}+x_{54}+\dots+x_{9845}+x_{9901}}{100}$
となります.
実は,このように100個のデータからなる全ての標本の標本平均の平均は,母平均に等しくなります.
このような性質を「標本平均は,母平均の不偏推定量である」と表現します.
より広く,不偏推定量を次のように定義されます.
母数$\theta$に対して,標本の統計量$\hat{\theta}$を考え,無作為標本から測定した統計量$\hat{\theta}$の平均$E[\hat{\theta}]$が$\theta$に等しいとき,$\hat{\theta}$は$\theta$の不偏推定量 (unbiased estimator)という:
このように,あらゆる標本の統計量$\hat{\theta}$を考え,それらの平均が母数$\theta$に一致しているという性質を不偏性といいます.
以下では,具体的に
- 平均の不偏推定量
- 分散の不偏推定量
について考えます.
平均の不偏推定量
まずは平均の不偏推定量の説明です.
平均の不偏推定量
平均の定義を確認しておきましょう.
[平均] $n$個のデータ$\{x_1,x_2,\dots,x_n\}$に対して,
を$\{x_1,x_2,\dots,x_n\}$の平均 (mean)という.
平均は
と書いても同じことですね.
先ほど述べた通り,以下が従います.
母平均の不偏推定量は標本平均である.
証明
- 母平均を$\mu$
- 無作為標本を$\{x_1,x_2,\dots,x_n\}$
- 標本平均を$\overline{X}$
とします.このとき,
で,母集団から任意にデータをとってくると,その期待値は母平均$\mu$なので
です.よって,
が成り立ちます.
分散の不偏推定量
次に分散の不偏推定量の説明です.
分散の不偏推定量
分散の定義を確認しておきましょう.
[分散] $n$個のデータ$\{x_1,x_2,\dots,x_n\}$に対して,平均を$m$とする.このとき,
を分散 (variance)という.
分散は
と書いても同じことですね.
さて,平均のときと同様に,直感的には「母分散の不偏推定量は標本分散」と思う人は多いでしょう.
しかし,実はこれは間違いで,標本分散の平均は母分散とはなりません.
ここで,「不偏分散」を定義しておきましょう.
[不偏分散] $n$個のデータ$\{x_1,x_2,\dots,x_n\}$に対して,平均を$m$とする.このとき,
を不偏分散 (unbiased variance)という.
分散と不偏分散の違いは,
- $\dfrac{1}{n}$がかけられているのが分散
- $\dfrac{1}{n-1}$がかけられているのが不偏分散
というだけですね.
なお,これにより不偏分散は分散よりも少し大きい値になりますね.
「不偏分散」という名前から察せられるように,以下が成り立ちます.
母分散の不偏推定量は不偏分散である.
証明
- 母平均を$\mu$
- 母分散を$S$
- 無作為標本を$\{x_1,x_2,\dots,x_n\}$
- 標本平均を$\overline{X}$
とします.
Step 1
まずは$\sum\limits_{k=1}^{n}(x_k-\overline{X})^2$を計算しましょう.
なので,
となります.
Step 2
次に
- $E\brc{(x_k-\mu)^2}$
- $E\brc{(\mu-\overline{X})^2}$
を計算しましょう.
$E[x_k]=\mu$なので,$E[(x_k-\mu)^2]$は$x_k$の分散$V[x_k]$に一致するので
となりますね.
また,$E[\overline{X}]=\mu$なので,$E[(\mu-\overline{X})^2]$は$\overline{X}$の分散$V[\overline{X}]$に一致するので,
となりますね.
Step 3
Step 1とStep 2から,
となるので,目的の不偏分散の平均$E\brc{\dfrac{1}{n-1}\sum\limits_{k=1}^{n}(x_k-\overline{X})^2}$が母分散に一致することが分かりました.
すなわち,不偏分散は分散の不偏推定量ということになります.
参考文献
以下は統計に関しての参考文献である.
日本統計学会が実施する「統計検定」の2級の範囲に対応する教科書である.
統計検定2級は「大学基礎科目(学部1,2年程度)としての統計学の知識と問題解決能力」という位置付けであり,ある程度の数学的な処理能力が求められる.
そのため,統計検定2級を取得していると,一定以上の統計的なデータの扱い方を身に付けているという指標になる.
本書は
- データの記述と要約
- 確率と確率分布
- 統計的推定
- 統計的仮説検定
- 線形モデル分析
- その他の分析法-正規性の検討,適合度と独立性の$\xi^2$検定
の6章からなり,基礎的な統計的スキルを身につけることができる.
大学1,2年程度のレベルの内容なので,もし高校数学が怪しいようであれば,統計検定3級からの挑戦を検討してもよい.
なお,本書については,以下の記事で書評としてまとめています.
本書は統計検定2級の出題範囲に即した内容の教科書です.本書の目次,良い点と不満な点,オススメの使い方などをまとめています.