不偏推定量とは何か?|標本平均・不偏分散の不偏性も証明

統計学
統計学

例えば「日本人の成人男性の平均身長」などを考えたいとしても,日本人の成人男性全員の身長を測ることは現実的には不可能なので,ある程度の量のデータを収集して推測することになります.

このように何らかのデータから推測を行う場合には不偏推定量が重要になる場合があります.

不偏推定量とは母集団の統計量の「良い」推測ができる標本の統計量の1つで,たとえば分散の不偏推定量は不偏分散として計算することができます.

この記事では,不偏推定量の考え方を説明し

  • 平均の不偏推定量
  • 分散の不偏推定量

を考えます.

推測統計と不偏推定量

考えたい対象の全てのデータを手に入れることができれば良いわけですが,データが多い場合などでは,当然のことながら全数調査は現実的ではありません.

このようなとき,どのようにして全体の様子を推測するかを考えましょう.

推測統計

いくつかの言葉を確認しておきましょう.

知りたい全てのデータを母集団といい,母集団全てのデータを集めて考えることを全数調査悉皆調査などという.また,母集団から一部のデータを収集したとき,そのデータを標本という.

Rendered by QuickLaTeX.com

例えば,選挙速報などでは

  • 全有権者のデータが母集団
  • 出口調査のデータが標本

ということになりますね.この選挙速報でもそうですが,全量調査が不可能な場合には標本から母集団の様子を推測することになります.

このように,標本から母集団を推測することを総称して推測統計といいます.

例えば,味噌汁を作るとき少しだけ味見をすれば全体の味が推測できます.推測統計はいわばこの味見のようなもので,部分的にデータを収集する(標本を考える)ことで全体の様子を推測しようというものです.

そこで,標本から母集団のだいたい実態が推測できる方法があると嬉しいですね.

不偏推定量

そこで次の問題を考えてみましょう.

母平均を標本から推測するにはどうすれば良いか?

母集団が10000個のデータ$\{x_1,x_2,\dots,x_{9999},x_{10000}\}$からなるとしましょう.

ここから100個のデータからなる標本をとるとき,例えば

  • $\{x_1,x_2,\dots,x_{99},x_{100}\}$
  • $\{x_2,x_3,\dots,x_{100},x_{101}\}$
  • $\{x_{31},x_{54},\dots,x_{9845},x_{9901}\}$

など100個のデータの標本の選び出し方は様々考えられますね.

Rendered by QuickLaTeX.com

これらそれぞれの標本平均を考えると,

  • 標本$\{x_1,x_2,\dots,x_{99},x_{100}\}$の平均は$\dfrac{x_1+x_2+\dots+x_{99}+x_{100}}{100}$
  • 標本$\{x_2,x_3,\dots,x_{100},x_{101}\}$の平均は$\dfrac{x_2+x_3+\dots+x_{100}+x_{101}}{100}$
  • 標本$\{x_{31},x_{54},\dots,x_{9845},x_{9901}\}$の平均は$\dfrac{x_{31}+x_{54}+\dots+x_{9845}+x_{9901}}{100}$

となります.

標本をとるごとに得られる標本平均は変化しますから,標本平均は確率変数ということができますね.

のちに説明するように,実は100個のデータからなる標本たちの「標本平均の平均」は母平均に等しくなり,この性質を「標本平均は母平均の不偏推定量である」といいます.

このように不偏推定量は次のように定義されます.

母集団の統計量$\theta$に対して,無作為標本から測定した統計量$\hat{\theta}$の平均$E[\hat{\theta}]$が$\theta$に等しいとする.すなわち

    \begin{align*}E[\hat{\theta}]=\theta\end{align*}

が成り立つとする.このとき,$\hat{\theta}$は$\theta$の不偏推定量(unbiased estimator)という.

このように,あらゆる標本の統計量$\hat{\theta}$を考え,それらの平均が母集団の統計量$\theta$に一致しているという性質を不偏性といいます.

不偏推定量は「標本から母集団の統計量を良く推定するもの」ということができますね.

平均と分散の不偏推定量

それでは本題の

  • 母集団の平均
  • 母集団の分散

の不偏推定量を説明します.

母集団のデータ数が多い場合,非復元抽出はほとんど復元抽出に等しくなります.そのため,以下では全て復元抽出で考えます.

平均の不偏推定量

データの平均は次のように定義されるのでした.

$n$個のデータ$\{x_1,x_2,\dots,x_n\}$に対して,

    \begin{align*}\dfrac{x_1+x_2+\dots+x_n}{n}\bra{=\sum_{k=1}^{n}x_k}\end{align*}

を$\{x_1,x_2,\dots,x_n\}$の平均という.

一般に,母集団の平均のことを母平均といいます.

先ほど軽く触れたように,母平均の不偏推定量については以下が従います.

母平均を$\mu$とする.あらゆる$n$データの標本$\{x_1,x_2,\dots,x_n\}$を考えたとき,

    \begin{align*}E\brc{\frac{1}{n}\sum_{k=1}^{n}x_k}=\mu\end{align*}

が成り立つ.すなわち,$\mu$の不偏推定量は標本平均である.

分散の不偏推定量

データの分散は次のように定義されるのでした.

$n$個のデータ$\{x_1,x_2,\dots,x_n\}$に対して,平均を$m$とする.このとき,

    \begin{align*}\dfrac{(x_1-m)^2+(x_2-m)^2+\dots+(x_n-m)^2}{n}\bra{=\frac{1}{n}\sum_{k=1}^{n}(x_k-m)^2}\end{align*}

分散という.

一般に,母集団の分散のことを母分散といいます.

さて,平均のときと同様に直感的には「母分散の不偏推定量は標本分散」と思ってしまいそうですが,実は標本分散の平均は母分散とはならず,正しくは次のようになります.

母平均を$\mu$,母分散を$S$とする.あらゆる$n$データの標本$\{x_1,x_2,\dots,x_n\}$($n\ge2$)を考えたとき,

    \begin{align*}E\brc{\frac{1}{n-1}\sum_{k=1}^{n}(x_k-m)^2}=S\end{align*}

が成り立つ.すなわち,$S$の不偏推定量は$\dfrac{1}{n-1}\sum\limits_{k=1}^{n}(x_k-m)^2$である.

この母分散の不偏推定量を不偏分散といいます.

標本$\{x_1,x_2,\dots,x_n\}$($n\ge2$)に対して,平均を$m$とする.このとき,

    \begin{align*}\frac{1}{n-1}\sum_{k=1}^{n}(x_k-m)^2\end{align*}

不偏分散(unbiased variance)という.

標本分散と不偏分散の違いは

  • 分散:$\dfrac{1}{n}$がかけられている
  • 不偏分散:$\dfrac{1}{n-1}$がかけられている

というだけですね.分母が少し小さい不偏分散の方が,分散よりも少し大きい値になっています.

不偏性の証明

それでは,いま紹介した標本平均の不偏性と,不偏分散の不偏性を証明しましょう.

標本平均の不偏性

(再掲)母平均を$\mu$とする.標本を$\{x_1,x_2,\dots,x_n\}$とするとき,

    \begin{align*}E\brc{\frac{1}{n}\sum_{k=1}^{n}x_k}=\mu\end{align*}

が成り立つ.すなわち,$\mu$の不偏推定量は標本平均である.

標本平均を$\overline{X}$とすると,

    \begin{align*}\overline{X}=\frac{x_1+x_2+\dots+x_n}{n}\end{align*}

である.母集団から任意にデータをとってくると,その期待値は母平均$\mu$なので

    \begin{align*}E[x_1]=E[x_2]=\dots=E[x_n]=\mu\end{align*}

である.よって,

    \begin{align*}E[\overline{X}]&=E\brc{\frac{x_1+x_2+\dots+x_n}{n}} \\&=\frac{1}{n}(E[x_1]+E[x_2]+\dots+E[x_n]) \\&=\frac{1}{n}(\mu+\mu+\dots+\mu)=\mu\end{align*}

が従う.

不偏分散の不偏性

(再掲)母平均を$\mu$,母分散を$S$とする.標本を$\{x_1,x_2,\dots,x_n\}$($n\ge2$)とするとき,

    \begin{align*}E\brc{\frac{1}{n-1}\sum_{k=1}^{n}(x_k-m)^2}=S\end{align*}

が成り立つ.すなわち,$S$の不偏推定量は$\dfrac{1}{n-1}\sum\limits_{k=1}^{n}(x_k-m)^2$である.

標本平均を$\overline{X}$とする.

ステップ1($\sum\limits_{k=1}^{n}(x_k-\overline{X})^2$の計算)

$(x_k-\overline{X})^2$は

    \begin{align*}(x_k-\overline{X})^2 &=\{(x_k-\mu)+(\mu-\overline{X})\}^2 \\&=(x_k-\mu)^2+2(x_k-\mu)(\mu-\overline{X})+(\mu-\overline{X})^2\end{align*}

と計算できる.第2項目について

    \begin{align*}\sum_{k=1}^{n}(x_k-\mu) &=n\cdot\frac{x_1+x_2+\dots+x_n}{n}-n\mu \\&=-n(\mu-\overline{X}u)\end{align*}

なので,

    \begin{align*}\sum_{k=1}^{n}(x_k-\overline{X})^2 &=\sum_{k=1}^{n}(x_k-\mu)^2 \\&\quad+2(\mu-\overline{X})\sum_{k=1}^{n}(x_k-\mu)+n(\mu-\overline{X})^2 \\&=\sum_{k=1}^{n}(x_k-\mu)^2-2n(\mu-\overline{X})^2+n(\mu-\overline{X})^2 \\&=\sum_{k=1}^{n}(x_k-\mu)^2-n(\mu-\overline{X})^2 \end{align*}

が従う.

ステップ2($E\bigl[(x_k-\mu)^2\bigr]$と$E\bigl[(\mu-\overline{X})^2\bigr]$の計算)

$E[x_k]=\mu$だから$E[(x_k-\mu)^2]$は$x_k$の分散$V[x_k]$に一致するので

    \begin{align*}E[(x_k-\mu)^2]=V[x_k]=S\end{align*}

となる.

また,標本平均の不偏性から$E[\overline{X}]=\mu$だったから,$E[(\mu-\overline{X})^2]=V[\overline{X}]$となり

    \begin{align*}E\brc{(\mu-\overline{X})^2} &=V[\overline{X}]=V\brc{\frac{1}{n}\sum_{k=1}^{n}x_k} \\&=\frac{1}{n^2}\sum_{k=1}^{n}V[x_k]\end{align*}

を得る.ただし,最後の等号では$\{x_1,x_2,\dots,x_n\}$が無作為標本であることから,$x_k$と$x_\ell$($k\neq\ell$)が独立であることを用いている.

さらに,$V[x_k]=S$と併せて

    \begin{align*}E\brc{(\mu-\overline{X})^2}=\frac{1}{n^2}\sum_{k=1}^{n}S=\frac{1}{n^2}\cdot nS=\frac{S}{n}\end{align*}

が従う.

ステップ3($E\brc{\frac{1}{n-1}\sum_{k=1}^{n}(x_k-\overline{X})^2}$の計算)

ステップ1から

    \begin{align*}E\brc{\sum_{k=1}^{n}(x_k-\overline{X})^2} &=E\brc{\sum_{k=1}^{n}(x_k-\overline{X})^2} \\&=E\brc{\sum_{k=1}^{n}(x_k-\mu)^2-n(\mu-\overline{X})^2} \\&=\sum_{k=1}^{n}E\brc{(x_k-\mu)^2}-nE\brc{(\mu-\overline{X})^2}\end{align*}

である.よって,ステップ2と併せて

    \begin{align*}E\brc{\frac{1}{n-1}\sum_{k=1}^{n}(x_k-\overline{X})^2} &=\frac{1}{n-1}E\brc{\sum_{k=1}^{n}(x_k-\overline{X})^2} \\&=\frac{1}{n-1}\bra{\sum_{k=1}^{n}S-n\cdot\frac{S}{n}} \\&=\frac{1}{n-1}(nS-S)=S\end{align*}

が従う.

参考文献

改訂版 統計検定2級対応 統計学基礎

[日本統計学会 編/東京図書]

統計検定2級は「大学基礎科目(学部1,2年程度)としての統計学の知識と問題解決能力」という位置付けであり,ある程度の数学的な処理能力が求められます.

そのため,統計検定2級を取得していると,一定以上の統計的なデータの扱い方を身に付けているという指標になります.

日本統計学会が実施する「統計検定」の2級の範囲に対応する教科書なので,「2級の試験範囲を確認する」くらいのつもりで持っておくのが良いかもしれません.

しかし,このテキストは表面的な説明に留まっているなど読みづらい部分も多いので,本書だけで2級の対策をするのは少し難しいと思います.

大学1年の微分積分学の知識は必要なので,もし自信がなければ統計検定3級からの挑戦を検討しても良いでしょう.

なお,本書については,以下の記事で書評としてまとめています.

コメント