不偏推定量ってなに?
標本平均と不偏分散の普遍性を理解する

統計学
統計学

例えば「日本人全体の平均」などを考えたいとしても,日本人全員にアンケートをとることは現実的には不可能ですが,無作為にアンケートをとって大まかに実態を推測することは可能です.

標本から推測を行う場合には,不偏推定量の概念が重要な場合があります.

不偏推定量は母集団の統計量の「良い」推測ができる標本の統計量の1つです.

とくに,分散の不偏推定量は不偏分散として計算でき,この不偏分散はなんだかよく分からないものとして敬遠されがちなものです.

この記事では,不偏推定量の考え方を説明し

  • 平均の不偏推定量
  • 分散の不偏推定量

を考えます.

推測統計と不偏推定量

考えたい対象の全てのデータを手に入れることができれば良いわけですが,データが多い場合などでは,当然のことながら全数調査は現実的ではありません.

このようなとき,どのようにして全体の様子を推測するかを考えましょう.

推測統計

いくつかの言葉を確認しておきましょう.

知りたい全てのデータを母集団といい,母集団全てのデータを集めて考えることを全数調査悉皆調査などという.また,母集団から一部のデータを収集したとき,そのデータを標本という.

例えば,選挙速報などでは

  • 全有権者のデータが母集団
  • 出口調査のデータが標本

ということになりますね.この選挙速報でもそうですが,全量調査が不可能な場合には標本から母集団の様子を推測することになります.

このように,標本から母集団を推測することを総称して推測統計といいます.

例えば,味噌汁を作るとき少しだけ味見をすれば全体の味が推測できます.推測統計はいわばこの味見のようなもので,部分的にデータを収集する(標本を考える)ことで全体の様子を推測しようというものです.

しかし,味噌汁を作る際に十分に味噌が全体に混ざっていなければ,濃いところと薄いところができてしまいますから,しっかり味噌汁を混ぜてから味見をすることが大切です.

同様に,推測統計でも偏ったデータの取り方をしてしまうと,正しく全体の様子を推測することができません.

そこで,どのようなデータの取り方をしていても,だいたい母集団の実態を表せていることが保証される考え方をすることが大切です.

不偏推定量

ここで次の問題を考えてみましょう.

母平均を標本から推測するにはどうすれば良いか?

母集団が$10000$個のデータ$\{x_1,x_2,\dots,x_{9999},x_{10000}\}$からなるとしましょう.

ここから$100$個のデータからなる標本をとるとき,例えば

  • $\{x_1,x_2,\dots,x_{99},x_{100}\}$
  • $\{x_2,x_3,\dots,x_{100},x_{101}\}$
  • $\{x_{31},x_{54},\dots,x_{9845},x_{9901}\}$

など$100$個のデータの標本の選び出し方は様々考えられますね.

Rendered by QuickLaTeX.com

これらそれぞれの標本平均を考えると,

  • 標本$\{x_1,x_2,\dots,x_{99},x_{100}\}$の平均は$\dfrac{x_1+x_2+\dots+x_{99}+x_{100}}{100}$
  • 標本$\{x_2,x_3,\dots,x_{100},x_{101}\}$の平均は$\dfrac{x_2+x_3+\dots+x_{100}+x_{101}}{100}$
  • 標本$\{x_{31},x_{54},\dots,x_{9845},x_{9901}\}$の平均は$\dfrac{x_{31}+x_{54}+\dots+x_{9845}+x_{9901}}{100}$

となります.

のちに説明するように,実は$100$個のデータからなる標本たちの標本平均の平均は母平均に等しくなります.

このような性質を「標本平均は,母平均の不偏推定量である」といいます.

より広く不偏推定量は次のように定義されます.

母集団の統計量$\theta$に対して,無作為標本から測定した統計量$\hat{\theta}$の平均$E[\hat{\theta}]$が$\theta$に等しいとする.すなわち

   \begin{align*}E[\hat{\theta}]=\theta\end{align*}

が成り立つとする.このとき,$\hat{\theta}$は$\theta$の不偏推定量 (unbiased estimator)という.

このように,あらゆる標本の統計量$\hat{\theta}$を考え,それらの平均が母集団の統計量$\theta$に一致しているという性質を不偏性といいます.

不偏推定量は「標本から母集団の統計量を良く推定するもの」ということができますね.

平均と分散の不偏推定量

それでは本題の

  • 母集団の平均
  • 母集団の分散

の不偏推定量を説明します.

平均の不偏推定量

[平均] $n$個のデータ$\{x_1,x_2,\dots,x_n\}$に対して,

   \begin{align*}\frac{1}{n}\sum_{k=1}^{n}x_k\end{align*}

を$\{x_1,x_2,\dots,x_n\}$の平均 (mean)という.

平均は$\frac{1}{n}\bra{x_1+x_2+\dots+x_n}$と書いても同じことですね.

統計学の基礎1|データを要約する代表値(平均値・中央値)
たとえば,テスト結果をまとめたいときは「平均値」を求めるのが多くの人が思い付く方法でしょう.また,「中央値」もデータの要約として有力な値として知られています.この記事では,データを要約する重要な統計量として,「平均値」と「中央値」を説明します.

一般に,母集団の平均のことを母平均といいます.

先ほど軽く触れたように,母平均の不偏推定量については以下が従います.

母平均$\mu$の不偏推定量は標本平均である.すなわち,標本を$\{x_1,x_2,\dots,x_n\}$とするとき,

   \begin{align*}E\brc{\frac{1}{n}\sum_{k=1}^{n}x_k}=\mu\end{align*}

が成り立つ.


母平均を$\mu$,無作為標本を$\{x_1,x_2,\dots,x_n\}$,標本平均を$\overline{X}$とします.このとき,

   \begin{align*} \overline{X}=\frac{x_1+x_2+\dots+x_n}{n} \end{align*}

で,母集団から任意にデータをとってくると,その期待値は母平均$\mu$なので

   \begin{align*} E[x_1]=E[x_2]=\dots=E[x_n]=\mu \end{align*}

です.よって,

   \begin{align*} E[\overline{X}] =&E\brc{\frac{x_1+x_2+\dots+x_n}{n}} \\=&\frac{1}{n}(E[x_1]+E[x_2]+\dots+E[x_n]) \\=&\frac{1}{n}(\mu+\mu+\dots+\mu) =\mu \end{align*}

が成り立ちます.

分散の不偏推定量

$n$個のデータ$\{x_1,x_2,\dots,x_n\}$に対して,平均を$m$とする.このとき,

   \begin{align*}\frac{1}{n}\sum_{k=1}^{n}(x_k-m)^2\end{align*}

分散 (variance)という.

分散は$\frac{1}{n}\brb{(x_1-m)^2+(x_2-m)^2+\dots+(x_n-m)^2}$と書いても同じことですね.

統計学の基礎2|データのばらつきを表す「分散」のイメージ
例えば,年収の統計をとったとき,高所得者がいると(外れ値があると)平均値が大きく吊り上げられ,平均年収が実態にそぐわなくなることがあります.このように,データのばらつきが大きいとき,統計学では「分散(標準偏差)が大きい」といい,

一般に,母集団の分散のことを母分散といいます.

さて,平均のときと同様に直感的には「母分散の不偏推定量は標本分散」と思ってしまいそうですが,実はこれは間違いで標本分散の平均は母分散とはなりません.

母平均を$\mu$,母分散を$S$とする.標本を$\{x_1,x_2,\dots,x_n\}$ ($n\ge2$)とするとき,$S$の不偏推定量は$\frac{1}{n}\sum_{k=1}^{n}x_k$である.すなわち,

   \begin{align*}E\brc{\frac{1}{n-1}\sum_{k=1}^{n}(x_k-m)^2}=S\end{align*}

が成り立つ.


母平均を$\mu$,母分散を$S$,無作為標本を$\{x_1,x_2,\dots,x_n\}$,標本平均を$\overline{X}$とする.

[ステップ1] まず$\sum\limits_{k=1}^{n}(x_k-\overline{X})^2$を計算する.

   \begin{align*} \sum_{k=1}^{n}(x_k-\mu) =&n\cdot\frac{x_1+x_2+\dots+x_n}{n}-n\mu \\=&n(\overline{X}-\mu) \end{align*}

なので

   \begin{align*} &\sum_{k=1}^{n}(x_k-\overline{X})^2 \\=&\sum_{k=1}^{n}\{(x_k-\mu)+(\mu-\overline{X})\}^2 \\=&\sum_{k=1}^{n}\brb{(x_k-\mu)^2+2(x_k-\mu)(\mu-\overline{X})+(\mu-\overline{X})^2} \\=&\sum_{k=1}^{n}(x_k-\mu)^2+2(\mu-\overline{X})\sum_{k=1}^{n}(x_k-\mu)+\sum_{k=1}^{n}(\mu-\overline{X})^2 \\=&\sum_{k=1}^{n}(x_k-\mu)^2+2n(\mu-\overline{X})(\overline{X}-\mu)+n(\mu-\overline{X})^2 \\=&\sum_{k=1}^{n}(x_k-\mu)^2-2n(\mu-\overline{X})+n(\mu-\overline{X})^2 \\=&\sum_{k=1}^{n}(x_k-\mu)^2-n(\mu-\overline{X})^2 \end{align*}

である.

[ステップ2] 次に$E\brc{(x_k-\mu)^2}$と$E\brc{(\mu-\overline{X})^2}$を計算する.

$E[x_k]=\mu$だから$E[(x_k-\mu)^2]$は$x_k$の分散$V[x_k]$に一致するので

   \begin{align*} E[(x_k-\mu)^2] =V[x_k] =S \end{align*}

となる.

また,$E[\overline{X}]=\mu$だから$E[(\mu-\overline{X})^2]$は$\overline{X}$の分散$V[\overline{X}]$に一致するので

   \begin{align*} E\brc{(\mu-\overline{X})^2} =&V[\overline{X}] =V\brc{\frac{1}{n}\sum_{k=1}^{n}x_k} \\=&\frac{1}{n^2}\sum_{k=1}^{n}V[x_k] =\frac{1}{n^2}\sum_{k=1}^{n}S \\=&\frac{1}{n^2}\cdot nS =\frac{S}{n} \end{align*}

となる.

[ステップ3] ステップ1とステップ2から

   \begin{align*} &E\brc{\frac{1}{n-1}\sum_{k=1}^{n}(x_k-\overline{X})^2} \\=&\frac{1}{n-1}E\brc{\sum_{k=1}^{n}(x_k-\overline{X})^2} \\=&\frac{1}{n-1}E\brc{\sum_{k=1}^{n}(x_k-\mu)^2-n(\mu-\overline{X})^2} \\=&\frac{1}{n-1}\bra{\sum_{k=1}^{n}E\brc{(x_k-\mu)^2}-nE\brc{(\mu-\overline{X})^2}} \\=&\frac{1}{n-1}\bra{\sum_{k=1}^{n}S-n\cdot\frac{S}{n}} \\=&\frac{1}{n-1}(nS-S) \\=&S \end{align*}

となるので,目的の不偏分散の平均$E\brc{\dfrac{1}{n-1}\sum\limits_{k=1}^{n}(x_k-\overline{X})^2}$が母分散に一致する.

この母分散の不偏推定量を不偏分散といいます.

データ$\{x_1,x_2,\dots,x_n\}$ ($n\ge2$)に対して,平均を$m$とする.このとき,

   \begin{align*}\frac{1}{n-1}\sum_{k=1}^{n}(x_k-m)^2\end{align*}

不偏分散 (unbiased variance)という.

分散と不偏分散は

  • $\dfrac{1}{n}$がかけられているのが分散
  • $\dfrac{1}{n-1}$がかけられているのが不偏分散

という違いがあるだけですね.このことから,不偏分散は分散よりも少し大きい値になっていることが分かりますね.

参考文献

改訂版 統計検定2級対応 統計学基礎

[日本統計学会 編/東京図書]

日本統計学会が実施する「統計検定」の2級の範囲に対応する教科書です.

統計検定2級は「大学基礎科目(学部1,2年程度)としての統計学の知識と問題解決能力」という位置付けであり,ある程度の数学的な処理能力が求められます.

そのため,統計検定2級を取得していると,一定以上の統計的なデータの扱い方を身に付けているという指標になります.

本書は

  1. データの記述と要約
  2. 確率と確率分布
  3. 統計的推定
  4. 統計的仮説検定
  5. 線形モデル分析
  6. その他の分析法-正規性の検討,適合度と独立性の$\chi^2$検定

の6章からなり,基礎的な統計的スキルを身につけることができます.

大学1,2年程度のレベルの内容なので,もし高校数学が怪しいようであれば,統計検定3級からの挑戦を検討しても良いでしょう.

なお,本書については,以下の記事で書評としてまとめています.

コメント

タイトルとURLをコピーしました