【SPONSORED LINK】

最尤推定法の考え方|データから分布を推定する方法

何らかの全国規模の調査を行いたいとき,対象者全員に調査することができれば最もよいですが,それは時間やコストなどの面から現実的ではありません.

ですから,対象者の一部に調査を行い,そこで得られたデータから対象者全員の分布を推測することになります.

その推測の方法は色々ありますが,その一つに「最尤推定法」というものがあり,名前の通り「最もそれっぽい分布を推定する方法」です.

「最尤推定法」という名前を聞くといかめしい印象を受けますが,(実際の計算はともかく)実は考え方はシンプルでそれほど難しいものではありません.

この記事では,「最尤推定法」の考え方を説明し,最尤推定法の使い方をみます.

【SPONSORED LINK】

最尤推定法の考え方

最尤推定法を使う際には,最初に

  1. どのような分布に従うのか
  2. 実際に得られたデータ

の2つが用意されています.

例えば,「全国の成人男性の身長」を最尤推定法で考える際には

  1. 全国の成人男性の身長は「正規分布」に従う
  2. 100人の成人男性の身長のデータ

は既に分かっているものとします.この2つから「全国の成人男性の身長」がどのように分布しているかを考えるわけです.

なお,最尤推定法で考える分布は正規分布とは限りませんが,正規分布でなくても考え方は同じなので,この記事では分かりやすさのために全て正規分布で考えます.

分布を推定するとは

例えば,データが正規分布に従うとするとき,「分布を推定する」とはどういうことでしょうか?

正規分布は下図のような”山”のような形をしたグラフで表される分布でした.

Rendered by QuickLaTeX.com

ただし,「正規分布」と一言で言っても,グラフの

  • “裾”の広がり方
  • “真ん中”の位置

に特徴が表れます.

例えば,なだらか(分散\sigmaが大きい)正規分布のグラフ

Rendered by QuickLaTeX.com

になることもありますし,一番山の部分が0でない(平均\muが0でない)正規分布のグラフ

Rendered by QuickLaTeX.com

になることもあります.

ですから,分布を推定するとは「このような色々な分布の中で,どれが最もそれっぽい正規分布なのかを推定しよう」ということなわけです.

最尤推定法の考え方

さて,以下のように「分布」と「データ」が準備されているとしましょう.

  1. データは「正規分布」に従う
  2. 6個のデータ4.4, 5.3, 5.2, 5.7, 4.7, 4.1

このとき,「どんな正規分布になりそうですか?」と聞くと,多くの人は

  • データの”真ん中”あたりが最も高く
  • そこそこの散らばり具合の

以下のようなグラフを描くのではないでしょうか?

Rendered by QuickLaTeX.com

一方,多くのデータが集まっているところからずれたグラフ

Rendered by QuickLaTeX.com

や,5.6や4.2あたりのデータもあることからあまりにも集中しすぎたグラフ

Rendered by QuickLaTeX.com

はなさそうです.

これは「データが出ているところの値はそんなに小さくないだろう」という考えに基づいており,逆に言えば「データがあるところの値が出来るだけ大きくなるような分布がそれっぽい」ということになります.

したがって,正規分布のグラフを表す関数をf(x)とし,6個のデータ4.4, 5.3, 5.2, 5.7, 4.7, 4.1を代入して掛け合わせた

    \begin{align*} f(4.4)f(5.3)f(5.2)f(5.7)f(4.7)f(4.1) \end{align*}

が最大になるようなf(x)を関数にもつ分布が,最もそれっぽい正規分布ということができますね.

つまり,下図の赤線の長さの積が最も長くなるようなf(x)が最もそれっぽいf(x)です.

Rendered by QuickLaTeX.com

このような考え方に基づく分布の推定方法を「最尤推定法」と言います.

正規分布の最尤推定法

以上が最尤推定法の考え方で,次に正規分布の最尤推定を行なっていきます.

尤度関数

先ほどの話を一般化しましょう.

ある分布に従うn個のデータx_1,x_2,\dots,x_nに対して,この分布の確率密度関数をf(x)とするとき,

    \begin{align*} L:=f(x_1)\times f(x_2)\times\dots\times f(x_n)\bra{=\prod_{k=1}^{n}f(x_{k})} \end{align*}

を尤度関数(likelihood function)と言い,尤度関数を最大にするようなf(x)を求めることにより分布を推定する方法を最尤推定法(method of maximum likelihood estimation)という.

具体的に正規分布で考えましょう.平均\mu,分散\sigmaの正規分布の確率密度関数f_{\mu,\sigma}(x)

    \begin{align*} f_{\mu,\sigma}(x)=\frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{(x-\mu)^2}{2\sigma^2}} \end{align*}

と表されるのでしたから,この関数f_{\mu,\sigma}(x)n個のデータx_1,x_2,\dots,x_nを代入して掛け合わせた

    \begin{align*} L(\mu,\sigma) =&\frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{(x_1-\mu)^2}{2\sigma^2}}\times\dots\times \frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{(x_n-\mu)^2}{2\sigma^2}} \\=&\bra{\frac{1}{\sqrt{2\pi\sigma^2}}}^{n}e^{-\frac{(x_1-\mu)^2}{2\sigma^2}}e^{-\frac{(x_2-\mu)^2}{2\sigma^2}}\dots e^{-\frac{(x_n-\mu)^2}{2\sigma^2}} \\=&(2\pi\sigma^2)^{-\frac{n}{2}}e^{-\frac{1}{2\sigma^2}\brb{(x_1-\mu)^2+\dots+(x_n-\mu)^2}} \end{align*}

を尤度関数と言うわけですね.

先ほどから説明していたように正規分布の「位置」と「形」は様々に変わるのでしたが,それらは平均\muと分散\sigmaによって決まります.

よって,正規分布の最尤推定法では,尤度関数L(\mu,\sigma)を最大にする\mu\sigmaを求めることにより,最も尤もらしい正規分布を推定するということになります.

対数尤度関数

さて,それでは実際にどうすれば尤度関数L(\mu,\sigma)が最大となるような\mu\sigmaを求めることができるのでしょうか?

関数の最大,最小を求める問題では,微分を用いることでうまくいくことが多く,最尤推定法でも然りです.

とはいえ,尤度関数L(\mu,\sigma)は積の形で表されているので,このままでは微分しても式が煩雑になります.

そこで,尤度関数L(\mu,\sigma)に対数をとった対数尤度関数を定義します.

尤度関数Lに対数をとってできた関数

    \begin{align*} \log{L}:=\log(f_{1}(x))+\log{f_{2}(x)}+\dots+\log{f_{n}(x)}\bra{=\sum_{k=1}^{n}\log{f(x_k)}} \end{align*}

対数尤度関数(log-likelihood function)という.

対数の性質\log{ab}=\log{a}+\log{b}から,積に\logをとると和に早変わりするのでした.

尤度関数Lが最大になるとき,対数尤度関数\log{L}も最大になります.

よって,平均\mu,分散\sigmaの正規分布の尤度関数L(\mu,\sigma)を最大にするような\mu\sigmaを求めたければ,対数尤度関数\log{L}(\mu,\sigma)を最大にするような\mu\sigmaを求めればよいことになります.

さて,積のまま微分すると式は煩雑になりますが,和の微分は各項で微分ができるので式はそれほど煩雑になりません.対数をとったのはこの理由からです.

平均\mu,分散\sigmaの正規分布の対数尤度関数は

    \begin{align*} \log{L}(\mu,\sigma) =&\log{\brc{(2\pi\sigma^2)^{-\frac{n}{2}}e^{-\frac{1}{2\sigma^2}\brb{(x_1-\mu)^2+\dots+(x_n-\mu)^2}}}} \\=&-\frac{n}{2}\log{2\pi}-n\log{\sigma}-\frac{1}{2\sigma^2}\brb{(x_1-\mu)^2+\dots+(x_n-\mu)^2} \end{align*}

となりますね.

微分して極値を求める

上述したように,微分を用いることで対数尤度関数\log{L}(\mu,\sigma)の最大値を求めましょう.

一般に微分可能な関数f(x,y)に対して,

    \begin{align*} \pd{f}{x}(x,y)=\pd{f}{y}(x,y)=0 \end{align*}

を満たす(x,y)f(x,y)が最大(最小)となる(x,y)の候補です.実は,正規分布の対数尤度関数の場合には,

    \begin{align*} \pd{\log{L}}{\mu}(\mu,\sigma^2)=\pd{\log{L}}{\sigma}(\mu,\sigma)=0 \end{align*}

を満たすような(\mu,\sigma)\log{L}(\mu,\sigma)を最大にします.

    \begin{align*} & \pd{\check{L}}{\mu}(\mu,\sigma)=0 \\\iff& -\frac{1}{2\sigma^2}\brb{2(\mu-x_1)+\dots+2(\mu-x_n)}=0 \\\iff& (\mu-x_1)+\dots+(\mu-x_n)=0 \\\iff& \mu=\frac{x_1+\dots+x_n}{n}, \\& \pd{\check{L}}{\sigma}(\mu,\sigma)=0 \\\iff& -\frac{n}{\sigma}+\frac{1}{\sigma^3}\brb{(x_1-\mu)^2+\dots+(x_n-\mu)^2}=0 \\\iff& \frac{1}{\sigma^2}\brb{(x_1-\mu)^2+\dots+(x_n-\mu)^2}=n \\\iff& \sigma^2=\frac{(x_1-\mu)^2+\dots+(x_n-\mu)^2}{n} \end{align*}

となります.つまり,

  • \mu=\dfrac{x_1+\dots+x_n}{n}
  • \sigma^2=\dfrac{(x_1-\mu)^2+\dots+(x_n-\mu)^2}{n}

のとき,\check{L}(\mu,S)が最大,すなわち,\log{L}(\mu,\sigma)が最大となります.

結論

さて,ただ「正規分布に従うn個のデータを用意し,その尤度関数が最大になるような(\mu,\sigma)を求めよう」と求めたわけですが,今求まった\mu\sigma^2に見覚えはありませんか?

そう

  • \muはデータx_1,\dots,x_nの平均
  • \sigma^2はデータx_1,\dots,x_nの分散

になっていますね!

確かに最尤推定法からそれっぽい結果が導かれましたね.

この記事では,正規分布の最尤推定法を考えましたが,

正規分布でない場合にも,分布の関数にデータの値を代入して,それらの積が最大になるときが「最もそれっぽい分布だ」という最尤推定法のイメージがあれば,同じ考え方で最尤推定法を使うことができます.

関連記事

【良いと思ったらシェアを!】

SNSでもご購読できます。

コメントを残す

*

このサイトはスパムを低減するために Akismet を使っています。コメントデータの処理方法の詳細はこちらをご覧ください