確率変数の4つの収束|概収束,平均収束,確率収束,法則収束

確率論
確率論

確率変数列$\{X_n\}_{n\in\N}$の収束として,

  • 概収束$X_n\to X\ \text{a.s.}$
  • $p$次平均収束$X_n\xrightarrow[]{L^p}X$
  • 確率収束$X_n\xrightarrow[]{P}X$
  • 法則収束(分布収束)$X_n\xrightarrow[]{L}X$

の4種類が基本的で,広く用いられています.

また,これらの収束は無関係ではなく,これらの間には強弱の関係があります.

この記事では,

  • 確率変数の4つの収束の定義
  • 確率変数の4つの収束の強弱

を説明します.

確率変数の4つの収束

まずは確率変数の定義を確認しておきましょう.

$(\Omega,\mathcal{F},\mathbb{P})$を確率空間とし,$(S,\mathcal{S})$を可測空間する.このとき,可測な写像$X:\Omega\to S$を$S$値確率変数(random variable)という.

特に,$S=\R$, $\mathcal{S}=\mathcal{B}(\R)$($\R$上のボレル集合族)の場合,$X$を実数値確率変数(real-valued random variable)という.

例えば,6面サイコロをふることに対応する確率空間$(\Omega,\mathcal{F},\mathbb{P})$は

  • $\Omega=\{1,2,3,4,5,6\}$
  • $\mathcal{F}=2^\Omega$ ($\Omega$の冪集合)
  • $\mathbb{P}(\{\omega\})=\frac{1}{6}$ ($\omega\in\Omega$)

です.サイコロを振って

  • $1,2,3$の目が出れば10点
  • $4,5$の目が出れば20点
  • $6$の目が出れば30点

とサイコロの目に点数を与える状況は

  • $S=\{10,20,30\}$
  • $\mathcal{S}=2^S$($S$の冪集合)
  • $X:\Omega\to S;\begin{cases}1,2,3\mapsto 10\\4,5\mapsto 20\\6\mapsto 30\end{cases}$

なる可測空間$(S,\mathcal{S})$と確率変数$X:\Omega\to S$を定めることによって表現できます.

この記事では$(\Omega,\mathcal{F},\mathbb{P})$を確率空間とし,$\mathbb{E}$で期待値,集合$A\subset\Omega$上の定義関数を$\mathbb{I}_{A}$で表します:

    \begin{align*}\mathbb{E}[X]=\int_{\Omega}X(\omega)\,\mathbb{P}(d\omega),\quad \mathbb{I}_{A}(\omega)=\begin{cases}1,&\omega\in A,\\0,&\omega\notin A.\end{cases}\end{align*}

概収束の定義

実数値確率変数列$\{X_n\}_{n\in\N}$が確率変数$X$に概収束(almost sure convergence)するとは,

    \begin{align*}\mathbb{P}\bra{\set{\omega\in\Omega}{\lim_{n\to\infty}X_n(\omega)=X(\omega)}}=1\end{align*}

を満たすことをいう.このとき,$X_n\to X\ \text{a.s.}$などと表す.

「$\lim\limits_{n\to\infty}X_n(\omega)=X(\omega)$を満たさない$\omega\in\Omega$はいるかもしれないが,そのような$\omega$の確率は0である」というのが概収束の定義の意味です.

この定義は「$n\to\infty$でほとんど確実に$X_n$が$X$に収束する」とも言います.

概収束$X_n\to X\ \text{a.s.}$のa.s.は,almost surely(ほとんど確実に)の略です.

平均収束の定義

$p\in[1,\infty)$に対して実数値確率変数列$\{X_n\}_{n\in\N}$が確率変数$X$に$p$次平均収束(convergence in the mean of order $p$)するとは,

    \begin{align*}\lim_{n\to\infty}\mathbb{E}\brc{|X_n-X|^p}=0\end{align*}

を満たすことをいう.このとき,$X_n\xrightarrow[]{L^p}X$などと表す.

実数値確率変数$Y$と$p\in[1,\infty)$に対して,一般に

    \begin{align*}\bra{\int_{\Omega}|Y(\omega)|^p\,\mathbb{P}(d\omega)}^{1/p}\end{align*}

を$\|Y\|_{L^p(\Omega)}$で表し,$L^p$ノルムといいます.$L^p$ノルム$\|Y\|_{L^p(\Omega)}$を用いると,$p$次平均収束の定義式は

    \begin{align*}\lim_{n\to\infty}\|X_n-X\|_{L^p(\Omega)}^p=0\end{align*}

と書くこともできますね.

$\|Y\|_{L^p(\Omega)}<\infty$を満たす実数値確率変数$Y$全部の空間$L^p(\Omega)$は$\|\cdot\|_{L^p(\Omega)}$をノルムとしてバナッハ空間となることもよく知られています.

確率収束の定義

実数値確率変数列$\{X_n\}_{n\in\N}$が確率変数$X$に確率収束(stochastic convergence)するとは,任意の$\epsilon>0$に対して,

    \begin{align*}\lim_{n\to\infty}\mathbb{P}\bra{\set{\omega\in\Omega}{|X_n(\omega)-X(\omega)|>\epsilon}}=0\end{align*}

を満たすことをいう.このとき,$X_n\xrightarrow[]{P}X$などと表す.

「任意の$\epsilon>0$に対して,『$X_n(\omega)$と$X(\omega)$が$\epsilon$より離れている$\omega\in\Omega$の集合』の確率が,$n$を大きくしていくと$0$に近付く」というのが確率収束の定義の意味です.

また,この定義式は

    \begin{align*}&\lim_{n\to\infty}\int_{\{|X_n-X|>\epsilon\}}\,\mathbb{P}(d\omega)=0\end{align*}

    \begin{align*}\lim_{n\to\infty}\mathbb{E}\brc{\mathbb{I}_{\{|X_n-X|>\epsilon\}}}=0\end{align*}

と表すこともできますね.

正確には

    \begin{align*}\lim_{n\to\infty}\int_{\set{\omega\in\Omega}{|X_n(\omega)-X(\omega)|>\epsilon}}\,\mathbb{P}(d\omega)=0\end{align*}

    \begin{align*}\lim_{n\to\infty}\mathbb{E}\brc{\mathbb{I}_{\set{\omega\in\Omega}{|X_n(\omega)-X(\omega)|>\epsilon}}}=0\end{align*}

ですが,添字がかさばると読みにくいため慣習的に上記のように省略して表すことが多いです.

法則収束の定義

実数値確率変数列$\{X_n\}_{n\in\N}$が確率変数$X$に法則収束(convergence in law)または分布収束(convergence in distribution)するとは,任意の実数値有界連続関数$f$に対して

    \begin{align*}\lim_{n\to\infty}\mathbb{E}[f(X_n)]=\mathbb{E}[f(X)]\end{align*}

を満たすことをいう.このとき,$X_n\xrightarrow[]{L}X$や$X_n\xrightarrow[]{D}X$などと表す.

$f(x)=\sin{x}$や$f(x)=e^{-x^2}$など任意の実数値有界連続関数$f$に対して成り立つ必要があります.

なお,左辺の期待値と右辺の期待値が別の確率空間によるものであっても構いません.すなわち,

  • 確率変数列$\{X_n\}_{n\in\N}$が定義された確率空間
  • 確率変数$X$が定義された確率空間

が異なっている場合でも,この定義は問題ありません.

収束の強さ

それでは,いまみた4つの収束の強さは

  • 概収束 $\Ra$ 確率収束
  • 平均収束 $\Ra$ 確率収束
  • 確率収束 $\Ra$ 法則収束

となります.このことを証明しましょう.

確率収束がいずれにも関わっていることを意識すると整理しやすいですね.

概収束と確率収束

$\{X_n\}_{n\in\N}$が$X$に概収束するなら,$\{X_n\}_{n\in\N}$は$X$に確率収束する:

    \begin{align*}X_n\to X\ \text{a.s.}\quad\Ra\quad X_n\xrightarrow[]{P}X\end{align*}

任意に$\epsilon>0$をとる.$\{X_n\}_{n\in\N}$が$X$に概収束するなら,定義よりほとんど全ての$\omega\in\Omega$に対して

    \begin{align*}\lim_{n\to\infty}X_n(\omega)=X(\omega)\end{align*}

だから,ほとんど全ての$\omega\in\Omega$に対して$\lim_{n\to\infty}\mathbb{I}_{\{|X_n-X|>\epsilon\}}(\omega)=0$である.

また,$\Omega$上で$\mathbb{I}_{\{|X_n-X|>\epsilon\}}\le1$であり,$\mathbb{E}(1)=1<\infty$だから,ルベーグの収束定理より

    \begin{align*}\lim_{n\to\infty}\mathbb{E}\brc{\mathbb{I}_{\{|X_n-X|>\epsilon\}}} =&\mathbb{E}\brc{\lim_{n\to\infty}\mathbb{I}_{\{|X_n-X|>\epsilon\}}} \\=&\mathbb{E}[0] =0\end{align*}

が従う.すなわち,$\{X_n\}_{n\in\N}$は$X$に確率収束する.

平均収束と確率収束

任意の$p\in[1,\infty)$に対して$\{X_n\}_{n\in\N}$が$X$に$p$次平均収束するなら,$\{X_n\}_{n\in\N}$は$X$に確率収束する:

    \begin{align*}X_n\xrightarrow[]{L^p}X\quad\Ra\quad X_n\xrightarrow[]{P}X\end{align*}

任意の$\epsilon>0$に対して

    \begin{align*}0\le&\mathbb{E}\brc{\mathbb{I}_{\{|X_n-X|>\epsilon\}}} \\\le&\mathbb{E}\brc{\frac{|X_n-X|^p}{\epsilon^p}} \le\frac{1}{\epsilon^p}\mathbb{E}\brc{|X_n-X|^p}\end{align*}

が成り立つ(本質的にチェビシェフの不等式).

よって,$\{X_n\}_{n\in\N}$が$X$に$p$次平均収束するなら,定義より

    \begin{align*}\lim_{n\to\infty}\mathbb{E}\brc{|X_n-X|^p}=0\end{align*}

だから,$\lim\limits_{n\to\infty}\mathbb{E}\brc{\mathbb{I}_{\{|X_n-X|>\epsilon\}}}=0$が従う.すなわち,$\{X_n\}_{n\in\N}$は$X$に確率収束する.

確率収束と法則収束

$\{X_n\}_{n\in\N}$が$X$に確率収束するなら,$\{X_n\}_{n\in\N}$は$X$に法則収束(法則収束)する:

    \begin{align*}X_n\xrightarrow[]{P}X\quad\Ra\quad X_n\xrightarrow[]{L}X\end{align*}

任意に$\epsilon>0$,実数値有界連続関数$f$をとり,$M:=\sup\limits_{x\in\R}|f(x)|$とする.一般に

    \begin{align*}\lim_{R\to\infty}\mathbb{E}\brc{\mathbb{I}_{\{|X|>R\}}} =\lim_{R\to\infty}\mathbb{P}(\set{\omega\in\Omega}{|X(\omega)|>R}) =0\end{align*}

なので,ある$R>0$が存在して,

    \begin{align*}\mathbb{E}\brc{\mathbb{I}_{\{|X|>R\}}}<\frac{\epsilon}{6M}\end{align*}

が成り立つ.

また,有界閉区間$[-2R,2R]$上で$f$は連続だから,$[-2R,2R]$上で$f$は一様連続である(Heine-Cantorの定理).よって,ある$\delta\in(0,R)$が存在して,$|x-y|\le\delta$かつ$|x|\le R$なら

    \begin{align*}|f(x)-f(y)|<\frac{\epsilon}{3}\end{align*}

が成り立つ.

さらに,$\{X_n\}_{n\in\N}$が$X$に確率収束するなら,定義より,ある$N\in\N$が存在して,$n>N$なら

    \begin{align*}\mathbb{E}\brc{\mathbb{I}_{\{|X_n-X|>\delta\}}}<\frac{\epsilon}{6M}\end{align*}

が成り立つ.

よって,$n>N$なら

    \begin{align*}&|\mathbb{E}[f(X_n)]-\mathbb{E}[f(X)]| \\\le&\mathbb{E}[|f(X_n)-f(X)|] \\=&\mathbb{E}\brc{|f(X_n)-f(X)|\mathbb{I}_{\{|X|>R\}}} \\&+\mathbb{E}\brc{|f(X_n)-f(X)|\mathbb{I}_{\{|X_n-X|>\delta\}\cap\{|X|\le R\}}} \\&+\mathbb{E}\brc{|f(X_n)-f(X)|\mathbb{I}_{\{|X_n-X|\le\delta\}\cap\{|X|\le R\}\}}} \\\le&\mathbb{E}\brc{(|f(X_n)|+|f(X)|)\mathbb{I}_{\{|X|>R\}}} \\&+\mathbb{E}\brc{(|f(X_n)|+|f(X)|)\mathbb{I}_{\{|X_n-X|>\delta\}}} \\&+\mathbb{E}\brc{|f(X_n)-f(X)|\mathbb{I}_{\{|X_n-X|\le\delta\}\cap\{|X|\le R\}}} \\\le&\mathbb{E}\brc{(M+M)\mathbb{I}_{\{|X|>R\}}} \\&+\mathbb{E}\brc{(M+M)\mathbb{I}_{\{|X_n-X|>\delta\}}} \\&+\mathbb{E}\brc{\frac{\epsilon}{3} \mathbb{I}_{\{|X_n-X|\le\delta\}\cap\{|X|\le R\}}} \\\le&2M\mathbb{E}\brc{\mathbb{I}_{\{|X|>M\}}}+2M\mathbb{E}\brc{\mathbb{I}_{\{|X_n-X|>\delta\}}}+\frac{\epsilon}{3}\mathbb{E}[1] \\<&2M\cdot\frac{\epsilon}{6M}+2M\cdot\frac{\epsilon}{6M}+\frac{\epsilon}{3} =\epsilon\end{align*}

が従う.すなわち,$\{X_n\}_{n\in\N}$は$X$に法則収束する.

実は「確率収束する確率変数列$\{X_n\}_n$は概収束する確率変数列$\{X_{n(k)}\}_k$をもつ」という事実を用いればより簡単に証明できます.

しかし,この事実を証明するためにはボレル-カンテリ(Borel-Cantelli)の補題を用いるので,ここでは前提知識の少ない証明を与えました.

参考文献

確率論

[舟木直久 著/朝倉書店]

本書は確率論の入門書で,全体を通して丁寧に書かれています.

第1章では確率論の概説がなされており,例えば「大数の弱法則」「大数の強法則」にまで平易な説明で触れられているのが嬉しいです.

ただし,本書の「まえがき」に書かれているように,第2章から第5章は大学3年〜4年相当の確率論の内容となっているので,第2章以降を読むにはそれなりの基礎が必要となります.

第6章,第7章では代表的な確立過程である「マルチンゲール」「マルコフ過程」が解説されています.

本書は全体を通して「なぜその概念を学ぶ必要があるのか」という動機付けが大切にされており,新しい概念を前向きに理解しやすい点が優れている好著となっています.

コメント