決定係数の意味|最小二乗法から求めた回帰直線の性質

統計学
統計学

例えば「気温」と「アイスの売り上げ」のような2つのデータの関係を散布図に表し,その関係を「それっぽい直線や曲線」で表すことを回帰分析というのでした.

この回帰分析における「それっぽい直線」のことを回帰直線といい,回帰直線を求める際には最小二乗法がよく用いられます.

この最小二乗法を用いた回帰直線の求め方については以前の記事で説明しました.

最小二乗法を使えば回帰直線は求まりますが,元のデータに相関がなければ回帰直線を求める意義がなくなってしまいます.

そこで,回帰直線がどの程度適切にデータを表せているのかの指標となる決定係数があります.

決定係数を説明するために,回帰直線が満たす性質を説明する必要があるので,この記事では

  • 回帰直線が満たす性質
  • 決定係数とは何か

を順に説明します.

回帰直線の復習

最小二乗法により求められる回帰直線は以下のようになるのでした.

$n$個のデータの組$x=(x_1,x_2,\dots,x_n)$, $y=(y_1,y_2,\dots,y_n)$に対して

  • $x$の平均を$\overline{x}$
  • $x$の分散を${\sigma_x}^2$
  • $y$の平均を$\overline{y}$
  • $x$, $y$の共分散を$C_{xy}$

とする.このとき,最小二乗法を用いると,回帰直線は

   \begin{align*} y=\hat{a}+\hat{b}x\quad \bra{\hat{b}=\frac{C_{xy}}{{\sigma_x}^2},\quad \hat{a}=\overline{y}-\hat{b}\overline{x}} \end{align*}

となる.

Rendered by QuickLaTeX.com

実際のデータ$(x_i,y_i)$に対して

  • $x=x_i$での回帰直線上の$y$の値をデータを$x=x_i$の予測値といい,本稿では$\hat{y}_i$と表し,
  • $y_i-\hat{y}_i$をデータ$(x_i,y_i)$の残差といい,本稿では$\hat{y}_i$と表します.

Rendered by QuickLaTeX.com

前後しましたが,様々な直線の中でも残差の2乗和

   \begin{align*} S_e={e_1}^2+{e_2}^2+\dots+{e_n}^2 \end{align*}

が最小になるようなものを求めるのが最小二乗法の考え方で,こうして求められたのが上の回帰直線ということでしたね.

回帰分析の基本|最小二乗法で回帰直線を導出する方法
散布図に「それっぽい線」を描いてデータの関係を考えることを「回帰分析」といい,「それっぽい直線」を求める基本的な方法に「最小二乗法」があります,この記事では最小二乗法の考え方を説明します.

回帰直線の性質

それでは,最小二乗法で求めた回帰直線の性質を説明します.

$n$個のデータの組$x=(x_1,x_2,\dots,x_n)$, $y=(y_1,y_2,\dots,y_n)$に対する最小二乗法による回帰直線$y=\hat{a}+\hat{b}x$は以下の性質をもつ.

  1. 回帰直線は点$(\overline{x},\overline{y})$を通る.
  2. 予測値$\hat{y}_i$の平均$\overline{\hat{y}}$と$y_i$の平均$\overline{y}$は等しい.すなわち,残差$e_i$の平均$\overline{e}$は0である.
  3. 予測値$\hat{y}_i$と残差$e_i$は無相関(=相関係数が0=共分散が0)である.

これらを以下で証明していきましょう.

性質1

回帰直線の式$y=\hat{a}+\hat{b}x$では,等式$\hat{a}=\overline{y}-\hat{b}\overline{x}$が成り立つのでした.

これを整理してできる等式$\bar{y}=\hat{a}+\hat{b}\bar{x}$は回帰直線の方程式$y=\hat{a}+\hat{b}x$に$(x,y)=(\bar{x},\bar{y})$を代入してできる等式となっています.

そもそも方程式に代入して成り立つ点$(x,y)$を集めたものがグラフだったので,回帰直線$y=\hat{a}+\hat{b}x$は点$(\bar{x},\bar{y})$を通ることになります.

性質2

予測値$\hat{y}_i$は$\hat{y}_i=\hat{a}+\hat{b}x_i$と定義されていたので,

   \begin{align*} \overline{\hat{y}} =&\frac{1}{n}\sum_{i=1}^{n}\hat{y}_i =\frac{1}{n}\sum_{i=1}^{n}(\hat{a}+\hat{b}x_i) \\=&\hat{a}+\hat{b}\cdot\frac{1}{n}\sum_{i=1}^{n}x_i =\bra{\hat{a}+\hat{b}\overline{x}} =\overline{y} \end{align*}

が成り立ちます.残差$e_i$は$e_i=y_i-\hat{y}_i$と定義されていたので,残差の平均$\overline{e}$は

   \begin{align*} \overline{e} =&\frac{1}{n}\sum_{i=1}^{n}e_i =\frac{1}{n}\sum_{i=1}^{n}(y_i-\hat{y}_i) \\=&\frac{1}{n}\sum_{i=1}^{n}y_i-\frac{1}{n}\sum_{i=1}^{n}\hat{y}_i =\overline{y}-\overline{\hat{y}} =0 \end{align*}

となりますね.ただし,最後の等号では等式$\overline{y}=\hat{a}+\hat{b}\overline{x}$が成り立つことを用いました.

性質3

予測値$\hat{y}_i$と残差$e_i$の共分散$C_{\hat{y}e}$が0であることを示せばよいですね.

残差$e_i$について,

   \begin{align*} e_i =&(y_i-\hat{y}_i) =y_i-(\hat{a}+\hat{b}x_i) \\=&y_i-\brb{(\overline{y}-\hat{b}\overline{x})+\hat{b}x_i} \\=&(y_i-\overline{y})-\hat{b}(x_i-\overline{x}) \end{align*}

である.[性質2]の$\bar{\hat{y}}=\bar{y}$と$\bar{e}=0$を併せると

   \begin{align*} C_{\hat{y}e} =&\frac{1}{n}\sum_{i=1}^{n}(\hat{y}_i-\overline{\hat{y}})(e_i-\overline{e}) =\frac{1}{n}\sum_{i=1}^{n}(\hat{y}_i-\overline{y})e_i \\=&\frac{1}{n}\sum_{i=1}^{n}\{(\hat{a}+\hat{b}x_i)-(\hat{a}+\hat{b}\overline{x})\}e_i =\frac{\hat{b}}{n}\sum_{i=1}^{n}(x_i-\overline{x})e_i \\=&\hat{b}\brb{\frac{1}{n}\sum_{i=1}^{n}(x_i-\overline{x})(y_i-\overline{y})-\hat{b}\cdot\frac{1}{n}\sum_{i=1}^{n}(x_i-\overline{x})^2} \\=&\hat{b}\bra{C_{xy}-\hat{b}{\sigma_{x}}^2} =\hat{b}\bra{C_{xy}-\frac{C_{xy}}{{\sigma_{x}}^2}\cdot{\sigma_{x}}^2} =0 \end{align*}

となりますね.

平方和の分解と決定係数

そもそも回帰分析はデータの関係を表す「それっぽい線」を見つけようというのが目的なのでした.

そこで,最小二乗法で求まった回帰直線がどれくらい「それっぽいか」を測る指標として決定係数があります.

平方和の分解

上で確かめた回帰直線の[性質3]を用いると,以下のことが証明できます.

最小二乗法による回帰直線において,目的変数の平均とデータの差の平方和$S_T$は,

  • 残差平方和$S_e$
  • 回帰による平方和$S_{R}$

の和に等しい.すなわち,

   \begin{align*} &S_T=\sum_{i=1}^{n}(y_i-\overline{y})^2, \\&S_R=\sum_{i=1}^{n}(y_i-\overline{y})^2, \\&S_e=\sum_{i=1}^{n}(y_i-\hat{y}_i)^2\bra{=\sum_{i=1}^{n}{e_i}^2} \end{align*}

とすると,$S_T=S_e+S_R$が成り立つ.

回帰直線の[性質3]より,

   \begin{align*} \frac{1}{n}\sum_{i=1}^{n}(y_i-\hat{y}_i)(\hat{y}_i-\overline{y}) =&\frac{1}{n}\sum_{i=1}^{n}e_i(\hat{y}_i-\overline{\hat{y}_i}) \\=&\frac{1}{n}\sum_{i=1}^{n}(e_i-\overline{e})(\hat{y}_i-\overline{\hat{y}_i}) =0 \end{align*}

なので,

   \begin{align*} S_T =&\sum_{i=1}^{n}(y_i-\overline{y})^2 =\sum_{i=1}^{n}\brb{(y_i-\hat{y}_i)+(\hat{y}_i-\overline{y})}^2 \\=&\sum_{i=1}^{n}(y_i-\hat{y}_i)^2+\sum_{i=1}^{n}(\hat{y}_i-\overline{y})^2+\sum_{i=1}^{n}(y_i-\hat{y}_i)(\hat{y}_i-\overline{y}) \\=&\sum_{i=1}^{n}(y_i-\hat{y}_i)^2+\sum_{i=1}^{n}(\hat{y}_i-\overline{y})^2 =S_e+S_R \end{align*}

となります.

この平方和に関する等式$S_T=S_e+S_R$を平方和の分解といいます.

決定係数

平方和の分解$S_T=S_e+S_R$について,$S_e\ge0$かつ$S_R\ge0$なので$S_T\ge S_e\ge0$が成り立つので,$\dfrac{S_e}{S_T}$は$0\le\dfrac{S_e}{S_T}\le1$を満たします.

さて,もし全てのデータが回帰直線上にぴったり乗っていれば,データ$y_i$と予測値$\hat{y}_i$が一致しているので残差$e_i$は全て0ですから,残差平方和$S_e$は0となります.

言い換えれば,回帰直線が完全にデータの相関を表現していれば,残差は0となるわけですね.

一方,回帰直線からデータが離れるほど残差平方${e_i}^2$は大きくなり,$S_e$は$S_T$に近付きます.

これらのことから,$\dfrac{S_e}{S_T}$が0に近いほど回帰直線はデータを表現できており,$\dfrac{S_e}{S_T}$が1に近いほど回帰直線はデータから解離しているということができますね.

よって,$\dfrac{S_e}{S_T}$の値を考えれば,回帰直線がどれくらい「それっぽい」かを判断することができますね.

目的変数の平均とデータの差の平方和$S_T$と残差平方和$S_e$の比$\dfrac{S_e}{S_T}$を決定係数という.

上でも述べたとおり,

  • 決定係数が1に近いほど回帰直線の精度が悪く
  • 決定係数が0に近いほど回帰直線の精度が良い

というわけですね.

擬相関と偏相関係数

さて,2種類のデータの間に相関関係があっても,因果関係があるかどうかは分からないことは以前の記事で説明しました.

例えば,「アイスの売り上げ」と「プールの利用者数」には相関があるでしょうが,どちらかが他方の原因になっているわけではありませんね.

これらに相関関係にあるのは,背景に「気温」があることが予想できるため,「アイスの売り上げ」と「プールの利用者数」の両方から「気温」の影響を除くと,相関が見られないのではないかと考えられます.

このように,因果関係にない2つのデータに相関関係が見られることを擬相関というのでした.

次の記事では,本来の原因を取り除いて考える相関係数である偏相関係数を説明します.

相関係数を考えることで,擬相関であることを確認できる場合があります.

参考文献

改訂版 統計検定2級対応 統計学基礎

[日本統計学会 編/東京図書]

日本統計学会が実施する「統計検定」の2級の範囲に対応する教科書です.

統計検定2級は「大学基礎科目(学部1,2年程度)としての統計学の知識と問題解決能力」という位置付けであり,ある程度の数学的な処理能力が求められます.

そのため,統計検定2級を取得していると,一定以上の統計的なデータの扱い方を身に付けているという指標になります.

本書は

  1. データの記述と要約
  2. 確率と確率分布
  3. 統計的推定
  4. 統計的仮説検定
  5. 線形モデル分析
  6. その他の分析法-正規性の検討,適合度と独立性の$\chi^2$検定

の6章からなり,基礎的な統計的スキルを身につけることができます.

大学1,2年程度のレベルの内容なので,もし高校数学が怪しいようであれば,統計検定3級からの挑戦を検討しても良いでしょう.

なお,本書については,以下の記事で書評としてまとめています.

コメント