【SPONSORED LINK】

最小二乗法から求めた回帰直線の性質と決定係数の意味

例えば「気温」と「アイスの売り上げ」のような2つのデータの関係を散布図に表し,その関係を「それっぽい直線や曲線」で表すことを回帰分析というのでした.

また,回帰分析における「それっぽい直線」のことを回帰直線といい,回帰分析を行う際には最小二乗法がよく使われます.

この最小二乗法を用いた回帰直線の求め方については以前の記事で説明しました.

この記事では,回帰直線が満たす性質を考え,回帰直線がどれくらい「それっぽいか」を表す決定係数について説明します.

なお,回帰直線の求め方については,以下の記事を参照してください.

【SPONSORED LINK】

最小二乗法の復習

最小二乗法により求められる回帰直線は以下のようになるのでした.

n個のデータの組x=(x_1,x_2,\dots,x_n), y=(y_1,y_2,\dots,y_n)に対して最小二乗法を用いると,回帰直線は

\begin{align*} y=\hat{a}+\hat{b}x\quad \bra{\hat{b}=\frac{C_{xy}}{{\sigma_x}^2},\quad \hat{a}=\overline{y}-\hat{b}\overline{x}} \end{align*}

となる.ただし,

  • \overline{x}xの平均
  • {\sigma_x}^2xの分散
  • \overline{y}yの平均
  • C_{xy}x, yの共分散

であり,x_1,\dots,x_nの少なくとも1つは異なる値である.

Rendered by QuickLaTeX.com

実際のデータ(x_i,y_i)に対して

  • x=x_iでの回帰直線上のyの値をデータをx=x_i予測値といい,本稿では\hat{y}_iと表し,
  • y_i-\hat{y}_iをデータ(x_i,y_i)残差といい,本稿では\hat{y}_iと表します.

Rendered by QuickLaTeX.com

前後しましたが,様々な直線の中でも残差の2乗和

\begin{align*} S_e={e_1}^2+{e_2}^2+\dots+{e_n}^2 \end{align*}

が最小になるようなものを求めるのが最小二乗法の考え方で,こうして求められたのが上の回帰直線ということでしたね.

回帰直線の性質

それでは,最小二乗法で求めた回帰直線の性質を説明します.

n個のデータの組x=(x_1,x_2,\dots,x_n), y=(y_1,y_2,\dots,y_n)に対する最小二乗法による回帰直線y=\hat{a}+\hat{b}xは以下の性質をもつ.

  1. 回帰直線は点(\overline{x},\overline{y})を通る.
  2. 予測値\hat{y}_iの平均\overline{\hat{y}}y_iの平均\overline{y}は等しい.すなわち,残差e_iの平均\overline{e}は0である.
  3. 予測値\hat{y}_iと残差e_iは無相関(=相関係数が0=共分散が0)である.

これらを以下で証明していきましょう.

性質1

上で見たように,等式\overline{y}=\hat{a}+\hat{b}\overline{x}が成り立つのでした.

この等式は回帰直線の方程式y=\hat{a}+\hat{b}x(x,y)=(\overline{x},\overline{y})を代入してできる等式です.

そもそも方程式に代入して成り立つ点(x,y)を集めたものがグラフだったので,回帰直線y=\hat{a}+\hat{b}xは点(\overline{x},\overline{y})を通ることになります.

性質2

予測値\hat{y}_i\hat{y}_i=\hat{a}+\hat{b}x_iと定義されていたので,

\begin{align*} \overline{\hat{y}} =&\frac{1}{n}\sum_{i=1}^{n}\hat{y}_i =\frac{1}{n}\sum_{i=1}^{n}(\hat{a}+\hat{b}x_i) \\=&\hat{a}+\hat{b}\cdot\frac{1}{n}\sum_{i=1}^{n}x_i =\bra{\hat{a}+\hat{b}\overline{x}} =\overline{y} \end{align*}

が成り立ちます.残差e_ie_i=y_i-\hat{y}_iと定義されていたので,残差の平均\overline{e}

\begin{align*} \overline{e} =&\frac{1}{n}\sum_{i=1}^{n}e_i =\frac{1}{n}\sum_{i=1}^{n}(y_i-\hat{y}_i) \\=&\frac{1}{n}\sum_{i=1}^{n}y_i-\frac{1}{n}\sum_{i=1}^{n}\hat{y}_i =\overline{y}-\overline{\hat{y}} =0 \end{align*}

となりますね.ただし,最後の等号では等式\overline{y}=\hat{a}+\hat{b}\overline{x}が成り立つことを用いました.

性質3

予測値\hat{y}_iと残差e_iの共分散C_{\hat{y}e}が0であることを示せばよいですね.

[性質2]の\overline{\hat{y}}=\overline{y}\overline{e}=0から,

\begin{align*} C_{\hat{y}e} =&\frac{1}{n}\sum_{i=1}^{n}(\hat{y}_i-\overline{\hat{y}})(e_i-\overline{e}) =\frac{1}{n}\sum_{i=1}^{n}(\hat{y}_i-\overline{y})e_i \\=&\frac{1}{n}\sum_{i=1}^{n}\{(\hat{a}+\hat{b}x_i)-(\hat{a}+\hat{b}\overline{x})\}e_i \\=&\frac{\hat{b}}{n}\sum_{i=1}^{n}(x_i-\overline{x})(y_i-\hat{y}_i) \\=&\frac{\hat{b}}{n}\sum_{i=1}^{n}(x_i-\overline{x})\brb{y_i-(\hat{a}+\hat{b}x_i)} \\=&\frac{\hat{b}}{n}\sum_{i=1}^{n}(x_i-\overline{x})\brc{y_i-\brb{(\overline{y}-\hat{b}\overline{x})+\hat{b}x_i}} \\=&\frac{\hat{b}}{n}\sum_{i=1}^{n}(x_i-\overline{x})\brb{(y_i-\overline{y})-\hat{b}(x_i-\overline{x})} \\=&\hat{b}\brb{\frac{1}{n}\sum_{i=1}^{n}(x_i-\overline{x})(y_i-\overline{y})-\hat{b}\cdot\frac{1}{n}\sum_{i=1}^{n}(x_i-\overline{x})^2} \\=&\hat{b}\bra{C_{xy}-\hat{b}{\sigma_{x}}^2} =\hat{b}\bra{C_{xy}-\frac{C_{xy}}{{\sigma_{x}}^2}\cdot{\sigma_{x}}^2} =0 \end{align*}

となりますね.

平方和の分解と決定係数

そもそも回帰分析はデータの関係を表す「それっぽい線」を見つけようというのが目的なのでした.

そこで,最小二乗法で求まった回帰直線がどれくらい「それっぽいか」を測る指標が欲しいですね.

実は,「回帰直線のそれっぽさ」を測る指標として決定係数というものがあります.

平方和の分解

上でみた回帰直線の[性質3]を用いると,以下のことが証明できます.

最小二乗法による回帰直線において,目的変数の平均とデータの差の平方和S_Tは,

  • 残差平方和S_e
  • 回帰による平方和S_{R}

の和に等しい.すなわち,

\begin{align*} &S_T=\sum_{i=1}^{n}(y_i-\overline{y})^2, \\&S_R=\sum_{i=1}^{n}(y_i-\overline{y})^2, \\&S_e=\sum_{i=1}^{n}(y_i-\hat{y}_i)^2\bra{=\sum_{i=1}^{n}{e_i}^2} \end{align*}

とすると,S_T=S_e+S_Rが成り立つ.

回帰直線の[性質3]より,

\begin{align*} \frac{1}{n}\sum_{i=1}^{n}(y_i-\hat{y}_i)(\hat{y}_i-\overline{y}) =&\frac{1}{n}\sum_{i=1}^{n}e_i(\hat{y}_i-\overline{\hat{y}_i}) \\=&\frac{1}{n}\sum_{i=1}^{n}(e_i-\overline{e})(\hat{y}_i-\overline{\hat{y}_i}) =0 \end{align*}

なので,

\begin{align*} S_T =&\sum_{i=1}^{n}(y_i-\overline{y})^2 =\sum_{i=1}^{n}\brb{(y_i-\hat{y}_i)+(\hat{y}_i-\overline{y})}^2 \\=&\sum_{i=1}^{n}(y_i-\hat{y}_i)^2+\sum_{i=1}^{n}(\hat{y}_i-\overline{y})^2+\sum_{i=1}^{n}(y_i-\hat{y}_i)(\hat{y}_i-\overline{y}) \\=&\sum_{i=1}^{n}(y_i-\hat{y}_i)^2+\sum_{i=1}^{n}(\hat{y}_i-\overline{y})^2 =S_e+S_R \end{align*}

となります.

この平方和に関する等式S_T=S_e+S_R平方和の分解といいます.

決定係数

平方和の分解S_T=S_e+S_Rについて,S_e\ge0かつS_R\ge0なのでS_T\ge S_e\ge0が成り立つので,\dfrac{S_e}{S_T}0\le\dfrac{S_e}{S_T}\le1を満たします.

さて,もし全てのデータが回帰直線上にぴったり乗っていれば,データy_iと予測値\hat{y}_iが一致しているので残差e_iは全て0ですから,残差平方和S_eは0となります.

言い換えれば,回帰直線が完全にデータの相関を表現していれば,残差は0となるわけですね.

一方,回帰直線からデータが離れるほど残差平方{e_i}^2は大きくなり,S_eS_Tに近付きます.

これらのことから,\dfrac{S_e}{S_T}が0に近いほど回帰直線はデータを表現できており,\dfrac{S_e}{S_T}が1に近いほど回帰直線はデータから解離しているということができますね.

よって,\dfrac{S_e}{S_T}の値を考えれば,回帰直線がどれくらい「それっぽい」かを判断することができますね.

目的変数の平均とデータの差の平方和S_Tと残差平方和S_eの比\dfrac{S_e}{S_T}決定係数という.

上でも述べたとおり,

  • 決定係数が1に近いほど回帰直線の精度が悪く
  • 決定係数が0に近いほど回帰直線の精度が良い

というわけですね.

参考文献

以下は統計に関しての参考文献です.

改訂版 統計検定2級対応 統計学基礎(日本統計学会 編/東京図書)

日本統計学会が実施する「統計検定」の2級の範囲に対応する教科書です.

統計検定2級は「大学基礎科目(学部1,2年程度)としての統計学の知識と問題解決能力」という位置付けであり,ある程度の数学的な処理能力が求められます.

そのため,統計検定2級の合格は一定以上の統計的なデータの扱い方を身に付けている指標になります.

本書は

  1. データの記述と要約
  2. 確率と確率分布
  3. 統計的推定
  4. 統計的仮説検定
  5. 線形モデル分析
  6. その他の分析法-正規性の検討,適合度と独立性の\xi^2検定

の6章からなり,基礎的な統計的スキルを身につけることができます.

大学1,2年程度のレベルの数学を用いるので,もし高校数学が怪しいようであれば,統計検定3級からの挑戦を検討してもよいですね.

  • 改訂版 統計検定2級対応 統計学基礎(日本統計学会 編/東京図書)
    Amazon楽天市場
  • 改訂版 統計検定3級対応 データの分析(日本統計学会 編/東京図書)
    Amazon楽天市場

なお,本書については,以下の記事で書評としてまとめています.

シェアする

  • このエントリーをはてなブックマークに追加

フォローする

最後までありがとうございました!

以下の関連記事もいかがですか?

SPONSORED LINK
関連記事

記事一覧はこちらからどうぞ!

記事一覧は

こちら

Twitterを

フォロー

大学院入試

解答例

大学受験

解説ブログ