回帰分析の目的|最小二乗法から回帰直線を求める方法

例えば,「気温」と「アイスの売り上げ」のような相関のある2つのデータを考えるとき,集めたデータを散布図を描いて視覚的に考えることはよくありますね.

「気温」と「アイスの売り上げ」の場合には,散布図から分かりやすく「気温が高いほどアイスの売り上げが良い(正の相関がある)」ことは見てとれるでしょうが,パッと見て相関が分かりにくい場合も当然あります.

そこで,相関を散布図の上に視覚的に表現するための方法として,回帰分析という方法があります.

回帰分析を用いると,2つのデータの相関関係をグラフとして視覚的に捉えることができ,相関関係を捉えやすくなります.

回帰分析の中で最も基本的なものに,回帰直線を描くための最小二乗法があります.

この記事では,最小二乗法の考え方を説明し,回帰直線を求めます.

回帰分析の目的

あるテストを受けた8人の生徒について,勉強時間$x$とテストの成績$y$が以下の表のようになったとしましょう.

勉強時間$x$とテストの成績$y$
$x$ 2 6 8 3 13 10 5 9
$y$ 24 60 63 40 92 85 43 49

これを$xy$平面上にプロットすると下図のようになります.

Rendered by QuickLaTeX.com

このように,2つのデータの組$(x,y)$を$xy$平面上にプロットした図を散布図といい,原因となる$x$を説明変数,その結果となる$y$を目的変数などといいます.

さて,この散布図を見たとき,データはなんとなく右上がりになっているように見えるので,このデータを直線で表すなら下図のようになるでしょうか.

Rendered by QuickLaTeX.com

この直線のように,「散布図にプロットされたデータをそれっぽい直線や曲線で表したい」というのが回帰分析の目的です.

回帰分析でデータを表現する線は必ずしも直線とは限らず,曲線であることもありますが,ともかく回帰分析は「それっぽい線」を見つける方法の総称のことをいいます.

最小二乗法

回帰分析のための1つの方法として最小二乗法があります.

最小二乗法の考え方

回帰分析で求めたい「それっぽい線」としては,曲線よりも直線の方が考えやすいと考えることは自然なことでしょう.

このときの「それっぽい直線」を回帰直線(regression line)といい,回帰直線を求める考え方の1つに最小二乗法があります.

当然のことながら,全ての点から離れた例えば下図のような直線は「それっぽい」とは言い難いですね.

Rendered by QuickLaTeX.com

こう考えると,どのデータ点のからもそれなりに近い直線が回帰直線と言えそうです.

では,この「どの点からもそれなりに近い」というものをどのように考えれば良いでしょうか?

ここでいくつか言葉を定義しておきましょう.

実際のデータ$(x_i,y_i)$に対して,直線の$x=x_i$での$y$の値をデータを$x=x_i$の予測値といい,$y_i-\hat{y}_i$をデータ$(x_i,y_i)$の残差(residual)といいます.

本稿では,

  • データ$(x_i,y_i)$の予測値を$\hat{y}_i$
  • データ$(x_i,y_i)$の残差を$e_i$

と表します.

Rendered by QuickLaTeX.com

「残差」という言葉を用いるなら,「どの点からもそれなりに近い直線が回帰直線」は「どのデータの残差$e_i$もそれなりに0に近い直線が回帰直線」と言い換えることができますね.

ここで,残差平方和(=残差の2乗和)${e_1}^2+{e_2}^2+\dots+{e_n}^2$が最も0に近いような直線はどのデータの残差$e_i$もそれなりに0に近いと言えますね.

一般に実数の2乗は0以上でしたから,残差平方和は必ず0以上です.

よって,「残差平方和が最も0に近いような直線」は「残差平方和が最小になるような直線」に他なりませんね.

この考え方で回帰直線を求める方法を最小二乗法といいます.

残差平方和が最小になるような直線を回帰直線とする方法を最小二乗法 (LSM, least squares method)という.

二乗が最小になるようなものを見つけてくるわけですから,「最小二乗法」は名前そのままですね!

最小二乗法による回帰直線

結論から言えば,最小二乗法により求まる回帰直線は以下のようになります.

$n$個のデータの組$x=(x_1,x_2,\dots,x_n)$, $y=(y_1,y_2,\dots,y_n)$に対して最小二乗法を用いると,回帰直線は

\begin{align*} y=\hat{a}+\hat{b}x\quad \bra{\hat{b}=\frac{C_{xy}}{{\sigma_x}^2},\quad \hat{a}=\bar{y}-\hat{b}\bar{x}} \end{align*}

となる.ただし,

  • $\bar{x}$は$x$の平均
  • ${\sigma_x}^2$は$x$の分散
  • $\bar{y}$は$y$の平均
  • $C_{xy}$は$x$, $y$の共分散

であり,$x_1,\dots,x_n$の少なくとも1つは異なる値である.

念のため,$\bar{x}$, $\bar{y}$, ${\sigma_x}^2$, $C_{xy}$の定義を確認しておきましょう.

\begin{align*} &\bar{x}:=\frac{1}{n}\sum_{i=1}^{n}x_i,\quad \bar{y}:=\frac{1}{n}\sum_{i=1}^{n}y_i, \\&{\sigma_x}^2:=\frac{1}{n}\sum_{i=1}^{n}(x_i-\bar{x})^2, \\&C_{xy}:=\frac{1}{n}\sum_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y}). \end{align*}

なお,${\sigma_x}^2$, $C_{xy}$は

\begin{align*} {\sigma_x}^2=\overline{x^2}-\bar{x}^2,\quad C_{xy}=\overline{xy}-\bar{x}\bar{y} \end{align*}

と表せることも大切でしたね.ただし,$\overline{xy}$は$x_iy_i$の平均,$\overline{x^2}$は${x_i}^2$の平均です.

最小二乗法の計算

それでは,以上のことを示しましょう.

まず,直線$y=a+bx$を考える.

Rendered by QuickLaTeX.com

$i=1,2\dots,n$に対して,$x=x_i$での直線$y=a+bx$の$y$の値が予測値$\hat{y}_i$だったので,$\hat{y}_i=a+bx_i$である.よって,データ$(x_i,y_i)$の残差$e_i$は

\begin{align*} e_i=y_i-(a+bx_i) \end{align*}

となるから,残差平方和を$S_e$は

\begin{align*} S_e =\sum_{i=1}^{n}{e_i}^2 =\sum_{i=1}^{n}\{y_i-(a+bx_i)\}^2 =\sum_{i=1}^{n}(y_i-a-bx_i)^2 \end{align*}

となる.ここで,$(a,b)=(\hat{a},\hat{b})$で$S_e$は最小になるとすると,$S_e$は$a$, $b$の2次式なので

  • $a=\hat{a}$を固定して$b$を動かしたとき$b=\hat{b}$で$S_e$は最小になり
  • $b=\hat{a}$を固定して$a$を動かしたとき$a=\hat{a}$で$S_e$は最小になる

から,

\begin{align*} \pd{S_e}{a}(\hat{a},\hat{b})=\pd{S_e}{b}(\hat{a},\hat{b})=0 \end{align*}

が成り立つ.よって,

\begin{align*} \pd{S_e}{a}(\hat{a},\hat{b})=0 \iff&-2\sum_{i=1}^{n}(y_i-\hat{a}-\hat{b}x_i)=0 \\\iff&\sum_{i=1}^{n}y_i=n\hat{a}+\hat{b}\sum_{i=1}^{n}x_i \\\iff&\frac{1}{n}\sum_{i=1}^{n}y_i=\hat{a}+\hat{b}\cdot\frac{1}{n}\sum_{i=1}^{n}x_i \\\iff&\bar{y}=\hat{a}+\hat{b}\bar{x}, \\\pd{S_e}{b}(\hat{a},\hat{b})=0 \iff&-2\sum_{i=1}^{n}x_i(y_i-\hat{a}-\hat{b}x_i)=0 \\\iff&\sum_{i=1}^{n}x_iy_i=\hat{a}\sum_{i=1}^{n}x_i+\hat{b}\sum_{i=1}^{n}{x_i}^2 \\\iff&\frac{1}{n}\sum_{i=1}^{n}x_iy_i=\hat{a}\cdot\frac{1}{n}\sum_{i=1}^{n}x_i+\hat{b}\cdot\frac{1}{n}\sum_{i=1}^{n}{x_i}^2 \\\iff&\overline{xy}=\hat{a}\bar{x}+\hat{b}\overline{x^2} \end{align*}

が従う.

$\overline{xy}=\hat{a}\bar{x}+\hat{b}\overline{x^2}$と$\bar{y}=\hat{a}+\hat{b}\bar{x}$から$\hat{a}$を消去して

\begin{align*} \overline{xy}=\bra{\bar{y}-\hat{b}\bar{x}}\bar{x}+\hat{b}\overline{x^2} \iff&\overline{xy}-\bar{y}\bar{x}=\hat{b}\bra{\overline{x^2}-\bar{x}^2} \\\iff&C_{xy}=\hat{b}{\sigma_{x}}^2 \iff\hat{b}=\frac{C_{xy}}{{\sigma_{x}}^2} \end{align*}

を得る.ただし,$x_1,\dots,x_n$の少なくとも1つは異なる値をとるから,$\sigma_x\neq0$であることに注意.

行列とベクトルによる証明

本質的には,いまみた証明と何も変わりませんが,ベクトルの表記を用いると以下のようにスッキリ計算できます.

各データのベクトルを$\m{x}$, $\m{y}$,全ての成分が1のベクトルを$\m{1}$,残差を並べたベクトルを$\m{e}$と表す:

\begin{align*} &\m{x}:=\bmat{x_1\\\vdots\\x_n},\quad \m{y}:=\bmat{y_1\\\vdots\\y_n},\quad \m{1}:=\bmat{1\\\vdots\\1}, \\&\m{e}:=\m{y}-a\m{1}-b\m{x}\bra{=\bmat{y_1-(a+bx_1)\\\vdots\\y_n-(a+bx_n)}} \end{align*}

このとき,これらの内積について,

  • $\m{x}\cdot\m{1}=\sum_{i=1}^{n}x_i=n\overline{x}$
  • $\m{y}\cdot\m{1}=\sum_{i=1}^{n}y_i=n\overline{y}$
  • $\|\m{1}\|^2=\m{1}\cdot\m{1}=\sum_{i=1}^{n}1=n$
  • $\|\m{x}\|^2=\m{x}\cdot\m{x}=\sum_{i=1}^{n}x_i^2=n\overline{x^2}$
  • $\|\m{y}\|^2=\m{y}\cdot\m{y}=\sum_{i=1}^{n}y_i^2=n\overline{y^2}$

である.残差平方和$S_e(a,b)$は

\begin{align*} S_e(a,b) =\sum_{i=1}^{n}{e_i}^2 =\|\m{e}\|^2 \end{align*}

だから

\begin{align*} \nabla_{a,b}{S_e}(a,b) =&\nabla_{a,b}\|\m{e}\|^2 =\bmat{\pd{}{a}\|\m{e}\|^2\\\pd{}{b}\|\m{e}\|^2} =\bmat{2\m{e}\cdot(\pd{}{a}\m{e})\\2\m{e}\cdot(\pd{}{b}\m{e})} \\=&2\bmat{\m{e}\cdot(-\m{1})\\\m{e}\cdot(-\m{x})} =-2\bmat{(\m{y}-a\m{1}-b\m{x})\cdot\m{1}\\(\m{y}-a\m{1}-b\m{x})\cdot\m{x}} \\=&-2\bmat{n\bar{y}-na-nb\bar{x}\\n\overline{xy}-na\bar{x}-nb\overline{x^2}} \end{align*}

となる.よって,${S_e}(a,b)$を最小にする$(a,b)=(\hat{a},\hat{b})$は

\begin{align*} \nabla_{a,b}{S_e}(\hat{a},\hat{b})=\m{0} \iff&\bmat{\bar{y}\\\overline{xy}}=\bmat{\hat{a}+\hat{b}\bar{x}\\\hat{a}\bar{x}+\hat{b}\overline{\m{x}^2}} \\\iff&\bmat{\bar{y}\\\overline{xy}}=\bmat{1&\bar{x}\\\bar{x}&\overline{x^2}}\bmat{\hat{a}\\\hat{b}} \end{align*}

を満たす.ここで,行列$X:=\bmat{1&\bar{x}\\\bar{x}&\overline{x^2}}$の行列式$|X|$は

\begin{align*} |X| =1\cdot\overline{x^2}-(\bar{x})^2 ={\sigma_x}^2 \end{align*}

である.$x_1,\dots,x_n$の少なくとも1つは異なる値をとるから,$\sigma_x\neq0$なので$|X|\neq0$となって$X$は逆行列$X^{-1}$を持つ:

\begin{align*} X^{-1} =\frac{1}{{\sigma_x}^2}\bmat{\overline{x^2}&-\bar{x}\\-\bar{x}&1} \end{align*}

よって,

\begin{align*} \bmat{\hat{a}\\\hat{b}} =&X^{-1}\bmat{\bar{y}\\\overline{xy}} =\frac{1}{{\sigma_x}^2}\bmat{\overline{x^2}&-\bar{x}\\-\bar{x}&1}\bmat{\bar{y}\\\overline{xy}} \\=&\frac{1}{{\sigma_x}^2}\bmat{\overline{x^2}\bar{y}-\bar{x}\overline{xy}\\\-\bar{x}\bar{y}+\overline{xy}} \\=&\frac{1}{{\sigma_x}^2}\bmat{(\overline{x^2}-\bar{x}^2)\bar{y}-(\overline{xy}-\bar{x}\bar{y})\bar{x}\\\overline{xy}-\bar{x}\bar{y}} \\=&\frac{1}{{\sigma_x}^2}\bmat{{\sigma_x}^2\bar{y}-C_{xy}\bar{x}\\C_{xy}} \end{align*}

となる.よって,最小二乗法による回帰直線は

\begin{align*} y=\hat{a}+\hat{b}x\quad \bra{\hat{b}=\frac{C_{xy}}{{\sigma_x}^2},\quad \hat{a}=\bar{y}-\hat{b}\bar{x}} \end{align*}

となる.

この記事では説明変数が$x$のみの回帰直線を考えましたが,統計ではいくつもの説明変数から回帰分析を行うことがあります.

この記事で扱った説明変数が1つの回帰分析を単回帰分析といい,いくつもの説明変数から回帰分析を行うことを重回帰分析といいます.

説明変数が$x_1,\dots,x_m$と$m$個ある場合の重回帰分析において,考える方程式は$y=a+b_1x_1+\dots+b_mx_m$となり,この場合には$a,b_1,\dots,b_m$を最小二乗法により定めることになります.

しかし,その場合には途中で現れる$a,b_1,\dots,b_m$の連立方程式を消去法や代入法から地道に解くのは困難で,行列とベクトルを用いて計算するのが現実的な方法となります.

このベクトルを用いた証明はそのような意味で重要です.

さて,この記事で説明した最小二乗法は2つのデータ$x$, $y$にどんなに相関がなかろうが,計算すれば回帰直線は求まります.

しかし,相関のない2つのデータに対して回帰直線を求めても,その回帰直線はあまり「それっぽい直線」とは言えなさそうですよね.

次の記事では,回帰直線がどれくらい「それっぽい直線」なのかを表す決定係数を説明します.

参考文献

以下は統計に関しての参考文献です.

改訂版 統計検定2級対応 統計学基礎(日本統計学会 編/東京図書)

日本統計学会が実施する「統計検定」の2級の範囲に対応する教科書です.

統計検定2級は「大学基礎科目(学部1,2年程度)としての統計学の知識と問題解決能力」という位置付けであり,ある程度の数学的な処理能力が求められます.

そのため,統計検定2級の合格は一定以上の統計的なデータの扱い方を身に付けている指標になります.

本書は

  1. データの記述と要約
  2. 確率と確率分布
  3. 統計的推定
  4. 統計的仮説検定
  5. 線形モデル分析
  6. その他の分析法-正規性の検討,適合度と独立性の$\xi^2$検定

の6章からなり,基礎的な統計的スキルを身につけることができます.

大学1,2年程度のレベルの数学を用いるので,もし高校数学が怪しいようであれば,統計検定3級からの挑戦を検討してもよいですね.

  • 改訂版 統計検定2級対応 統計学基礎(日本統計学会 編/東京図書)
    Amazon楽天市場
  • 改訂版 統計検定3級対応 データの分析(日本統計学会 編/東京図書)
    Amazon楽天市場

なお,本書については,以下の記事で書評としてまとめています.

最後までありがとうございました!

参考になった方は是非シェアをお願いします!

フォローする

以下の関連記事もいかがですか?

SPONSORED LINK
関連記事

記事一覧はこちらからどうぞ!

記事一覧は

こちら

Twitterを

フォロー

大学院入試

解答例

大学受験

解説ブログ