「気温」と「アイスの売り上げ」のような2つの関連するデータを散布図として表し,その関係を「それっぽい直線や曲線」で表すことを回帰分析というのでした.
この回帰分析における「それっぽい直線」のことを回帰直線といい,回帰直線を求める際には最小二乗法がよく用いられます.
さて,最小二乗法により求まった回帰直線がどれくらい「それっぽい」のかを表す指標に決定係数というものがあり,決定係数は
- 1に近いほど精度の良い回帰直線
- 0に近いほど精度の悪い回帰直線
になっていると判断できるものになっています.
この記事では
- 回帰直線の復習
- 回帰直線の性質
- 平方和の分解と決定係数
を順に説明します.
「統計学」の一連の記事
回帰直線の復習
最小二乗法により求められる回帰直線は以下のようになるのでした.
$n$個のデータの組$x=(x_1,x_2,\dots,x_n)$, $y=(y_1,y_2,\dots,y_n)$に対して,最小二乗法を用いると回帰直線は
となる.
実際に得られたデータ$(x_i,y_i)$と回帰直線に対して,
というのでした.この記事では$x_i$の予測値を$\hat{y}_i$と表し,データ$(x_i,y_i)$の残差を$e_i$と表します.
標語的には残差は「(データ)ー(予測値)」です.
回帰直線の性質
$n$個のデータの組$x=(x_1,x_2,\dots,x_n)$, $y=(y_1,y_2,\dots,y_n)$に対する最小二乗法による回帰直線$y=\hat{a}+\hat{b}x$は以下の性質をもつ.
性質1の証明
回帰直線の式$y=\hat{a}+\hat{b}x$では,等式$\hat{a}=\overline{y}-\hat{b}\overline{x}$が成り立つのでした.
これを整理してできる等式$\bar{y}=\hat{a}+\hat{b}\bar{x}$は回帰直線の方程式$y=\hat{a}+\hat{b}x$に$(x,y)=(\bar{x},\bar{y})$を代入してできる等式となっています.
そもそも方程式に代入して成り立つ点$(x,y)$を集めたものがグラフだったので,回帰直線$y=\hat{a}+\hat{b}x$は点$(\bar{x},\bar{y})$を通ることになります.
性質2の証明
予測値$\hat{y}_i$は$\hat{y}_i=\hat{a}+\hat{b}x_i$だったので,
が成り立ちます.残差$e_i$は$e_i=y_i-\hat{y}_i$と定義されていたので,残差の平均$\overline{e}$は
となりますね.ただし,最後の等号では等式$\overline{y}=\hat{a}+\hat{b}\overline{x}$が成り立つことを用いました.
性質3の証明
予測値$\hat{y}_i$と残差$e_i$の共分散$C_{\hat{y}e}$が0であることを示せばよいですね.
なので,性質2の$\bar{\hat{y}}=\bar{y}$と$\bar{e}=0$を併せると
が得られますね.
平方和の分解と決定係数
そもそも回帰分析はデータの関係を表す「それっぽい線」を見つけようというのが目的なのでした.
そこで,最小二乗法で求まった回帰直線がどれくらい「それっぽいか」を測る指標として決定係数があります.
平方和の分解
上で証明した回帰直線の性質3を用いると,以下のことが証明できます.
最小二乗法による回帰直線において,
とおくと$S_T=S_e+S_R$が成り立つ.$S_T$を総平方和,$S_e$を残差平方和,$S_{R}$を回帰による平方和という.
上で証明した回帰直線の性質3より,
なので,
となります.
この平方和に関する等式$S_T=S_e+S_R$を平方和の分解といいます.
決定係数
さて,もし全てのデータが回帰直線上にぴったり乗っていれば,データ$y_i$と予測値$\hat{y}_i$が一致しているので残差$e_i$は全て0ですから,残差平方和$S_e$は0となります.
よって,回帰直線がデータの相関を表せているほど残差平方和$S_e$は0に近付き,回帰直線からデータが離れているほど残差平方和$S_e$は$S_T$に近付きます.
平方和の分解$S_T=S_e+S_R$に注意すると,$S_e$が0に近付くほど回帰による平方和$S_R$は$S_T$に近付き,$S_e$が$S_T$に近付くほど$S_R$は0に近付くことが分かります.
このことから,$\dfrac{S_R}{S_T}$の値を考えれば,回帰直線がどれくらい「それっぽい」かを判断することができますね.
目的変数の平均とデータの差の平方和$S_T$と残差平方和$S_R$の比$\dfrac{S_R}{S_T}$を決定係数という.
「決定係数」という言葉を用いて上のことを説明すると,
- 決定係数が1に近いほど回帰直線の精度が良い
- 決定係数が0に近いほど回帰直線の精度が悪い
と言えるわけですね.
平方和の分解$S_T=S_e+S_R$について,$S_e\ge0$かつ$S_R\ge0$なので$0\le\dfrac{S_R}{S_T}\le1$はいつでも成り立ちます.
参考文献
改訂版 統計検定2級対応 統計学基礎
[日本統計学会 編/東京図書]
日本統計学会が実施する「統計検定」の2級の範囲に対応する教科書です.
統計検定2級は「大学基礎科目(学部1,2年程度)としての統計学の知識と問題解決能力」という位置付けであり,ある程度の数学的な処理能力が求められます.
そのため,統計検定2級を取得していると,一定以上の統計的なデータの扱い方を身に付けているという指標になります.
本書は
- データの記述と要約
- 確率と確率分布
- 統計的推定
- 統計的仮説検定
- 線形モデル分析
- その他の分析法-正規性の検討,適合度と独立性の$\chi^2$検定
の6章からなり,基礎的な統計的スキルを身につけることができます.
大学1,2年程度のレベルの内容なので,もし高校数学が怪しいようであれば,統計検定3級からの挑戦を検討しても良いでしょう.
なお,本書については,以下の記事で書評としてまとめています.
【教科書紹介|統計検定2級対応 統計学基礎(日本統計学会編)】
本書の目次・必要な知識・良い点と気になる点・オススメの使い方などをレビューしています.
コメント