1日の「プールの利用者数」と「アイスの売り上げ」を記録すると,これらには正の相関があります.
しかし,「プールの利用者数が多くなるからアイスの売り上げが上がる」わけではないし,逆に「アイスの売り上げが上がるからプールの利用者数が多くなる」わけでもありません.
このように,相関とは「片方が大きいときに他方も大きいかどうか」を考えるものなので,因果関係までは分かりません.
さて,「プールの利用者数」と「アイスの売り上げ」を変化させる原因としては「気温」が挙げられます.
この「プールの利用者数」と「アイスの売り上げ」のように,因果関係がないのに相関があることを擬相関といいます.
よって,「気温」の変化による「プールの利用者数」と「アイスの売り上げ」の影響を除いたものの相関を考えると,相関関係は見られないのではないかと予想ができます.
このように,ある特定の影響を除いて考える相関係数のことを偏相関係数といいます.
この記事では
- 偏相関係数の考え方
- 偏相関係数の導出法
を説明します.
「統計学」の一連の記事
復習
まずは,偏相関係数を考えるために必要な
- 相関係数
- 回帰直線
を復習します.
相関係数
2種類のデータ$x_1,x_2,\dots,x_n$と$y_1,y_2,\dots,y_n$について,これらにどれくらい相関の強さがあるのかを測る指標として相関係数があるのでした.
相関係数は以下で定義されます.
[相関係数] データ$x=(x_1,\dots,x_n)$, $y=(y_1,\dots,y_n)$に対して,相関係数$\rho_{xy}$は
で定義される.ただし,$C_{xy}$は$x$と$y$の共分散,$\sigma_{x}$は$x$の標準偏差,$\sigma_{y}$は$y$の標準偏差である.
相関係数について,詳しくは以下の記事で説明しています.
相関係数$\rho_{xy}$は$-1\le\rho_{xy}\le1$をみたし,$-1$に近いほど負の相関が強く,$1$に近いほど正の相関が強いのでした.この記事では,相関係数の考え方と,相関係数が相関の強さを表す理由を説明しています.
回帰直線
例えば,あるテストを受けた8人の生徒について,勉強時間$x$とテストの成績$y$を$xy$平面上にプロットすると,下図のようになったとしましょう.
この散布図を見たとき,データはなんとなく右上がりになっているように見えるので,このデータを直線で表すなら下図のようになるでしょうか.
回帰分析でデータを表現する線は必ずしも直線とは限らず,曲線であることもありますが,「それっぽい線」を見つける方法の総称を回帰分析といいますね.
とくにデータの間に直線関係があるとして考えた「それっぽい直線」を回帰直線といい,回帰直線を求めるための手法として最小二乗法などがあります.
最小二乗法を用いて回帰直線を求めると以下のようになります.
$n$個のデータの組$x=(x_1,x_2,\dots,x_n)$, $y=(y_1,y_2,\dots,y_n)$に対して最小二乗法を用いると,回帰直線は
となる.ただし,$\bar{x}$は$x$の平均,${\sigma_x}^2$は$x$の分散,$\bar{y}$は$y$の平均,$C_{xy}$は$x$, $y$の共分散である.
この回帰直線の導出は以下の記事で詳しく説明しています.
基本的な考え方から回帰分析を解説しています.回帰分析の中でも最小二乗法を用いた回帰直線の求め方を解説しています.
偏相関係数の考え方
冒頭で説明したように,相関が強いことは必ずしも因果関係があることを意味しません.
例えば
- プールの利用者数
- アイスの売り上げ
に相関はありますが,一方が他方の原因になっているわけではありません.
両方に影響を与える「気温」という要因があるため,相関があるだけですね.
このように,企業が何かの分析をしていてデータ$X$と$Y$を見比べて正の相関が見つかったとしても,$X$と$Y$の間に因果関係がなく$X$と$Y$に影響を与える別の要因$Z$が存在しているかもしれないため,「$Y$を増やしたいから,$X$を増やせばいい」と考えることは危険です.
このように,$X$と$Y$が相関関係にあっても,因果関係にないことを擬似相関や擬相関などといいます.
さて,$x$と$y$の間に直接的な関係があるのかどうかをみるための指標として,($z$の影響を除いた)偏相関係数というものがあります.これは
- $x$から$z$の影響を除いた$x’$
- $y$から$z$の影響を除いた$x’$
の相関係数$\rho_{x’y’}$のことで,$z$の影響を除いた$x’$と$y’$の間に相関があれば,$z$の影響だけではない関係があると見なすことができますね.
結論から書くと,偏相関係数は以下のように定義されます.
[偏相関係数] データ$x=(x_1,\dots,x_n)$, $y=(y_1,\dots,y_n)$, $z=(z_1,\dots,z_n)$に対して,$z$の影響を除いた$x$と$y$の相関係数$\rho_{xy;z}$は
で定義される.
さて
- $x$から$z$の影響を除いた$x’$
- $y$から$z$の影響を除いた$y’$
の相関係数$\rho_{x’y’}$が$\rho_{xy;z}$であると書きましたが,より正確には偏相関係数$\rho_{xy;z}$は「$x$と$z$,$y$と$z$が直線関係にあるとしたときの,$z$の影響を無視した$x$と$y$の相関係数」ということになりますね.
偏相関係数の導出
それでは,偏相関係数を導出しましょう.
データ$x=(x_1,\dots,x_n)$, $y=(y_1,\dots,y_n)$, $z=(z_1,\dots,z_n)$について,$x$と$z$は直線関係にあり,$y$と$z$は直線関係にあるとし,$x$と$z$の回帰直線,$y$と$z$の回帰直線をそれぞれ
- $x=\hat{a}+\hat{b}z$
- $y=\hat{c}+\hat{d}z$
とする.このとき,$z$の影響を無視した$x$と$y$をそれぞれ
- $x’=x-(\hat{a}+\hat{b}z)$
- $y’=y-(\hat{c}+\hat{d}z)$
で定義すると,$x’$と$y’$の相関係数$\rho_{x’y’}$は偏相関係数$\rho_{xy;z}$に一致する.すなわち,
上で見た回帰直線の復習から
ですね.$\hat{a}=\bar{x}-\hat{b}\bar{z}$より
であり,同様に$y’=(y-\bar{y})-\hat{d}(z-\bar{z})$です.
また,共分散$C_{x’y’}$,標準偏差$\sigma_{x’}$, $\sigma_{y’}$は
を満たすので,相関係数の定義より
となります.ここで,
を計算しましょう.
[1] $x’=(x-\bar{x})-\hat{b}(z-\bar{z})$なので,
となります.同様に,
となります.
[2] $x’=(x-\bar{x})-\hat{b}(z-\bar{z})$より
となるので,$\hat{b}=\dfrac{C_{xz}}{{\sigma_{z}}^2}$と併せて
となります.同様に
となります.
[3] $x’=(x-\bar{x})-\hat{b}(z-\bar{z})$, $y’=(y-\bar{y})-\hat{d}(y-\bar{y})$より
となるので,$\hat{b}=\dfrac{C_{xz}}{{\sigma_z}^2}$, $\hat{d}=\dfrac{C_{yz}}{{\sigma_z}^2}$と併せて
となります.
[1]〜[3]より
となって,偏相関係数$\rho_{xy;z}$に等しいことが分かりました.
「統計学」の一連の記事
参考文献
改訂版 統計検定2級対応 統計学基礎
[日本統計学会 編/東京図書]
日本統計学会が実施する「統計検定」の2級の範囲に対応する教科書です.
統計検定2級は「大学基礎科目(学部1,2年程度)としての統計学の知識と問題解決能力」という位置付けであり,ある程度の数学的な処理能力が求められます.
そのため,統計検定2級を取得していると,一定以上の統計的なデータの扱い方を身に付けているという指標になります.
本書は
- データの記述と要約
- 確率と確率分布
- 統計的推定
- 統計的仮説検定
- 線形モデル分析
- その他の分析法-正規性の検討,適合度と独立性の$\chi^2$検定
の6章からなり,基礎的な統計的スキルを身につけることができます.
大学1,2年程度のレベルの内容なので,もし高校数学が怪しいようであれば,統計検定3級からの挑戦を検討しても良いでしょう.
なお,本書については,以下の記事で書評としてまとめています.
【教科書紹介|統計検定2級対応 統計学基礎(日本統計学会編)】
本書の目次・必要な知識・良い点と気になる点・オススメの使い方などをレビューしています.
コメント