【SPONSORED LINK】

偏相関係数の考え方と定義式|回帰直線を用いて導出する

1日の「プールの利用者数」と「アイスの売り上げ」と記録すると,これらは正の相関があります.

しかし,常識的に考えて「プールの利用者数が多くなるからアイスの売り上げが上がる」わけではないし,この逆の「アイスの売り上げが上がるからプールの利用者数が多くなる」わけでもありません.

このように,相関とは「片方が大きいときに他方も大きいかどうか」を考えるものなので,「因果関係」までは分かりません.

さて,「プールの利用者数」と「アイスの売り上げ」を変化させる原因としては「気温」が挙げられます.

よって,「気温」の変化による「プールの利用者数」と「アイスの売り上げ」の影響を除いたものの相関を考えると相関関係は見られないのではないかと予想ができます.

このように,ある特定の影響を除いて考える相関係数のことを偏相関係数といいます.

この記事では,偏相関係数の考え方と導出法を説明します.

【SPONSORED LINK】

相関係数の考え方

冒頭で説明したように,相関が強いことは必ずしも因果関係があることを意味しません.

ですから,企業が何かの分析をしていてデータXYを見比べて正の相関が見つかったとき,Yをプラスにしたいから,Xをプラスにすればいい」と考えることは危険です.

というのは,もしXYの間に因果関係がなく,XYをプラスにするための別の要因Zが存在しているかもしれないからです.

Rendered by QuickLaTeX.com

もしそうなら,XをプラスにするだけでZがプラスになっていなければ,当然のことながらYはプラスにならず思い通りの結果が得られません.

このように,XYが相関関係にあっても,因果関係にないことを擬似相関といいます.

ここで,相関係数について復習しておきましょう.

データx=(x_1,\dots,x_n), y=(y_1,\dots,y_n)に対して,相関係数\rho_{xy}

\begin{align*} \rho_{xy}:=\frac{C_{xy}}{\sigma_{x}\sigma_{y}} \end{align*}

で定義される.ただし,C_{xy}xyの共分散,\sigma_{x}xの標準偏差,\sigma_{y}yの標準偏差である.

相関係数\rho_{xy}-1\le\rho_{xy}\le1をみたし,-1に近いほど負の相関が強く,1に近いほど正の相関が強いのでした.

さて,xyの間に直接的な関係があるのかどうかをみるための指標として,(zの影響を除いた)偏相関係数というものがあります.これは

  • xからzの影響を除いたx'
  • yからzの影響を除いたx'

の相関係数\rho_{x'y'}のことで,zの影響を除いたx'y'の間に相関があれば,zの影響だけではない関係があると見なすことができますね.

結論から書くと,偏相関係数は以下のように定義されます.

データx=(x_1,\dots,x_n), y=(y_1,\dots,y_n), z=(z_1,\dots,z_n)に対して,zの影響を除いたxyの相関係数\rho_{xy;z}

\begin{align*} \rho_{xy;z}:=\frac{\rho_{xy}-\rho_{xz}\rho_{yz}}{\sqrt{1-{\rho_{xz}}^2}\sqrt{1-{\rho_{yz}}^2}} \end{align*}

で定義される.

回帰分析の復習

例えば,あるテストを受けた8人の生徒について,勉強時間xとテストの成績yxy平面上にプロットすると,下図のようになったとしましょう.

Rendered by QuickLaTeX.com

この散布図を見たとき,データはなんとなく右上がりになっているように見えるので,このデータを直線で表すなら下図のようになるでしょうか.

Rendered by QuickLaTeX.com

回帰分析でデータを表現する線は必ずしも直線とは限らず,曲線であることもありますが,「それっぽい線」を見つける方法の総称を回帰分析といいます.

とくに,データの間に直線関係があるとして考えた「それっぽい直線」を回帰直線といい,回帰直線を求めるための手法として最小二乗法などがあるのでした.

最小二乗法を用いて回帰直線を求めると以下のようになります.

n個のデータの組x=(x_1,x_2,\dots,x_n), y=(y_1,y_2,\dots,y_n)に対して最小二乗法を用いると,回帰直線は

\begin{align*} y=\hat{a}+\hat{b}x\quad \bra{\hat{b}=\frac{C_{xy}}{{\sigma_x}^2},\quad \hat{a}=\bar{y}-\hat{b}\bar{x}} \end{align*}

となる.ただし,\bar{x}xの平均,{\sigma_x}^2xの分散,\bar{y}yの平均,C_{xy}x, yの共分散である.

この導出は以下の参考記事の中で詳しく説明しているので,こちらを参照してください.

つまり,回帰直線は2つのデータの直線関係を表すわけですね.先ほど,

  • xからzの影響を除いたx'
  • yからzの影響を除いたy'

の相関係数\rho_{x'y'}\rho_{xy;z}であると書きましたが,より正確に書くなら偏相関係数\rho_{xy;z}xzが直線関係にあり,yzが直線関係にあるときの,zの影響を無視したxyの相関係数ということになります.

偏相関係数の導出

それでは,偏相関係数を導出しましょう.

データx=(x_1,\dots,x_n), y=(y_1,\dots,y_n), z=(z_1,\dots,z_n)について,xzは直線関係にあり,yzは直線関係にあるとし,xzの回帰直線,yzの回帰直線はそれぞれ

  • x=\hat{a}+\hat{b}z
  • y=\hat{c}+\hat{d}z

とする.このとき,zの影響を無視したxyをそれぞれ

  • x'=x-(\hat{a}+\hat{b}z)
  • y'=y-(\hat{c}+\hat{d}z)

で定義すると,x'y'の相関係数\rho_{x'y'}は偏相関係数\rho_{xy;z}に一致する.すなわち,

\begin{align*} \rho_{x'y'}=\frac{\rho_{xy}-\rho_{xz}\rho_{yz}}{\sqrt{1-{\rho_{xz}}^2}\sqrt{1-{\rho_{yz}}^2}} \end{align*}

[証明]

xzの回帰直線,yzの回帰直線はそれぞれ

  • x=\hat{a}+\hat{b}z
  • y=\hat{c}+\hat{d}z

なので,上で説明した回帰直線の公式から

  • \hat{b}=\dfrac{C_{xz}}{{\sigma_{z}}^2}, \hat{a}=\bar{x}-\hat{b}\bar{z}
  • \hat{d}=\dfrac{C_{yz}}{{\sigma_{z}}^2}, \hat{c}=\bar{y}-\hat{b}\bar{z}

でした.\hat{a}=\bar{x}-\hat{b}\bar{z}より,

\begin{align*} x'=&x-(\hat{a}+\hat{b}z) \\=&x-\brb{(\bar{x}-\hat{b}\bar{z})+\hat{b}z} \\=&(x-\bar{x})-\hat{b}(z-\bar{z}) \end{align*}

となり,同様にy'=(y-\bar{y})-\hat{d}(z-\bar{z})となります.

また,共分散C_{x'y'},標準偏差\sigma_{x'}, \sigma_{y'}

\begin{align*} &C_{x'y'}=\overline{x'y'}-\bar{x'}\bar{y'}, \\&{\sigma_{x'}}^2=\overline{x'^2}-\bar{x'}^2, \\&{\sigma_{y'}}^2=\overline{y'^2}-\bar{y'}^2 \end{align*}

を満たすので,相関係数の定義より

\begin{align*} \rho_{x'y'} =&\frac{C_{x'y'}}{\sigma_{x'}\sigma_{y'}} \\=&\frac{\overline{x'y'}-\overline{x'}\cdot\overline{y'}}{\sqrt{\overline{x'^2}-\overline{x'}^2}\sqrt{\overline{y'^2}-\overline{y'}^2}} \end{align*}

となります.よって,

  • \overline{x'}
  • \overline{y'}
  • \overline{x'^2}
  • \overline{y'^2}
  • \overline{x'y'}

を計算しましょう.

x’とy’の平均

x'=(x-\bar{x})-\hat{b}(z-\bar{z})なので,

\begin{align*} \overline{x'} =&\frac{1}{n}\sum_{i=1}^{n}x'_i \\=&\frac{1}{n}\sum_{i=1}^{n}(x_i-\bar{x})-\hat{b}(z_i-\bar{z}) \\=&\brb{\bra{\frac{1}{n}\sum_{i=1}^{n}x_i}-\bar{x}}-\hat{b}\brb{\bra{\frac{1}{n}\sum_{i=1}^{n}z_i}-\bar{z}} \\=&(\bar{x}-\bar{x})-\hat{b}(\bar{z}-\bar{z}) =0 \end{align*}

となります.同様に,\overline{y'}=0となります.

x’とy’の2乗の平均

x'=(x-\bar{x})-\hat{b}(z-\bar{z})より

\begin{align*} x'^2 =&\brb{(x-\bar{x})-\hat{b}(z-\bar{z})}^2 \\=&(x-\bar{x})^2-2\hat{b}(x-\bar{x})(z-\bar{z})+\hat{b}^2(z-\bar{z})^2 \end{align*}

となるので,\hat{b}=\dfrac{C_{xz}}{{\sigma_{z}}^2}と併せて

\begin{align*} \overline{x'^2} =&\frac{1}{n}\sum_{i=1}^{n}{x'_i}^2 \\=&\frac{1}{n}\sum_{i=1}^{n}\brb{(x_i-\bar{x})^2-2\hat{b}(x_i-\bar{x})(z_i-\bar{z})+\hat{b}^2(z_i-\bar{z})^2} \\=&\frac{1}{n}\sum_{i=1}^{n}(x_i-\bar{x})^2-2\hat{b}\cdot\frac{1}{n}\sum_{i=1}^{n}(x_i-\bar{x})(z_i-\bar{z})+\hat{b}^2\cdot\frac{1}{n}\sum_{i=1}^{n}(z_i-\bar{z})^2 \\=&{\sigma_{x}}^2-2\hat{b}\cdot C_{xz}+\hat{b}^2\cdot{\sigma_{z}}^2 \\=&{\sigma_{x}}^2-2\cdot\frac{C_{xz}}{{\sigma_{z}}^2}\cdot C_{xz}+\frac{{C_{xz}}^2}{{\sigma_{z}}^4}\cdot{\sigma_{z}}^2 \\=&{\sigma_{x}}^2-\frac{2{C_{xz}}^2}{{\sigma_{z}}^2}+\dfrac{{C_{xz}}^2}{{\sigma_{z}}^2} \\=&{\sigma_{x}}^2-\frac{{C_{xz}}^2}{{\sigma_{z}}^2} \end{align*}

となります.同様に,\overline{y'^2}={\sigma_{y}}^2-\dfrac{{C_{yz}}^2}{{\sigma_{z}}^2}が成り立ちます.

x’y’の平均

x'=(x-\bar{x})-\hat{b}(z-\bar{z}), y'=(y-\bar{y})-\hat{d}(y-\bar{y})より

\begin{align*} x'y' =&\brb{(x-\bar{x})-\hat{b}(z-\bar{z})}\brb{(y-\bar{y})-\hat{d}(z-\bar{z})} \\=&(x-\bar{x})(y-\bar{y})-\hat{d}(x-\bar{x})(z-\bar{z})-\hat{b}(y-\bar{y})(z-\bar{z})+\hat{b}\hat{d}(z-\bar{z})^2 \end{align*}

となるので,\hat{b}=\dfrac{C_{xz}}{{\sigma_z}^2}, \hat{d}=\dfrac{C_{yz}}{{\sigma_z}^2}と併せて

\begin{align*} \overline{x'y'} =&\frac{1}{n}\sum_{i=1}^{n}x'_ix'_i \\=&\frac{1}{n}\sum_{i=1}^{n}\brb{(x_i-\bar{x})(y_i-\bar{y})-\hat{d}(x_i-\bar{x})(z_i-\bar{z})-\hat{b}(y_i-\bar{y})(z_i-\bar{z})+\hat{b}\hat{d}(z_i-\bar{z})^2} \\=&\frac{1}{n}\sum_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y})-\hat{d}\cdot\frac{1}{n}\sum_{i=1}^{n}(x_i-\bar{x})(z_i-\bar{z}) \\&-\hat{b}\cdot\frac{1}{n}\sum_{i=1}^{n}(y_i-\bar{y})(z_i-\bar{z})+\hat{b}\hat{d}\cdot\frac{1}{n}\sum_{i=1}^{n}(z_i-\bar{z})^2 \\=&C_{xy}-\hat{d}\cdot C_{xz}-\hat{b}\cdot C_{yz}+\hat{b}\hat{d}\cdot{\sigma_{z}}^2 \\=&C_{xy}-\frac{C_{yz}}{{\sigma_z}^2}\cdot C_{xz}-\frac{C_{xz}}{{\sigma_z}^2}\cdot C_{yz}+\frac{C_{xz}}{{\sigma_z}^2}\cdot\frac{C_{yz}}{{\sigma_z}^2}\cdot{\sigma_z}^2 \\=&C_{xy}-\frac{C_{xz}C_{yz}}{{\sigma_z}^2}-\frac{C_{xz}C_{yz}}{{\sigma_z}^2}+\frac{C_{xz}C_{yz}}{{\sigma_z}^2} \\=&C_{xy}-\frac{C_{xz}C_{yz}}{{\sigma_z}^2} \end{align*}

となります.

偏相関係数

以上より,

\begin{align*} \rho_{x'y'} =&\frac{\overline{x'y'}-\overline{x'}\cdot\overline{y'}}{\sqrt{\overline{x'^2}-\overline{x'}^2}\sqrt{\overline{y'^2}-\overline{y'}^2}} \\=&\frac{\bra{C_{xy}-\frac{C_{xz}C_{yz}}{{\sigma_z}^2}}-0\cdot0}{\sqrt{\bra{{\sigma_x}^2-\frac{{C_{xz}}^2}{{\sigma_z}^2}}-0^2}\sqrt{\bra{{\sigma_y}^2-\frac{{C_{yz}}^2}{{\sigma_{z}}^2}}-0^2}} \\=&\frac{C_{xy}-\frac{C_{xz}C_{yz}}{{\sigma_z}^2}}{\sqrt{{\sigma_x}^2-\frac{{C_{xz}}^2}{{\sigma_z}^2}}\sqrt{{\sigma_{y}}^2-\frac{{C_{yz}}^2}{{\sigma_z}^2}}} \\=&\frac{\frac{C_{xy}}{\sigma_x\sigma_y}-\frac{C_{xz}}{\sigma_x\sigma_z}\cdot\frac{C_{yz}}{\sigma_y\sigma_z}}{\sqrt{1-\bra{\frac{C_{xz}}{\sigma_x\sigma_z}}^2}\sqrt{1-\bra{\frac{C_{yz}}{\sigma_y\sigma_z}}^2}} \\=&\frac{\rho_{xy}-\rho_{xz}\rho_{yz}}{\sqrt{1-{\rho_{xz}}^2}\sqrt{1-{\rho_{yz}}^2}} \end{align*}

が得られました.

参考文献

以下は統計に関しての参考文献である.

改訂版 統計検定2級対応 統計学基礎(日本統計学会 編/東京図書)

日本統計学会が実施する「統計検定」の2級の範囲に対応する教科書である.

統計検定2級は「大学基礎科目(学部1,2年程度)としての統計学の知識と問題解決能力」という位置付けであり,ある程度の数学的な処理能力が求められる.

そのため,統計検定2級を取得していると,一定以上の統計的なデータの扱い方を身に付けているという指標になる.

本書は

  1. データの記述と要約
  2. 確率と確率分布
  3. 統計的推定
  4. 統計的仮説検定
  5. 線形モデル分析
  6. その他の分析法-正規性の検討,適合度と独立性の\chi^2検定

の6章からなり,基礎的な統計的スキルを身につけることができる.

大学1,2年程度のレベルの内容なので,もし高校数学が怪しいようであれば,統計検定3級からの挑戦を検討してもよい.

  • 改訂版 統計検定2級対応 統計学基礎(日本統計学会 編/東京図書)
    Amazon楽天市場
  • 改訂版 統計検定3級対応 データの分析(日本統計学会 編/東京図書)
    Amazon楽天市場

なお,本書については,以下の記事で書評としてまとめています.

シェアする

  • このエントリーをはてなブックマークに追加

フォローする

【SPONSORED LINK】

最後までありがとうございました!

以下の関連記事もいかがですか?

記事一覧は

こちら

Twitterを

フォロー

大学院入試

解答例

大学受験

姉妹ブログ