相関係数ρは相関の強さを表す統計量!定義と考え方を解説

データの記述
データの記述

たとえば,2種類の対応するデータ

  • 勉強時間
  • テストの点数

を考えたとき,勉強時間が長いほどテストの点数が高くなる傾向がありそうです.

このように,「一方のデータの値が大きいときに他方のデータの値も大きいこと」を正の相関があるといい,逆に「一方のデータの値が大きいときに他方のデータの値は小さいこと」を負の相関があるというのでした.

相関の正負は共分散を考えることで判断できるのでしたが,共分散だけでは相関の強さまでは分かりません.

そこで,相関の強さまで表せる統計量が欲しいわけですが,その統計量がこの記事で説明する相関係数です.

この記事では

  • 相関の強さ
  • 相関係数の定義・具体例
  • 相関係数と相関の強さの関係

を説明します.

相関の強さ

相関係数を説明する前に,相関の強さについて説明します.

相関が強いとは?

テストを受けた8人の生徒について

  • 勉強時間$x$
  • テストの点数$y$

のデータをとると,以下の散布図として表せたとします.

Rendered by QuickLaTeX.com

この図を見ると,データはだいたい右上がりになっている,つまり正の相関があるということが見てとれます.

また,別の対応する2種類のデータ$(x,y)$の散布図が以下のようになったとします.

Rendered by QuickLaTeX.com

この散布図は先ほどの散布図よりもデータの配置が直線に近くなっています.

このように,2種類の対応するデータ$(x,y)$を散布図に表したとき,点の分布が直線に近いほど相関が強いといいます.

[正の相関が強い]

Rendered by QuickLaTeX.com

[負の相関が強い]

Rendered by QuickLaTeX.com

よって,

  • データ$(x_i,y_i)$の点が正の傾きの直線上に乗っているときが最強の正の相関
  • データ$(x_i,y_i)$の点が負の傾きの直線上に乗っているときが最強の負の相関

というわけですね.

無相関

正の相関も負の相関もないことを無相関といいます

正確には後に説明する相関係数が0であることをいいます.

要するに,点がバラバラな散布図を持つようなデータ$(x,y)$が無相関ですね.

ただし,注意として

  • $x$と$y$が無相関であること
  • $x$と$y$が無関係であること

は別の話です.

たとえば,以下のような散布図を持つデータ$(x,y)$は正の相関も負の相関もないため無相関です.

Rendered by QuickLaTeX.com

しかし,この$x$と$y$には「点$(x,y)$が円周上にある」という「関係」はありますね.

このように,2種類のデータ$(x,y)$が無相関であって,関係がないのとはまた別の話であることに注意してください.

相関係数

それでは,「相関の強さ」を表す相関係数の説明に移ります.

相関係数の定義

説明は後回しにして,先に相関係数の定義を書いてしまいます.相関係数を考えるには

が必要です.

[相関係数]2種類のデータ$x_1,x_2,\dots,x_n$と$,y_1,y_2,\dots,y_n$に対して,それぞれの標準偏差を$\sigma_x(\neq0)$, $\sigma_y(\neq0)$とし,これらの共分散を$C_{xy}$とするとき,

    \begin{align*}\rho_{xy}=\frac{C_{xy}}{\sigma_x\sigma_y}\end{align*}

をデータの組$(x,y)$の相関係数(correlation coefficient)という.

また,相関係数が0であるとき,2種類のデータ$x_1,x_2,\dots,x_n$と$,y_1,y_2,\dots,y_n$は無相関であるといいます.

相関係数の定義から

  • $\rho_{xy}=0$
  • $C_{xy}=0$

は同値なので,無相関であることを示すには$C_{xy}=0$を示せばよいことは大切です.

相関係数の具体例

あるテストを受けた8人の生徒について

  • 勉強時間$x$
  • テストの点数$y$

が以下の表のようになったとしましょう.

勉強時間$x$とテストの点数$y$
A B C D E F G H
勉強時間$x$ 2 6 8 3 13 10 5 9
テストの点数$y$ 24 60 63 40 92 85 43 49

Rendered by QuickLaTeX.com

このデータは共分散の記事で扱ったものと同じで,共分散

    \begin{align*}C_{xy}=\frac{271}{4}=67.75\end{align*}

と実際に計算しました.よって,あとは$x$の標準偏差$\sigma_x$,$y$の標準偏差$\sigma_y$が必要ですね.

$x$の平均,$y$の平均はそれぞれ

    \begin{align*}&\overline{x}=\frac{2+6+8+3+13+10+5+9}{8}=7, \\&\overline{y}=\frac{24+60+63+40+92+85+43+49}{8}=57\end{align*}

なので,$x$の標準偏差$\sigma_x$,$y$の標準偏差$\sigma_y$はそれぞれ

    \begin{align*}\sigma_x&=\sqrt{\begin{aligned}\frac{1}{8}&\{(2-7)^2+(6-7)^2+(8-7)^2+(3-7)^2\\ &\quad+(13-7)^2+(10-7)^2+(5-7)^2+(9-7)^2\}\end{aligned}} \\&=\sqrt{\frac{25+1+1+16+36+9+4+4}{8}} \\&=\sqrt{12}=2\sqrt{3}, \\\sigma_y&=\sqrt{\begin{aligned}\frac{1}{8}&\{(24-57)^2+(60-57)^2+(63-57)^2+(40-57)^2\\ &\quad+(92-57)^2+(85-57)^2+(43-57)^2+(49-57)^2\}\end{aligned}} \\&=\sqrt{\frac{2089+9+36+9+1225+784+196+64}{8}} \\&=\sqrt{\frac{1103}{2}}\end{align*}

となります.よって,相関係数$\rho_{xy}$は

    \begin{align*}\rho_{xy}=\frac{67.75}{2\sqrt{3}\cdot\sqrt{\frac{1103}{2}}}=\frac{67.75}{\sqrt{6618}}\approx0.83281\end{align*}

となりますね.

相関係数と相関の強さの関係

さて,今求めた相関係数$\rho_{xy}\approx0.83281$の相関の強さはどれくらいでしょうか?

相関係数の基本性質

相関係数について,実は次が成り立ちます.

相関係数$\rho$は$-1\le\rho\le1$を満たす.

データの数がどれだけ多かろうが,必ず相関係数は$-1$から$1$の間の値になります.

また,のちに説明するように,相関係数$\rho$は

  • 1に近いほど正の相関が強い
  • 0に近いほど無相関に近い
  • −1に近いほど正の相関が強い

ということを表します.もう少し詳しく分けると,相関の強さの目安は

  1. $-1\le\rho\le-0.9$:かなり強い負の相関
  2. $-0.9<\rho\le-0.7$:強めの負の相関
  3. $-0.7<\rho\le-0.5$:負の相関
  4. $-0.5<\rho\le-0.3$:弱めの負の相関
  5. $-0.3<\rho<0.3$:無相関
  6. $0.3\le\rho<0.5$:弱めの正の相関
  7. $0.5\le\rho<0.7$:正の相関
  8. $0.7\le\rho<0.9$:強めの正の相関
  9. $0.9\le\rho\le1$:かなり強い正の相関

とされることが多いです.

Rendered by QuickLaTeX.com

そのため,先ほど求めた相関係数$\rho_{xy}\approx0.83281$は「強めの正の相関である」ということになりますね.

相関係数$\rho$が相関の強さを表す理由

2つの対応するデータ$x_1,x_2,\dots,x_n$と$y_1,y_2,\dots,y_n$について,散布図の点$(x_i,y_i)$たちが直線上に並んでいる状態が最も相関が強いのでした.

このことは,2つの$n$次元ベクトル

    \begin{align*}\m{x}:=\bmat{x_1-\overline{x}\\x_2-\overline{x}\\\vdots\\x_n-\overline{x}},\quad \m{y}:=\bmat{y_1-\overline{y}\\y_2-\overline{y}\\\vdots\\y_n-\overline{y}}\end{align*}

が平行であることに他なりません.

さらに詳しく言えば

  • $\m{x}$と$\m{y}$が同じ方向を向いているとき,相関係数は$1$
  • $\m{x}$と$\m{y}$が逆方向を向いているとき,相関係数は$-1$

となります.

さて,ここで次のコーシー-シュワルツの不等式を確認しておきましょう.

[コーシー-シュワルツの不等式]実数成分ベクトル$\m{x}$, $\m{y}$に対して

    \begin{align*}-|\m{x}||\m{y}|\le\m{x}\cdot\m{y}\le|\m{x}||\m{y}|\end{align*}

が成り立つ.ただし,$|\m{x}|$は$\m{x}$の長さ,$\m{x}\cdot\m{y}$は$\m{x}$と$\m{y}$の標準内積である.

コーシー-シュワルツの不等式について,一般に

  • 2つのベクトル$\m{x}$と$\m{y}$が同じ向きに近いほど,内積$\m{x}\cdot\m{y}$は$|\m{x}||\m{y}|$に近い
  • 2つのベクトル$\m{x}$と$\m{y}$が逆向きに近いほど,内積$\m{x}\cdot\m{y}$は$-|\m{x}||\m{y}|$に近い

ということが言えます.

さて,ここでコーシー-シュワルツの不等式を$|\m{x}||\m{y}|$で割ると

    \begin{align*}-1\le\frac{\m{x}\cdot\m{y}}{|\m{x}||\m{y}|}\le1\end{align*}

となるので,いま書いたことは

  • 2つのベクトル$\m{x}$と$\m{y}$が同じ向きに近いほど,内積$\frac{\m{x}\cdot\m{y}}{|\m{x}||\m{y}|}$は$1$に近い
  • 2つのベクトル$\m{x}$と$\m{y}$が逆向きに近いほど,内積$\frac{\m{x}\cdot\m{y}}{|\m{x}||\m{y}|}$は$-1$に近い

と言い換えることができます.

ここで,内積$\m{x}\cdot\m{y}$,長さ$|\m{x}|$,長さ$|\m{y}|$に

    \begin{align*}\m{x}:=\bmat{x_1-\overline{x}\\x_2-\overline{x}\\\vdots\\x_n-\overline{x}},\quad \m{y}:=\bmat{y_1-\overline{y}\\y_2-\overline{y}\\\vdots\\y_n-\overline{y}}\end{align*}

を代入すると,

    \begin{align*}\m{x}\cdot\m{y}=&(x_1-\overline{x})(y_1-\overline{y})+\dots+(x_n-\overline{x})(y_n-\overline{y}), \\|\m{x}|=&\sqrt{(x_1-\overline{x})^2+\dots+(x_n-\overline{x})^2}, \\|\m{y}|=&\sqrt{(y_1-\overline{y})^2+\dots+(y_n-\overline{y})^2}\end{align*}

となって,それぞれ$nC_{xy}$, $\sqrt{n}\sigma_x$, $\sqrt{n}\sigma_y$となっているので

    \begin{align*}\frac{\m{x}\cdot\m{y}}{|\m{x}||\m{y}|} =\frac{nC_{xy}}{\sqrt{n}\sigma_x\cdot\sqrt{n}\sigma_y} =\frac{C_{xy}}{\sigma_x\sigma_y}\end{align*}

となります.

この$\dfrac{C_{xy}}{\sigma_x\sigma_y}$は相関係数$\rho_{xy}$の定義そのものでしたから,$-1\le\rho_{xy}\le1$が証明できました.

以上より,相関係数$\rho_{xy}$を見れば相関の強さが判定できるわけですね.

参考文献

以下は参考文献です.

改訂版 統計検定2級対応 統計学基礎

[日本統計学会 編/東京図書]

統計検定2級は「大学基礎科目(学部1,2年程度)としての統計学の知識と問題解決能力」という位置付けであり,ある程度の数学的な処理能力が求められます.

そのため,統計検定2級を取得していると,一定以上の統計的なデータの扱い方を身に付けているという指標になります.

日本統計学会が実施する「統計検定」の2級の範囲に対応する教科書なので,「2級の試験範囲を確認する」くらいのつもりで持っておくのが良いかもしれません.

しかし,このテキストは表面的な説明に留まっているなど読みづらい部分も多いので,本書だけで2級の対策をするのは少し難しいと思います.

大学1年の微分積分学の知識は必要なので,もし自信がなければ統計検定3級からの挑戦を検討しても良いでしょう.

なお,本書については,以下の記事で書評としてまとめています.

管理人

プロフィール

山本やまもと 拓人たくと

元予備校講師.講師として駆け出しの頃から予備校の生徒アンケートで抜群の成績を残し,通常の8倍の報酬アップを提示されるなど頭角を表す.

飛び級・首席合格で大学院に入学しそのまま首席修了するなど数学の深い知識をもち,本質をふまえた分かりやすい授業に定評がある.

現在はオンライン家庭教師,社会人向け数学教室での講師としての教育活動とともに,京都大学で数学の研究も行っている.専門は非線形偏微分方程式論.大学数学系YouTuberとしても活動中.

趣味は数学,ピアノ,甘いもの食べ歩き.公式LINEを友達登録で【限定プレゼント】配布中.

Twitter・大学数学YouTube・公式LINEを見てみる

コメント