統計学の基礎4|「相関係数」は相関の強さを表す統計量

たとえば,2種類の対応するデータ

  • 勉強時間
  • テストの点数

を考えたとき,勉強時間が長いほどテストの点数が高くなる傾向はありそうです.

このように,「一方のデータの値が大きいときに他方のデータの値も大きいこと」を正の相関があるといい,逆に,「一方のデータの値が大きいときに他方のデータの値は小さいこと」を負の相関があるというのでした.

これらについて,前回の記事

  • 2種類の対応するデータの相関とは何か
  • 相関の正負を判断できる共分散とは何か

を説明しました.

共分散は相関の正負は判断できるものの,どれくらい強い相関があるのかまでは分かりません.

そこで,相関の強さを測る統計量が欲しいわけですが,それがこの記事で説明する相関係数です.

この記事では

  • 相関の強さとは何か
  • 相関係数とは何か

を説明します.

相関の強さ

相関係数を説明する前に,相関の強さについて説明します.

相関の強さ

テストを受けた8人の生徒について,「勉強時間$x$」と「テストの点数$y$」のデータをとると,以下の散布図として洗わせたとします.

Rendered by QuickLaTeX.com

この図を見ると,データはだいたい右上がりになっている,つまり正の相関があるということが見てとれます.

また,別の対応する2種類のデータ$(x,y)$の散布図が以下のようになったとします.

Rendered by QuickLaTeX.com

この散布図は先ほどの散布図よりもデータが一直線に近い配置になっています.

このように,2種類の対応するデータ$(x,y)$を散布図に表したとき,点の分布が直線に近いほど相関が強いといいます.

[正の相関が強い]

Rendered by QuickLaTeX.com

[負の相関が強い]

Rendered by QuickLaTeX.com

よって,

  • データ$(x_i,y_i)$の点が正の傾きの直線上に乗っているときが最強の正の相関
  • データ$(x_i,y_i)$の点が負の傾きの直線上に乗っているときが最強の負の相関

というわけですね.

無相関

正の相関も負の相関もないことを無相関といいます(正確な定義は後に述べます).

なので,点がバラバラな散布図を持つようなデータ$(x,y)$が無相関ですね.

ただし,注意として

  • $x$と$y$が無相関であること
  • $x$と$y$が無関係であること

は別の話です.

たとえば,以下のような散布図を持つデータ$(x,y)$は,正の相関も負の相関もなく無相関です.

Rendered by QuickLaTeX.com

しかし,この$x$と$y$には「点$(x,y)$が円周上にある」という「関係」はありますね.

このように,2種類のデータ$(x,y)$が無相関であって,関係がないのとはまた別の話なわけですね.

相関係数

それでは,「相関の強さ」を表す相関係数の説明に移ります.

相関係数の定義

説明は後回しにして,先に相関係数の定義を書いてしまいます.相関係数を考えるには

が必要です.

[相関係数] 2種類のデータ$x_1,x_2,\dots,x_n$と$,y_1,y_2,\dots,y_n$に対して,それぞれの標準偏差を$\sigma_x(\neq0)$, $\sigma_y(\neq0)$とし,これらの共分散を$C_{xy}$とする.このとき,このデータの組$(x,y)$の相関係数 (correlation coefficient)$\rho_{xy}$を

\begin{align*} \rho_{xy} =&\frac{C_{xy}}{\sigma_x\sigma_y} \end{align*}

で定義する.

あるテストを受けた8人の生徒について

  • 勉強時間$x$
  • テストの点数$y$

が以下の表のようになったとしましょう.

勉強時間$x$とテストの点数$y$
A B C D E F G H
勉強時間$x$ 2 6 8 3 13 10 5 9
テストの点数$y$ 24 60 63 40 92 85 43 49

Rendered by QuickLaTeX.com

このデータは前回の記事で扱ったデータと同じもので,共分散$C_{xy}$が$C_{xy}=\frac{271}{4}=67.75$となることは前回の記事で実際に計算しました.

あとは$x$の標準偏差$\sigma_x$,$y$の標準偏差$\sigma_y$が必要ですね.

標準偏差については以下の記事で説明しています.

$x$の平均,$y$の平均はそれぞれ

\begin{align*} &\overline{x}=\frac{2+6+8+3+13+10+5+9}{8}=7, \\&\overline{y}=\frac{24+60+63+40+92+85+43+49}{8}=57 \end{align*}

なので,$x$の標準偏差$\sigma_x$,$y$の標準偏差$\sigma_y$はそれぞれ

\begin{align*} \sigma_x =&\sqrt{\begin{aligned}\frac{1}{8}&\{(2-7)^2+(6-7)^2+(8-7)^2+(3-7)^2\\ &\quad+(13-7)^2+(10-7)^2+(5-7)^2+(9-7)^2\}\end{aligned}} \\=&\sqrt{\frac{25+1+1+16+36+9+4+4}{8}} \\=&\sqrt{12} =2\sqrt{3}, \\\sigma_y =&\sqrt{\begin{aligned}\frac{1}{8}&\{(24-57)^2+(60-57)^2+(63-57)^2+(40-57)^2\\ &\quad+(92-57)^2+(85-57)^2+(43-57)^2+(49-57)^2\}\end{aligned}} \\=&\sqrt{\frac{2089+9+36+9+1225+784+196+64}{8}} \\=&\sqrt{\frac{1103}{2}} \end{align*}

となります.よって,相関係数$\rho_{xy}$は

\begin{align*} \rho_{xy} =\frac{67.75}{2\sqrt{3}\cdot\sqrt{\frac{1103}{2}}} =\frac{67.75}{\sqrt{6618}} \approx0.83281 \end{align*}

となりますね.

相関係数と相関の強さ

さて,今求めた相関係数$\rho_{xy}\approx0.83281$からどのように相関の強さが分かるでしょうか?

相関係数について,実は次が成り立ちます.

相関係数$\rho$は$-1\le\rho\le1$を満たす.

データの数がどれだけ多かろうが,必ず相関係数は$-1$から$1$の間の値になります.

さらに,相関係数$\rho$が

  • $1$に近いほど正の相関が強い
  • $0$に近いほど無相関に近い
  • $-1$に近いほど正の相関が強い

ということになります.相関係数$\rho$と相関の強さの目安は

  1. $-1\le\rho\le-0.9$:かなり強い負の相関
  2. $-0.9<\rho\le-0.7$:強めの負の相関
  3. $-0.7<\rho\le-0.5$:負の相関
  4. $-0.5<\rho\le-0.3$:弱めの負の相関
  5. $-0.3<\rho<0.3$:無相関
  6. $0.3\le\rho<0.5$:弱めの正の相関
  7. $0.5\le\rho<0.7$:正の相関
  8. $0.7\le\rho<0.9$:強めの正の相関
  9. $0.9\le\rho\le1$:かなり強い正の相関

とされることが多いです.

Rendered by QuickLaTeX.com

そのため,先ほど求めた相関係数$\rho_{xy}\approx0.83281$は「強めの正の相関である」ということになりますね.

相関係数$\rho$が相関の強さを表す理由

2つの対応するデータ$x_1,x_2,\dots,x_n$と$y_1,y_2,\dots,y_n$について,散布図の点$(x_i,y_i)$たちが直線上に並んでいる状態が最も相関が強いのでした(直線の傾きが正のとき正の相関,直線の傾きが負のとき負の相関).

このことは,$x$の平均$\bar{x}$と$y$の平均$\bar{y}$を用いると

\begin{align*} (x_1-\overline{x}):(y_1-\overline{y})=(x_2-\overline{x}):(y_2-\overline{y})=\dots=(x_n-\overline{x}):(y_n-\overline{y}) \end{align*}

が成り立つことと同値です(きちんと書くと少々面倒なので,ここでは省略します).

さらにこのことは2つの$n$次元ベクトル

\begin{align*} \m{x}:=\bmat{x_1-\overline{x}\\x_2-\overline{x}\\\vdots\\x_n-\overline{x}},\quad \m{y}:=\bmat{y_1-\overline{y}\\y_2-\overline{y}\\\vdots\\y_n-\overline{y}} \end{align*}

が平行であることに他なりません.

さらに詳しく言えば

  • $\m{x}$と$\m{y}$が同じ方向を向いているとき,相関係数は$1$
  • $\m{x}$と$\m{y}$が逆方向を向いているとき,相関係数は$-1$

となります.

さて,ここで次の事実を確認しておきましょう.

[Cauchy-Schwarzの不等式] 実数成分ベクトル$\m{x}$, $\m{y}$に対して

\begin{align*} -|\m{x}||\m{y}|\le\m{x}\cdot\m{y}\le|\m{x}||\m{y}| \end{align*}

が成り立つ.ただし,

  • $|\m{x}|$は$\m{x}$の長さ
  • $\m{x}\cdot\m{y}$は$\m{x}$と$\m{y}$の標準内積

である.

Cauchy-Schwarzの不等式について,一般に

  • 2つのベクトル$\m{x}$と$\m{y}$が同じ向きに近いほど,内積$\m{x}\cdot\m{y}$は$|\m{x}||\m{y}|$に近い
  • 2つのベクトル$\m{x}$と$\m{y}$が逆向きに近いほど,内積$\m{x}\cdot\m{y}$は$-|\m{x}||\m{y}|$に近い
  • (2つのベクトル$\m{x}$と$\m{y}$が垂直に近いほど,内積$\m{x}\cdot\m{y}$は0に近い)

ということが言えます.

さて,ここでCauchy-Schwarzの不等式を$|\m{x}||\m{y}|$で割ると

\begin{align*} -1\le\frac{\m{x}\cdot\m{y}}{|\m{x}||\m{y}|}\le1 \end{align*}

となるので,いま書いたことは

  • 2つのベクトル$\m{x}$と$\m{y}$が同じ向きに近いほど,内積$\frac{\m{x}\cdot\m{y}}{|\m{x}||\m{y}|}$は$1$に近い
  • 2つのベクトル$\m{x}$と$\m{y}$が逆向きに近いほど,内積$\frac{\m{x}\cdot\m{y}}{|\m{x}||\m{y}|}$は$-1$に近い

と言い換えることができます.

ここで,内積$\m{x}\cdot\m{y}$,長さ$|\m{x}|$,長さ$|\m{y}|$に

\begin{align*} \m{x}:=\bmat{x_1-\overline{x}\\x_2-\overline{x}\\\vdots\\x_n-\overline{x}},\quad \m{y}:=\bmat{y_1-\overline{y}\\y_2-\overline{y}\\\vdots\\y_n-\overline{y}} \end{align*}

を代入すると,

\begin{align*} \m{x}\cdot\m{y}=&(x_1-\overline{x})(y_1-\overline{y})+\dots+(x_n-\overline{x})(y_n-\overline{y}), \\|\m{x}|=&\sqrt{(x_1-\overline{x})^2+\dots+(x_n-\overline{x})^2}, \\|\m{y}|=&\sqrt{(y_1-\overline{y})^2+\dots+(y_n-\overline{y})^2} \end{align*}

となって,それぞれ$nC_{xy}$, $\sqrt{n}\sigma_x$, $\sqrt{n}\sigma_y$となっているので

\begin{align*} \frac{\m{x}\cdot\m{y}}{|\m{x}||\m{y}|} =\frac{nC_{xy}}{\sqrt{n}\sigma_x\cdot\sqrt{n}\sigma_y} =\frac{C_{xy}}{\sigma_x\sigma_y} \end{align*}

となります.

さて,定義からこの$\frac{C_{xy}}{\sigma_x\sigma_y}$は相関係数$\rho_{xy}$そのものでしたね!

以上より,相関係数$\rho_{xy}$を見ればベクトル$\m{x}$, $\m{y}$の向きの近さが分かり,したがって散布図のデータの点$(x_i,y_i)$たちが直線($\rho_{xy}>0$なら傾き正,$\rho_{xy}<0$なら傾き負)に近い並び方をしているかどうかが分かるわけですね!

回帰直線

この記事で考えたような相関のあるデータ$(x,y)$について,散布図の点を「それっぽい直線」で表すと以下のようになるでしょうか.

Rendered by QuickLaTeX.com

このように,相関関係を表す「それっぽい直線」を回帰直線といい,回帰直線の求め方として最小二乗法があります.

次の記事では,この最小二乗法の考え方を説明し,回帰直線を求めます.

参考文献

以下は統計に関しての参考文献です.

改訂版 統計検定2級対応 統計学基礎(日本統計学会 編/東京図書)

日本統計学会が実施する「統計検定」の2級の範囲に対応する教科書です.

統計検定2級は「大学基礎科目(学部1,2年程度)としての統計学の知識と問題解決能力」という位置付けであり,ある程度の数学的な処理能力が求められます.

そのため,統計検定2級の合格は一定以上の統計的なデータの扱い方を身に付けている指標になります.

本書は

  1. データの記述と要約
  2. 確率と確率分布
  3. 統計的推定
  4. 統計的仮説検定
  5. 線形モデル分析
  6. その他の分析法-正規性の検討,適合度と独立性の$\xi^2$検定

の6章からなり,基礎的な統計的スキルを身につけることができます.

大学1,2年程度のレベルの数学を用いるので,もし高校数学が怪しいようであれば,統計検定3級からの挑戦を検討してもよいですね.

  • 改訂版 統計検定2級対応 統計学基礎(日本統計学会 編/東京図書)
    Amazon楽天市場
  • 改訂版 統計検定3級対応 データの分析(日本統計学会 編/東京図書)
    Amazon楽天市場

なお,本書については,以下の記事で書評としてまとめています.

最後までありがとうございました!

参考になった方は是非シェアをお願いします!

フォローする

以下の関連記事もいかがですか?

SPONSORED LINK
関連記事

記事一覧はこちらからどうぞ!

記事一覧は

こちら

Twitterを

フォロー

大学院入試

解答例

大学受験

解説ブログ