たとえば,2種類の対応するデータ
- 勉強時間
- テストの点数
を考えたとき,勉強時間が長いほどテストの点数が高くなる傾向がありそうです.
このように,「一方のデータの値が大きいときに他方のデータの値も大きいこと」を正の相関があるといい,逆に「一方のデータの値が大きいときに他方のデータの値は小さいこと」を負の相関があるというのでした.
これらについて前回の記事では共分散を考えることで相関の正負が判断できることを説明しましたが,共分散だけではどれくらい強い相関があるのかまでは分かりません.
そこで,相関の強さまで測ることのできる統計量が欲しいわけですが,その統計量がこの記事で説明する相関係数です.
この記事では
- 相関の強さ
- 相関係数の定義・具体例
- 相関係数と相関の強さの関係
を説明します.
「統計学」の一連の記事
相関の強さ
相関係数を説明する前に,相関の強さについて説明します.
相関が強いとは?
テストを受けた8人の生徒について
- 勉強時間$x$
- テストの点数$y$
のデータをとると,以下の散布図として表せたとします.
この図を見ると,データはだいたい右上がりになっている,つまり正の相関があるということが見てとれます.
また,別の対応する2種類のデータ$(x,y)$の散布図が以下のようになったとします.
この散布図は先ほどの散布図よりもデータの配置が直線に近くなっています.
このように,2種類の対応するデータ$(x,y)$を散布図に表したとき,点の分布が直線に近いほど相関が強いといいます.
[正の相関が強い]
[負の相関が強い]
よって,
- データ$(x_i,y_i)$の点が正の傾きの直線上に乗っているときが最強の正の相関
- データ$(x_i,y_i)$の点が負の傾きの直線上に乗っているときが最強の負の相関
というわけですね.
無相関
正の相関も負の相関もないことを無相関といいます
正確には後に説明する相関係数が$0$であることをいいます.
要するに,点がバラバラな散布図を持つようなデータ$(x,y)$が無相関ですね.
ただし,注意として
- $x$と$y$が無相関であること
- $x$と$y$が無関係であること
は別の話です.
たとえば,以下のような散布図を持つデータ$(x,y)$は正の相関も負の相関もないため無相関です.
しかし,この$x$と$y$には「点$(x,y)$が円周上にある」という「関係」はありますね.
このように,2種類のデータ$(x,y)$が無相関であって,関係がないのとはまた別の話であることに注意してください.
相関係数
それでは,「相関の強さ」を表す相関係数の説明に移ります.
相関係数の定義
説明は後回しにして,先に相関係数の定義を書いてしまいます.相関係数を考えるには
- $x$と$y$の共分散$C_{xy}$
- $x$の標準偏差$\sigma_x$
- $y$の標準偏差$\sigma_y$
が必要です.
[相関係数] 2種類のデータ$x_1,x_2,\dots,x_n$と$,y_1,y_2,\dots,y_n$に対して,それぞれの標準偏差を$\sigma_x(\neq0)$, $\sigma_y(\neq0)$とし,これらの共分散を$C_{xy}$とする.このとき,このデータの組$(x,y)$の相関係数 (correlation coefficient)$\rho_{xy}$を
で定義する.
また,相関係数が$0$であるとき,2種類のデータ$x_1,x_2,\dots,x_n$と$,y_1,y_2,\dots,y_n$は無相関であるといいます.
相関係数の定義から
- $\rho_{xy}=0$
- $C_{xy}=0$
は同値なので,無相関であることを示すには$C_{xy}=0$を示せばよいことはよく用いられます.
相関係数の具体例
あるテストを受けた8人の生徒について
- 勉強時間$x$
- テストの点数$y$
が以下の表のようになったとしましょう.
人 | A | B | C | D | E | F | G | H |
---|---|---|---|---|---|---|---|---|
勉強時間$x$ | 2 | 6 | 8 | 3 | 13 | 10 | 5 | 9 |
テストの点数$y$ | 24 | 60 | 63 | 40 | 92 | 85 | 43 | 49 |
このデータは前回の記事で扱ったデータと同じもので,共分散$C_{xy}$が$C_{xy}=\frac{271}{4}=67.75$となることは前回の記事で実際に計算しました.
あとは$x$の標準偏差$\sigma_x$,$y$の標準偏差$\sigma_y$が必要ですね.
標準偏差については以下の記事で説明しています.
$x$の平均,$y$の平均はそれぞれ
なので,$x$の標準偏差$\sigma_x$,$y$の標準偏差$\sigma_y$はそれぞれ
となります.よって,相関係数$\rho_{xy}$は
となりますね.
相関係数と相関の強さの関係
さて,今求めた相関係数$\rho_{xy}\approx0.83281$からどのように相関の強さが分かるでしょうか?
相関係数の基本性質
相関係数について,実は次が成り立ちます.
相関係数$\rho$は$-1\le\rho\le1$を満たす.
データの数がどれだけ多かろうが,必ず相関係数は$-1$から$1$の間の値になります.
また,このあとで説明するように,相関係数$\rho$は
- $1$に近いほど正の相関が強い
- $0$に近いほど無相関に近い
- $-1$に近いほど正の相関が強い
ということを表します.もう少し詳しく分けると,相関の強さの目安は
- $-1\le\rho\le-0.9$:かなり強い負の相関
- $-0.9<\rho\le-0.7$:強めの負の相関
- $-0.7<\rho\le-0.5$:負の相関
- $-0.5<\rho\le-0.3$:弱めの負の相関
- $-0.3<\rho<0.3$:無相関
- $0.3\le\rho<0.5$:弱めの正の相関
- $0.5\le\rho<0.7$:正の相関
- $0.7\le\rho<0.9$:強めの正の相関
- $0.9\le\rho\le1$:かなり強い正の相関
とされることが多いです.
そのため,先ほど求めた相関係数$\rho_{xy}\approx0.83281$は「強めの正の相関である」ということになりますね.
相関係数$\rho$が相関の強さを表す理由
2つの対応するデータ$x_1,x_2,\dots,x_n$と$y_1,y_2,\dots,y_n$について,散布図の点$(x_i,y_i)$たちが直線上に並んでいる状態が最も相関が強いのでした.
このことは,2つの$n$次元ベクトル
が平行であることに他なりません.
さらに詳しく言えば
- $\m{x}$と$\m{y}$が同じ方向を向いているとき,相関係数は$1$
- $\m{x}$と$\m{y}$が逆方向を向いているとき,相関係数は$-1$
となります.
さて,ここで次のコーシー-シュワルツ(Cauchy-Schwarz)の不等式を確認しておきましょう.
[コーシー-シュワルツの不等式] 実数成分ベクトル$\m{x}$, $\m{y}$に対して
が成り立つ.ただし,
- $|\m{x}|$は$\m{x}$の長さ
- $\m{x}\cdot\m{y}$は$\m{x}$と$\m{y}$の標準内積
である.
コーシー-シュワルツの不等式について,一般に
- 2つのベクトル$\m{x}$と$\m{y}$が同じ向きに近いほど,内積$\m{x}\cdot\m{y}$は$|\m{x}||\m{y}|$に近い
- 2つのベクトル$\m{x}$と$\m{y}$が逆向きに近いほど,内積$\m{x}\cdot\m{y}$は$-|\m{x}||\m{y}|$に近い
ということが言えます.
さて,ここでコーシー-シュワルツの不等式を$|\m{x}||\m{y}|$で割ると
となるので,いま書いたことは
- 2つのベクトル$\m{x}$と$\m{y}$が同じ向きに近いほど,内積$\frac{\m{x}\cdot\m{y}}{|\m{x}||\m{y}|}$は$1$に近い
- 2つのベクトル$\m{x}$と$\m{y}$が逆向きに近いほど,内積$\frac{\m{x}\cdot\m{y}}{|\m{x}||\m{y}|}$は$-1$に近い
と言い換えることができます.
ここで,内積$\m{x}\cdot\m{y}$,長さ$|\m{x}|$,長さ$|\m{y}|$に
を代入すると,
となって,それぞれ$nC_{xy}$, $\sqrt{n}\sigma_x$, $\sqrt{n}\sigma_y$となっているので
となります.
さて,定義からこの$\dfrac{C_{xy}}{\sigma_x\sigma_y}$は相関係数$\rho_{xy}$そのものでしたね!
以上より,相関係数$\rho_{xy}$を見ればベクトル$\m{x}$, $\m{y}$の向きの近さが分かり,したがって散布図のデータの点$(x_i,y_i)$たちが直線($\rho_{xy}>0$なら傾き正,$\rho_{xy}<0$なら傾き負)に近い並び方をしているかどうかが分かるわけですね!
回帰直線
この記事で考えたような相関のあるデータ$(x,y)$について,散布図の点を「それっぽい直線」で表すと以下のようになるでしょうか.
このように,相関関係を表す「それっぽい直線」を回帰直線といい,回帰直線の求め方として最小二乗法があります.
次の記事では,この最小二乗法の考え方を説明し,回帰直線を求めます.
「統計学」の一連の記事
参考文献
改訂版 統計検定2級対応 統計学基礎
[日本統計学会 編/東京図書]
統計検定2級は「大学基礎科目(学部1,2年程度)としての統計学の知識と問題解決能力」という位置付けであり,ある程度の数学的な処理能力が求められます.
そのため,統計検定2級を取得していると,一定以上の統計的なデータの扱い方を身に付けているという指標になります.
日本統計学会が実施する「統計検定」の2級の範囲に対応する教科書なので,「2級の試験範囲を確認する」くらいのつもりで持っておくのが良いかもしれません.
しかし,このテキストは表面的な説明に留まっているなど読みづらい部分も多いので,本書だけで2級の対策をするのは少し難しいと思います.
大学1年の微分積分学の知識は必要なので,もし自信がなければ統計検定3級からの挑戦を検討しても良いでしょう.
なお,本書については,以下の記事で書評としてまとめています.
【教科書紹介|統計検定2級対応 統計学基礎(日本統計学会編)】
本書の目次・必要な知識・良い点と気になる点・オススメの使い方などをレビューしています.
コメント