たとえば,2種類の対応するデータ
- 勉強時間
- テストの点数
を考えたとき,勉強時間が長いほどテストの点数が高くなる傾向はありそうです.
このように,「一方のデータの値が大きいときに他方のデータの値も大きいこと」を正の相関があるといい,逆に「一方のデータの値が大きいときに他方のデータの値は小さいこと」を負の相関があるというのでした.
これらについて,前回の記事で
- 2種類の対応するデータの相関とは何か
- 相関の正負を判断できる共分散とは何か
を説明しました.
共分散は相関の正負は判断できるものの,どれくらい強い相関があるのかまでは分かりません.
そこで,相関の強さを測る統計量が欲しいわけですが,それがこの記事で説明する相関係数です.
この記事では
- 相関の強さとは何か
- 相関係数とは何か
を説明します.
一連の記事はこちら
【統計学の基礎1|データを要約する代表値(平均値・中央値)】
【統計学の基礎2|データのばらつきを表す「分散」のイメージと定義】
【統計学の基礎3|「共分散」は「相関」の正負を表す統計量】
【統計学の基礎4|「相関係数」は相関の強さを表す統計量】←今の記事
【回帰分析の目的|最小二乗法から回帰直線を求める方法】
【最小二乗法から求めた回帰直線の性質と決定係数の意味】
【擬相関を見破る「偏相関係数」の考え方!回帰直線から導出する】
相関の強さ
相関係数を説明する前に,相関の強さについて説明します.
相関の強さ
テストを受けた8人の生徒について
- 勉強時間$x$
- テストの点数$y$
のデータをとると,以下の散布図として洗わせたとします.
この図を見ると,データはだいたい右上がりになっている,つまり正の相関があるということが見てとれます.
また,別の対応する2種類のデータ$(x,y)$の散布図が以下のようになったとします.
この散布図は先ほどの散布図よりもデータの配置が直線に近くなっています.
このように,2種類の対応するデータ$(x,y)$を散布図に表したとき,点の分布が直線に近いほど相関が強いといいます.
[正の相関が強い]
[負の相関が強い]
よって,
- データ$(x_i,y_i)$の点が正の傾きの直線上に乗っているときが最強の正の相関
- データ$(x_i,y_i)$の点が負の傾きの直線上に乗っているときが最強の負の相関
というわけですね.
無相関
正の相関も負の相関もないことを無相関といいます(正確には,後に述べる相関係数が$0$であることをいいます).
なので,点がバラバラな散布図を持つようなデータ$(x,y)$が無相関ですね.
ただし,注意として
- $x$と$y$が無相関であること
- $x$と$y$が無関係であること
は別の話です.
たとえば,以下のような散布図を持つデータ$(x,y)$は,正の相関も負の相関もなく無相関です.
しかし,この$x$と$y$には「点$(x,y)$が円周上にある」という「関係」はありますね.
このように,2種類のデータ$(x,y)$が無相関であって,関係がないのとはまた別の話なわけですね.
相関係数
それでは,「相関の強さ」を表す相関係数の説明に移ります.
相関係数の定義
説明は後回しにして,先に相関係数の定義を書いてしまいます.相関係数を考えるには
が必要です.
[相関係数] 2種類のデータ$x_1,x_2,\dots,x_n$と$,y_1,y_2,\dots,y_n$に対して,それぞれの標準偏差を$\sigma_x(\neq0)$, $\sigma_y(\neq0)$とし,これらの共分散を$C_{xy}$とする.このとき,このデータの組$(x,y)$の相関係数 (correlation coefficient)$\rho_{xy}$を
で定義する.
あるテストを受けた8人の生徒について
- 勉強時間$x$
- テストの点数$y$
が以下の表のようになったとしましょう.
人 | A | B | C | D | E | F | G | H |
---|---|---|---|---|---|---|---|---|
勉強時間$x$ | 2 | 6 | 8 | 3 | 13 | 10 | 5 | 9 |
テストの点数$y$ | 24 | 60 | 63 | 40 | 92 | 85 | 43 | 49 |
このデータは前回の記事で扱ったデータと同じもので,共分散$C_{xy}$が$C_{xy}=\frac{271}{4}=67.75$となることは前回の記事で実際に計算しました.
あとは$x$の標準偏差$\sigma_x$,$y$の標準偏差$\sigma_y$が必要ですね.
標準偏差については以下の記事で説明しています.
【前々回の記事:統計学の基礎2|データのばらつきを表す「分散」のイメージ】
データの分散が$\sigma^2$ ($\sigma>0$)のとき,$\sigma$を標準偏差といいます.分散も標準偏差もデータのばらつきを表す量ですが,標準偏差の方が実際にどれくらいのばらつきになっているかの目安として便利です.
$x$の平均,$y$の平均はそれぞれ
なので,$x$の標準偏差$\sigma_x$,$y$の標準偏差$\sigma_y$はそれぞれ
となります.よって,相関係数$\rho_{xy}$は
となりますね.
相関係数と相関の強さ
さて,今求めた相関係数$\rho_{xy}\approx0.83281$からどのように相関の強さが分かるでしょうか?
相関係数について,実は次が成り立ちます.
相関係数$\rho$は$-1\le\rho\le1$を満たす.
データの数がどれだけ多かろうが,必ず相関係数は$-1$から$1$の間の値になります.
さらに,相関係数$\rho$が
- $1$に近いほど正の相関が強い
- $0$に近いほど無相関に近い
- $-1$に近いほど正の相関が強い
ということになります.相関係数$\rho$と相関の強さの目安は
- $-1\le\rho\le-0.9$:かなり強い負の相関
- $-0.9<\rho\le-0.7$:強めの負の相関
- $-0.7<\rho\le-0.5$:負の相関
- $-0.5<\rho\le-0.3$:弱めの負の相関
- $-0.3<\rho<0.3$:無相関
- $0.3\le\rho<0.5$:弱めの正の相関
- $0.5\le\rho<0.7$:正の相関
- $0.7\le\rho<0.9$:強めの正の相関
- $0.9\le\rho\le1$:かなり強い正の相関
とされることが多いです.
そのため,先ほど求めた相関係数$\rho_{xy}\approx0.83281$は「強めの正の相関である」ということになりますね.
相関係数$\rho$が相関の強さを表す理由
2つの対応するデータ$x_1,x_2,\dots,x_n$と$y_1,y_2,\dots,y_n$について,散布図の点$(x_i,y_i)$たちが直線上に並んでいる状態が最も相関が強いのでした(直線の傾きが正のとき正の相関,直線の傾きが負のとき負の相関).
このことは,$x$の平均$\bar{x}$と$y$の平均$\bar{y}$を用いると
が成り立つことと同値です(きちんと書くと少々面倒なので,ここでは省略します).
さらにこのことは2つの$n$次元ベクトル
が平行であることに他なりません.
さらに詳しく言えば
- $\m{x}$と$\m{y}$が同じ方向を向いているとき,相関係数は$1$
- $\m{x}$と$\m{y}$が逆方向を向いているとき,相関係数は$-1$
となります.
さて,ここで次の事実を確認しておきましょう.
[Cauchy-Schwarzの不等式] 実数成分ベクトル$\m{x}$, $\m{y}$に対して
が成り立つ.ただし,
- $|\m{x}|$は$\m{x}$の長さ
- $\m{x}\cdot\m{y}$は$\m{x}$と$\m{y}$の標準内積
である.
Cauchy-Schwarzの不等式について,一般に
- 2つのベクトル$\m{x}$と$\m{y}$が同じ向きに近いほど,内積$\m{x}\cdot\m{y}$は$|\m{x}||\m{y}|$に近い
- 2つのベクトル$\m{x}$と$\m{y}$が逆向きに近いほど,内積$\m{x}\cdot\m{y}$は$-|\m{x}||\m{y}|$に近い
- (2つのベクトル$\m{x}$と$\m{y}$が垂直に近いほど,内積$\m{x}\cdot\m{y}$は0に近い)
ということが言えます.
さて,ここでCauchy-Schwarzの不等式を$|\m{x}||\m{y}|$で割ると
となるので,いま書いたことは
- 2つのベクトル$\m{x}$と$\m{y}$が同じ向きに近いほど,内積$\frac{\m{x}\cdot\m{y}}{|\m{x}||\m{y}|}$は$1$に近い
- 2つのベクトル$\m{x}$と$\m{y}$が逆向きに近いほど,内積$\frac{\m{x}\cdot\m{y}}{|\m{x}||\m{y}|}$は$-1$に近い
と言い換えることができます.
ここで,内積$\m{x}\cdot\m{y}$,長さ$|\m{x}|$,長さ$|\m{y}|$に
を代入すると,
となって,それぞれ$nC_{xy}$, $\sqrt{n}\sigma_x$, $\sqrt{n}\sigma_y$となっているので
となります.
さて,定義からこの$\frac{C_{xy}}{\sigma_x\sigma_y}$は相関係数$\rho_{xy}$そのものでしたね!
以上より,相関係数$\rho_{xy}$を見ればベクトル$\m{x}$, $\m{y}$の向きの近さが分かり,したがって散布図のデータの点$(x_i,y_i)$たちが直線($\rho_{xy}>0$なら傾き正,$\rho_{xy}<0$なら傾き負)に近い並び方をしているかどうかが分かるわけですね!
回帰直線
この記事で考えたような相関のあるデータ$(x,y)$について,散布図の点を「それっぽい直線」で表すと以下のようになるでしょうか.
このように,相関関係を表す「それっぽい直線」を回帰直線といい,回帰直線の求め方として最小二乗法があります.
次の記事では,この最小二乗法の考え方を説明し,回帰直線を求めます.
一連の記事はこちら
【統計学の基礎1|データを要約する代表値(平均値・中央値)】
【統計学の基礎2|データのばらつきを表す「分散」のイメージと定義】
【統計学の基礎3|「共分散」は「相関」の正負を表す統計量】
【統計学の基礎4|「相関係数」は相関の強さを表す統計量】
【回帰分析の目的|最小二乗法から回帰直線を求める方法】←次の記事
【最小二乗法から求めた回帰直線の性質と決定係数の意味】
【擬相関を見破る「偏相関係数」の考え方!回帰直線から導出する】
参考文献
以下は統計に関しての参考文献です.
日本統計学会が実施する「統計検定」の2級の範囲に対応する教科書です.
統計検定2級は「大学基礎科目(学部1,2年程度)としての統計学の知識と問題解決能力」という位置付けであり,ある程度の数学的な処理能力が求められます.
そのため,統計検定2級の合格は一定以上の統計的なデータの扱い方を身に付けている指標になります.
本書は
- データの記述と要約
- 確率と確率分布
- 統計的推定
- 統計的仮説検定
- 線形モデル分析
- その他の分析法-正規性の検討,適合度と独立性の$\xi^2$検定
の6章からなり,基礎的な統計的スキルを身につけることができます.
大学1,2年程度のレベルの数学を用いるので,もし高校数学が怪しいようであれば,統計検定3級からの挑戦を検討してもよいですね.
なお,本書については,以下の記事で書評としてまとめています.
本書は統計検定2級の出題範囲に即した内容の教科書です.本書の目次,良い点と不満な点,オススメの使い方などをまとめています.