データの分散・標準偏差｜統計学で「ばらつき」を表す方法

テストの点数などの数値データがあるとき，データの中心を表す量として平均値がよく使われます．

しかし，平均値は外れ値の影響を受けやすく，平均値がデータの中心としてあまり適切でないこともあります．

例えば，日本成人の年収を考えたとき，一部高所得者がいることで平均年収が高く吊り上げられてしまい，年収の中央値と平均値に小さくない差が出ます．

さて，外れ値がたくさんあるデータは「データがばらついている」ということができますが，データのばらつきを表す指標として分散と標準偏差があります．

この記事では，

データの分散のイメージ
データの分散の定義
データの標準偏差の定義とイメージ

を説明します．

「統計学」の一連の記事

基本の統計量

回帰直線

推定
1. e1 不偏分散ってなに？｜不偏推定量を考え方から理解する
2. e2 尤度関数の考え方｜データから分布を推定する最尤推定法の例

データの「ばらつき」と分散
標準偏差
1. 分散で２乗している理由
2. 標準偏差のイメージと定義
参考文献
1. 改訂版統計検定２級対応統計学基礎

データの「ばらつき」と分散

以下のような７人の生徒の２つのテストの成績（データ）を考えます．

テスト１とテスト２の点数
生徒	A	B	C	D	E	F	G
テスト１の点数	80	72	83	92	67	77	75
テスト２の点数	65	58	60	69	62	56	71

このテスト１の点数の平均値は

$\begin{align*}\frac{80+72+83+92+67+77+75}{7}=78\end{align*}$

で，テスト２の点数の平均値は

$\begin{align*}\frac{65+58+60+69+62+56+71}{7}=63\end{align*}$

ですね．

データの「ばらつき」の考え方

さて，テスト１の点数とテスト２の点数でどちらの方がばらついていると言えるでしょうか？

テスト１の点数とそれらの平均値を数直線上に表すと下図のようになります．

同様に，テスト２の点数とそれらの平均値を数直線上に表すと下図のようになります．

ぱっと見でテスト１の方が点数がばらついているように見えますが，このばらつき度合いを数値で表すにはどうすればいいでしょうか？

データの平均からの離れ具合

データのばらつきを考えるには，データの各数値が平均値からどれくらい離れているかを考えます．

例えば，テスト１において

平均値の78点からB君の72点を引くと$78-72=6$
平均値の78点からD君の92点を引くと$78-92=-14$

です．

このように全てのデータを平均から引いて，さらにこの平均との差を２乗すると，それぞれデータは

80　→　$(78-80)^2=(-2)^2=4$
72　→　$(78-72)^2=6^2=36$
83　→　$(78-83)^2=(-5)^2=25$
92　→　$(78-92)^2=(-14)^2=196$
67　→　$(78-67)^2=11^2=121$
77　→　$(78-77)^2=1^2=1$
75　→　$(78-75)^2=3^2=9$

となりますね．この２乗した後の値が大きいほど平均値から遠いので，この値の平均値をとるとデータ全体の平均値からのばらつき度合いが分かりますね．

つまり，テスト１の点数の平均値からのばらつき度合いは

$\begin{align*}\frac{4+36+25+196+121+1+9}{7}=56\end{align*}$

と考えることができます．同様に，テスト２の点数の平均値からのばらつき度合いは

$\begin{align*}&\frac{(63-65)^2+(63-58)^2+(63-60)^2+(63-69)^2+(63-62)^2+(63-56)^2+(63-71)^2}{7} \\&=\frac{(-2)^2+5^2+3^2+(-6)^2+1^2+7^2+(-8)^2}{7} \\&=\frac{4+25+9+36+1+49+64}{7} =\frac{149}{7}\end{align*}$

と考えることができます．このようにして得られた値を分散といいます．

データの分散の定義

一般に数値データの分散は次のように定義されます．

データ$x_1,\dots,x_n$の平均値を$\overline{x}$とするとき，

$\begin{align*}\sigma^2=\frac{(\overline{x}-x_1)^2+(\overline{x}-x_2)^2+\dots+(\overline{x}-x_n)^2}{n}\end{align*}$

をこのデータの分散（variance）という．

和の記号$\sum$を用いると$\sigma^2=\frac{1}{n}\sum\limits_{k=1}^{n}(\overline{x}-x_k)^2$とも表せますね．

分散とは「各データ$x_k$を平均$\overline{x}$から引いた差$\overline{x}-x_k$を２乗したものの平均値」ということもできますね．

上で計算したように

テスト１の点数の分散は$56$
テスト２の点数の分散は$\dfrac{149}{7}=21.\dots$

なので，確かにテスト１の方が分散が大きく，平均値からばらついていると言えますね．

平均値が実態を表さない例

この記事の冒頭で「平均値は外れ値の影響を受けやすく，平均値がデータの中心としてあまり適切でないこともあります」と書きました．

例えば，テスト３の結果が以下のように極端なものになったとしましょう．

テスト３の点数
生徒	A	B	C	D	E	F
テスト３の点数	０	０	100	100	０	100

このとき，平均値は

$\begin{align*}\frac{0+0+100+100+0+100}{6}=50\end{align*}$

となります．しかし，この50は適切にデータの実態を表しているようには思えませんね．

そこで，このテスト３の点数の分散$\sigma^2$を求めると

$\begin{align*}\sigma^2&=\frac{(50-0)^2+(50-0)^2+(50-100)^2+(50-100)^2+(50-0)^2+(50-100)^2}{6} \\&=\frac{50^2+50^2+50^2+50^2+50^2+50^2}{6}=2500\end{align*}$