データの分散・標準偏差｜統計学で「ばらつき」を表す方法

テストの点数などの数値データがあるとき，データの中心を表す量として平均値がよく使われます．

しかし，平均値は外れ値の影響を受けやすく，平均値がデータの中心としてあまり適切でないこともあります．

例えば，日本成人の年収を考えたとき，一部高所得者がいることで平均年収が高く吊り上げられてしまい，年収の中央値と平均値に小さくない差が出ます．

さて，外れ値がたくさんあるデータは「データがばらついている」ということができますが，データのばらつきを表す指標として分散と標準偏差があります．

この記事では，

データの分散のイメージ
データの分散の定義
データの標準偏差の定義とイメージ

を説明します．

「統計データの記述」の一連の記事

データの「ばらつき」と分散
標準偏差
1. 分散で２乗している理由
2. 標準偏差のイメージと定義
参考文献
1. 改訂版統計検定２級対応統計学基礎

データの「ばらつき」と分散

以下のような７人の生徒の２つのテストの成績（データ）を考えます．

テスト１とテスト２の点数
生徒	A	B	C	D	E	F	G
テスト１の点数	80	72	83	92	67	77	75
テスト２の点数	65	58	60	69	62	56	71

このテスト１の点数の平均値は

\begin{align*}\frac{80+72+83+92+67+77+75}{7}=78\end{align*}

で，テスト２の点数の平均値は

\begin{align*}\frac{65+58+60+69+62+56+71}{7}=63\end{align*}

ですね．

データの「ばらつき」の考え方

さて，テスト１の点数とテスト２の点数でどちらの方がばらついていると言えるでしょうか？

テスト１の点数とそれらの平均値を数直線上に表すと下図のようになります．

同様に，テスト２の点数とそれらの平均値を数直線上に表すと下図のようになります．

ぱっと見でテスト１の方が点数がばらついているように見えますが，このばらつき度合いを数値で表すにはどうすればいいでしょうか？

データの平均からの離れ具合

データのばらつきを考えるには，データの各数値が平均値からどれくらい離れているかを考えます．

例えば，テスト１において

平均値の78点からB君の72点を引くと$78-72=6$
平均値の78点からD君の92点を引くと$78-92=-14$

です．

このように全てのデータを平均から引いて，さらにこの平均との差を２乗すると，それぞれデータは

80　→　$(78-80)^2=(-2)^2=4$
72　→　$(78-72)^2=6^2=36$
83　→　$(78-83)^2=(-5)^2=25$
92　→　$(78-92)^2=(-14)^2=196$
67　→　$(78-67)^2=11^2=121$
77　→　$(78-77)^2=1^2=1$
75　→　$(78-75)^2=3^2=9$

となりますね．この２乗した後の値が大きいほど平均値から遠いので，この値の平均値をとるとデータ全体の平均値からのばらつき度合いが分かりますね．

つまり，テスト１の点数の平均値からのばらつき度合いは

\begin{align*}\frac{4+36+25+196+121+1+9}{7}=56\end{align*}

と考えることができます．同様に，テスト２の点数の平均値からのばらつき度合いは

\begin{align*}&\frac{(63-65)^2+(63-58)^2+(63-60)^2+(63-69)^2+(63-62)^2+(63-56)^2+(63-71)^2}{7}
\\&=\frac{(-2)^2+5^2+3^2+(-6)^2+1^2+7^2+(-8)^2}{7}
\\&=\frac{4+25+9+36+1+49+64}{7}
=\frac{149}{7}\end{align*}

と考えることができます．このようにして得られた値を分散といいます．

データの分散の定義

一般に数値データの分散は次のように定義されます．

データ$x_1,\dots,x_n$の平均値を$\overline{x}$とするとき，

\begin{align*}\sigma^2=\frac{(\overline{x}-x_1)^2+(\overline{x}-x_2)^2+\dots+(\overline{x}-x_n)^2}{n}\end{align*}

をこのデータの分散（variance）という．

和の記号$\sum$を用いると$\sigma^2=\frac{1}{n}\sum\limits_{k=1}^{n}(\overline{x}-x_k)^2$とも表せますね．

分散とは「各データ$x_k$を平均$\overline{x}$から引いた差$\overline{x}-x_k$を２乗したものの平均値」ということもできますね．

上で計算したように

テスト１の点数の分散は$56$
テスト２の点数の分散は$\dfrac{149}{7}=21.\dots$

なので，確かにテスト１の方が分散が大きく，平均値からばらついていると言えますね．

平均値が実態を表さない例

この記事の冒頭で「平均値は外れ値の影響を受けやすく，平均値がデータの中心としてあまり適切でないこともあります」と書きました．

例えば，テスト３の結果が以下のように極端なものになったとしましょう．

テスト３の点数
生徒	A	B	C	D	E	F
テスト３の点数	０	０	100	100	０	100

このとき，平均値は

\begin{align*}\frac{0+0+100+100+0+100}{6}=50\end{align*}

となります．しかし，この50は適切にデータの実態を表しているようには思えませんね．

そこで，このテスト３の点数の分散$\sigma^2$を求めると

\begin{align*}\sigma^2&=\frac{(50-0)^2+(50-0)^2+(50-100)^2+(50-100)^2+(50-0)^2+(50-100)^2}{6}
\\&=\frac{50^2+50^2+50^2+50^2+50^2+50^2}{6}=2500\end{align*}

と計算されますが，この2500という値はテスト１の点数の分散$56$やテスト２の点数の分散$\dfrac{149}{7}$と比べるとかなり大きいです．

このことから「テスト３の点数はばらつきが大きいため，平均点が実態を表していない可能性が高い」と判断できます．

標準偏差

分散と同じくデータのばらつきを表す重要な指標として標準偏差があります．

分散で２乗している理由

分散を求めるときに平均値からデータを引いた値を「２乗」しているのはなぜでしょうか？

もし，テスト３の点数で平均との差を２乗せず足し合わせたとすると

\begin{align*}&\frac{(50-0)+(50-0)+(50-100)+(50-100)+(50-0)+(50-100)}{6}
\\&=\frac{50+50-50-50+50-50}{6}=0\end{align*}

となってしまい，平均値からの「右へのばらつき」と「左へのばらつき」が打ち消しあって０となってしまいました（どのようなデータでも，この計算をすると必ず０になることが証明できます）．

一方，２乗すると必ず０以上の値になることから，２乗すればこのような相殺が起こらず平均値からのばらつきを足し合わせられるというわけですね．

相殺が起こらないようにするために絶対値を考える指標（平均絶対偏差）もありますが，通常の２乗する分散の方が使い勝手が良いことも多いので，まずは分散を理解しておきましょう．

標準偏差のイメージと定義

分散$\sigma^2$は平均値との差の２乗の和の平均を考えていることから，「分散$\sigma^2$の正の平方根」は平均値とデータの差のだいたい１乗分の平均を考えていることになります．

そこで「分散の正の平方根」を標準偏差といいます．

データ$x_1,\dots,x_n$の平均値を$\overline{x}$とするとき，

\begin{align*}\sigma=\sqrt{\frac{(\overline{x}-x_1)^2+(\overline{x}-x_2)^2+\dots+(\overline{x}-x_n)^2}{n}}\end{align*}

をこのデータの標準偏差（standard deviation）という．

和の記号$\sum$を用いると$\sigma=\sqrt{\frac{1}{n}\sum\limits_{k=1}^{n}(\overline{x}-x_k)^2}$とも表せますね．

例えば，テスト３の点数の分散は$2500$でしたから，標準偏差は

\begin{align*}\sqrt{2500}=50\end{align*}

となり，確かに全てのデータが平均値から50点離れていることを表せていますね．

同様に，テスト１の点数の分散は$56$で，テスト２の点数の分散は$\dfrac{149}{7}$でしたから，それぞれのテストの標準偏差は

\begin{align*}\sqrt{56}=7.48\dots,\quad
\sqrt{\dfrac{149}{7}}=4.61\dots\end{align*}

となって，テスト１の平均値からの離れ具合は7.48点程度，テスト２の平均値からの離れ具合は4.61点程度と考えることができますね．

参考文献

以下は参考文献です．

改訂版統計検定２級対応統計学基礎

[日本統計学会編/東京図書]

統計検定２級は「大学基礎科目(学部１，２年程度）としての統計学の知識と問題解決能力」という位置付けであり，ある程度の数学的な処理能力が求められます．

そのため，統計検定２級を取得していると，一定以上の統計的なデータの扱い方を身に付けているという指標になります．

日本統計学会が実施する「統計検定」の２級の範囲に対応する教科書なので，「２級の試験範囲を確認する」くらいのつもりで持っておくのが良いかもしれません．

しかし，このテキストは表面的な説明に留まっているなど読みづらい部分も多いので，本書だけで2級の対策をするのは少し難しいと思います．

大学１年の微分積分学の知識は必要なので，もし自信がなければ統計検定３級からの挑戦を検討しても良いでしょう．

改訂版統計検定２級対応統計学基礎(日本統計学会編/東京図書)
Amazon 楽天市場
改訂版統計検定３級対応データの分析(日本統計学会編/東京図書)
Amazon 楽天市場

なお，本書については，以下の記事で書評としてまとめています．

【教科書紹介｜統計検定２級対応統計学基礎(日本統計学会編)】

本書の目次・必要な知識・良い点と気になる点・オススメの使い方などをレビューしています．