統計学の基礎2|データのばらつきを表す「分散」のイメージ

統計学
統計学

テストの点数など幾つかのデータがあるとき,データの中心を表す量として平均値がよく使われます.

しかし,前回の記事で説明したように平均は外れ値の影響を受けやすいため,データによっては平均値がデータの実態を適切に表さないことがあります.

例えば,日本成人の年収を考えたとき,一部高所得者がいることで平均年収が高く吊り上げられてしまい,年収の中央値と平均年収に大きな差が出ます.

さて,外れ値がたくさんあるデータは「データがばらついている」ということができますが,データのばらつきを表す指標として

  • 分散
  • 標準偏差

があります.

この記事では,

  • データの分散のイメージ
  • データの分散の定義
  • データの標準偏差の定義とイメージ

を説明します.

データの分散

以下のような7人のテストの成績(データ)を考えます(前回の記事で用いたものと同じです).

テストの成績
ABCDEFG
点数80728392677775

平均値の復習

前回の記事で説明したように,このデータの平均値

   \begin{align*} \frac{80+72+83+92+67+77+75}{7} =78 \end{align*}

となりますね.

イメージとしては,等しい幅で7つに仕切られた水槽に水位が80mm, 72mm, 83mm, 92mm, 67mm, 77mm, 75mmになるように水を入れ

Rendered by QuickLaTeX.com

仕切りを外すと,水位は平均値の78mmとなりますね.

Rendered by QuickLaTeX.com

分散のイメージと定義

水位で表すとかさばってしまうので,このデータを数直線上に表しましょう.

Rendered by QuickLaTeX.com

データの平均点からのバラつきを表す指標として分散があります.

分散を考えるには,平均と各データの差を考えます.例えば

  • 平均値の78点からB氏の72点を引くと$78-72=6$
  • 平均値の78点からD氏の92点を引くと$78-92=-14$

ですね.

Rendered by QuickLaTeX.com

他の全てのデータも平均との差をとり,さらにこの平均との差を2乗します(2乗する理由は後で説明します).すると,それぞれデータは

  • 80 → $(78-80)^2=(-2)^2=4$
  • 72 → $(78-72)^2=6^2=36$
  • 83 → $(78-83)^2=(-5)^2=25$
  • 92 → $(78-92)^2=(-14)^2=196$
  • 67 → $(78-67)^2=11^2=121$
  • 77 → $(78-77)^2=1^2=1$
  • 75 → $(78-75)^2=3^2=9$

となりますね.

この2乗した後の値が大きいほど平均値から遠いことが分かるので,この値の平均をとるとデータ全体の平均値からの離れ具合が分かります.

つまり

   \begin{align*} \frac{4+36+25+196+121+1+9}{7} =56 \end{align*}

はデータの平均からのバラつき具合を表します.このようにして得られた値56を分散といいます.

一般に,分散は次のように定義されます.

データ$x_1,\dots,x_n$の平均値を$\overline{x}$とするとき,このデータの分散 (variance) $\sigma^2$ ($\sigma>0$)を

   \begin{align*} \sigma^2 =&\frac{(\overline{x}-x_1)^2+(\overline{x}-x_2)^2+\dots+(\overline{x}-x_n)^2}{n} \\\biggl(=&\frac{1}{n}\sum_{k=1}^{n}(\overline{x}-x_k)^2\biggr) \end{align*}

で定義する.

つまり

  • 各データと平均との差を2乗して
  • 和をとり
  • データの個数で割る

ことで得られる値を分散というわけですね.

数直線上の平均からの差をイメージできれば,分散がデータ全体のバラつきを表すことが分かりますね.

ちなみに,データの値が全て同じなら,平均点も同じ値になるので分散が最小の0になります.

平均が実態を表さない例

この記事の冒頭で「場合によっては平均値がデータの実態を適切に表していない」と書きましたが,ここではそのような例を表しましょう.

テストの結果が以下のようになったとしましょう.

テストの成績2
ABCDEF
点数100100100

このとき,平均点は

   \begin{align*} \frac{0+0+100+100+0+100}{6} =50 \end{align*}

となります.

しかし,この50点は適切にデータの実態を表しているようには思えませんから,このことを分散を用いて定量的に考えてみます.

「テストの成績2」の分散は,分散の定義から

   \begin{align*} &\frac{(50-0)^2+(50-0)^2+(50-100)^2+(50-100)^2+(50-0)^2+(50-100)^2}{6} \\=&\frac{50^2+50^2+50^2+50^2+50^2+50^2}{6} =2500 \end{align*}

と計算されますが,この2500という値は先ほど考えていたデータで求めた分散の56と比べるとかなり大きいですね.

このことから,「『テストの成績2』はバラつきが大きいため,平均点が実態を表していない」と判断できます.

このように,分散が大きいことは平均が適切にデータの実態を表していないことを示す根拠になります.

標準偏差

分散と同じくデータのバラつきを表す重要なものに標準偏差があります.

分散で2乗している理由

標準偏差を考える前に,分散で2乗している理由を考えます.

この理由は「2乗すると必ず正の数となるから」です.

例えば,「テストの成績2」で平均との差を2乗せず単純に足し合わせたとすると

   \begin{align*} &\frac{(50-0)+(50-0)+(50-100)+(50-100)+(50-0)+(50-100)}{6} \\=&\frac{50+50-50-50+50-50}{6} =0 \end{align*}

となってしまい,平均からの「右へのバラつき」と「左へのバラつき」が打ち消しあって0となってしまいました.

このように,2乗しなければプラスとマイナスが打ち消しあって,バラつきが相殺されてしまいます(なお,どのようなデータでも,この計算をすると必ず0になることが(簡単に)証明できます).

負の数も2乗すると正の数になることから,2乗すればこのような相殺が起こらずバラつきを計算できるというわけですね.

標準偏差のイメージと定義

分散は平均との差の2乗の和の平均を考えていることから「『分散の正の平方根』はデータ全体の平均との差」と考えることができます.

この「分散の正の平方根」を標準偏差といいます.

データ$x_1,\dots,x_n$の分散$\sigma^2$ ($\sigma>0$)に対して,$\sigma$を標準偏差 (standard deviation)という.すなわち

   \begin{align*} \sigma =&\sqrt{\frac{(\overline{x}-x_1)^2+(\overline{x}-x_2)^2+\dots+(\overline{x}-x_n)^2}{n}} \\\biggl(=&\sqrt{\frac{1}{n}\sum_{k=1}^{n}(\overline{x}-x_k)^2}\biggr) \end{align*}

を標準偏差という.

例えば,先ほどの「テストの成績2」の分散は2500と計算できたことを思い出すと,標準偏差は

   \begin{align*} \sqrt{2500}=50 \end{align*}

となり,確かに全てのデータが平均点から50点離れていることを表せていますね!

同様に,もとの「テストの成績」の分散は56でしたから,標準偏差は

   \begin{align*} \sqrt{56}=2\sqrt{14}\approx2\times3.74=7.48 \end{align*}

となって,データ全体の平均からの離れ具合は7.48点程度と考えることができます.

次の記事では,2つの対応するデータがあるとき,それらの関係(相関)を表す共分散相関係数を説明します.

参考文献

改訂版 統計検定2級対応 統計学基礎

[日本統計学会 編/東京図書]

日本統計学会が実施する「統計検定」の2級の範囲に対応する教科書です.

統計検定2級は「大学基礎科目(学部1,2年程度)としての統計学の知識と問題解決能力」という位置付けであり,ある程度の数学的な処理能力が求められます.

そのため,統計検定2級を取得していると,一定以上の統計的なデータの扱い方を身に付けているという指標になります.

本書は

  1. データの記述と要約
  2. 確率と確率分布
  3. 統計的推定
  4. 統計的仮説検定
  5. 線形モデル分析
  6. その他の分析法-正規性の検討,適合度と独立性の$\chi^2$検定

の6章からなり,基礎的な統計的スキルを身につけることができます.

大学1,2年程度のレベルの内容なので,もし高校数学が怪しいようであれば,統計検定3級からの挑戦を検討しても良いでしょう.

なお,本書については,以下の記事で書評としてまとめています.

コメント