統計学の基礎1|データを要約する代表値(平均値・中央値)

統計学
統計学

統計学 (statistics)は実用的な数学の分野として,社会的になくてはならないものとなっています.

身近な例では,選挙があるたびにニュースで流れる選挙速報で,まだそれほど開票されていないにもかかわらず「当選確実」と断言してしまえるのは,統計学があってのものです.

他の例では,「治療で用いられる薬が本当に効果があるのかどうか」というのも,統計学を用いて「効く」という根拠が示されて初めて使える薬として認められます.

このように,実は統計学は身近に,そして広く応用されている数学の1つということができます.

さて,統計学はテストの成績,アンケート結果,薬の効果などの「データの集まりを処理するための数学」です.

データの集まりを大雑把に見るときには,データの平均値を考えることがよくありますが,実は平均値がデータを適切に表さないことがあります.

そのような場合にはデータの中央値を考えることが効果的であることもよくあります.

この記事では

  • データの平均値
  • データの中央値
  • 平均値の性質と中央値の性質の大きな違い

について説明します.

データの要約

以下のような7人のテストの成績を考えます.

テストの成績
ABCDEFG
点数80728392677775

データの平均値

このとき,「このデータを要約してくれ」と言われたとき,多くの人がまず思い付くのは平均値ではないでしょうか?

平均値は点数の合計を人数で割った

   \begin{align*} \frac{80+72+83+92+67+77+75}{7} =78 \end{align*}

となりますね.

前後しますが,データが$n$個あるときの平均値は以下のように定義されていますね.

データ$x_1,\dots,x_n$の平均値 (mean)$\overline{x}$を

   \begin{align*} \overline{x} =\frac{x_1+x_2+\dots+x_n}{n} \bra{=\frac{1}{n}\sum_{k=1}^{n}x_k} \end{align*}

で定義する.

$\sum$は和を短く書くのに便利ですが,分からなければ書き並べて$\dfrac{x_1+\dots+x_n}{n}$と表しても何も問題ありません.

平均値はその名の通りデータを「平にならした値」ということができます.

イメージでは,以下のように等しく7つに仕切られた水槽に,高さが80mm, 72mm, 83mm, 92mm, 67mm, 77mm, 75mmになるように水を入れます.

Rendered by QuickLaTeX.com

このとき,仕切りをすべて取り去ったときの水の高さが平均値の78mmですね.

Rendered by QuickLaTeX.com

実際,水の量は仕切りを取る前と取った後で変わらないことから青い部分の面積は等しいので,データが$n$個の場合には均した値$\overline{x}$は

   \begin{align*} x_1+x_2+\dots+x_n=n\overline{x} \end{align*}

を満たすので,両辺を$n$で割って確かに先ほど定義した平均値に等しいことが分かりますね:

   \begin{align*} \overline{x}=\frac{x_1+x_2+\dots+x_n}{n} \end{align*}

データの中央値

平均値と並んで大切なデータを要約する値として大切なものに中央値があります.

中央値はその名の通り中央の値を指します.

テスト結果を小さい順に並べると

67点,72点,75点,77点,80点,83点,92点

となり,この中央の値は77点ですからテスト結果の中央値は77点となります.

いま具体的に考えた7人のテスト結果の場合には7は奇数なので「中央の値」が1つ決まります.

もし,データの数が偶数のときは「中央の2つの値の平均」を中央値として定義します.

たとえば,もう1人新たにテストを受けて85点だった場合,テスト結果は

67点,72点,75点,77点,80点,83点,85点,92点

となり,中央値は77点と80点の平均の78.5点となります.

一般に,以下のように中央値は定義されます.

データ$x_1,\dots,x_n$を小さい方から並べ直して$y_1,\dots,y_n$となったとする.このとき,$x_1,\dots,x_n$の中央値 (median)

  • $n$が奇数のときは$y_{\frac{n+1}{2}}$
  • $n$が偶数のときは$\dfrac{1}{2}(y_{\frac{n}{2}}+y_{\frac{n}{2}+1})$

で定義する.

たとえば

  • データが7個($n=7$)の場合には$\dfrac{n+1}{2}=4$なので,小さい方から4番目のデータが中央値
  • データが8個($n=8$)の場合には中央値は$\dfrac{n}{2}=4$, $\dfrac{n}{2}+1=5$なので,小さい方から4番目のデータと5番目のデータの平均が中央値

となりますから,上で考えた例の通りですね.

平均値と中央値の性質の違い

いま考えたデータの平均値や中央値のような,データを代表するような値を代表値 (representative value)基本統計量などいいます.

他にも最も多くの値をもつデータの値である最頻値 (mode)や,データの最大値最小値なども基本統計量です.

さて,この記事で説明する代表値は

  • 平均値
  • 中央値

に絞りますが,これらの性質の大きな違いは何でしょうか?

たとえば,先ほどから考えているテスト結果について,もし最高点92点をとったDさんがもし100点だったとしても中央値は77点のまま変化しませんね.

一方,このとき平均値は少し変化します.

もっと露骨に,最低点62点をとったEさんがもし0点だったとしても中央値はやはり変わりませんが,平均値は大きく下がります.

このように,平均値も中央値もデータの「真ん中の値」を表す数ではありますが,

  • 平均値は値の変化に弱い
  • 中央値は値の変化に強い

ということができますね.

次の記事では,データのばらつきを表す分散について説明します.

参考文献

改訂版 統計検定2級対応 統計学基礎

[日本統計学会 編/東京図書]

日本統計学会が実施する「統計検定」の2級の範囲に対応する教科書です.

統計検定2級は「大学基礎科目(学部1,2年程度)としての統計学の知識と問題解決能力」という位置付けであり,ある程度の数学的な処理能力が求められます.

そのため,統計検定2級を取得していると,一定以上の統計的なデータの扱い方を身に付けているという指標になります.

本書は

  1. データの記述と要約
  2. 確率と確率分布
  3. 統計的推定
  4. 統計的仮説検定
  5. 線形モデル分析
  6. その他の分析法-正規性の検討,適合度と独立性の$\chi^2$検定

の6章からなり,基礎的な統計的スキルを身につけることができます.

大学1,2年程度のレベルの内容なので,もし高校数学が怪しいようであれば,統計検定3級からの挑戦を検討しても良いでしょう.

なお,本書については,以下の記事で書評としてまとめています.

コメント