【SPONSORED LINK】

統計学一覧

統計学の基礎4|「相関係数」は相関の強さを表す統計量

たとえば,2種類の対応するデータ

  • 勉強時間
  • テストの点数

を考えたとき,勉強時間が長いほどテストの点数が高くなる傾向はありそうです.

このように,「一方のデータの値が大きいときに他方のデータの値も大きいこと」を正の相関があるといい,逆に,「一方のデータの値が大きいときに他方のデータの値は小さいこと」を負の相関があるというのでした.

これらについて,前回の記事

  • 2種類の対応するデータの相関とは何か
  • 相関の正負を判断できる共分散とは何か

を説明しました.

共分散は相関の正負は判断できるものの,どれくらい強い相関があるのかまでは分かりません.

そこで,相関の強さを測る統計量が欲しいわけですが,それがこの記事で説明する相関係数です.

この記事では

  • 相関の強さとは何か
  • 相関係数とは何か

を説明します.

続きを読む


統計学の基礎3|「共分散」は「相関」の正負を表す統計量

前々回の記事ではデータを要約する代表値として平均値中央値を説明し,前回の記事ではデータのばらつきを表す分散を説明しました.

これら前回,前々回の記事で扱った平均値,中央値,分散は,例えば「テストの成績」のように1種類のデータに関するものでした.

この記事では

  • 勉強時間
  • テストの成績

のように2種類の関係するデータを扱います.

「勉強時間」が長いほど「テストの成績」は高いことは予想できますが,この関係を数値を用いて表すために共分散相関係数といった統計量を用います.

また,2種類の関係するデータは$xy$平面上に点で表すことができ,このようにしてできる図を散布図といいます.

長くなってしまうので相関係数は次の記事に説明するとして,この記事では

  • 「相関」とは何か?
  • 「共分散」とは何か?

を説明します.

続きを読む


統計学の基礎2|データのばらつきを表す「分散」のイメージ

テストの点数など幾つかのデータがあるとき,平均値がデータの中心を表す量としてよく扱われますが,場合によっては平均値がデータの実態を適切に表していないことがあります.

前回の記事で説明したように,これは平均が外れ値に大きく影響し得ることが原因です.

例えば,日本成人の年収を考えたとき,一部の高所得者がいることで平均年収が高く吊り上げられてしまい,年収の中央値と平均年収に大きな差が出ます.

さて,外れ値がたくさんあるデータは「データがばらついている」ということができます.

このデータのばらつきを表す指標として分散標準偏差があります.

この記事では,

  • データの分散のイメージ
  • データの分散の定義
  • データの標準偏差の定義とイメージ

を説明します.

続きを読む


統計学の基礎1|データを要約する代表値(平均値・中央値)

統計学 (statistics)は実用的な数学の分野として,社会的になくてはならないものとなっています.

身近な例では,選挙があるたびにニュースで流れる選挙速報で,まだそれほど開票されていないにもかかわらず「当選確実」と断言してしまえるのは,統計学があってのものです.

他の例では,「治療で用いられる薬が本当に効果があるのかどうか」というのも,統計学を用いて「効く」という確固たる根拠が示されて初めて使える薬として認められます.

このように,実は統計学は身近に,そして広く応用されている数学の1つということができます.

さて,統計学はテストの成績,アンケート結果,薬の効果などの「データの集まりを処理するための数学」です.

データの集まりを大雑把に見るときには,データの平均値を考えることがよくありますが,実は平均値がデータを適切に表さないことがあります.

そのような場合にはデータの中央値を考えることが効果的であることもよくあります.

この記事では

  • データの平均値
  • データの中央値
  • 平均値の性質と中央値の性質の大きな違い

について説明します.

続きを読む


最小二乗法から求めた回帰直線の性質と決定係数の意味

例えば「気温」と「アイスの売り上げ」のような2つのデータの関係を散布図に表し,その関係を「それっぽい直線や曲線」で表すことを回帰分析というのでした.

この回帰分析における「それっぽい直線」のことを回帰直線といい,回帰直線を求める際には最小二乗法がよく用いられます.

この最小二乗法を用いた回帰直線の求め方については以前の記事で説明しました.

最小二乗法を使えば回帰直線は求まりますが,元のデータに相関がなければ回帰直線を求める意義がなくなってしまいます.

そこで,回帰直線がどの程度適切にデータを表せているのかの指標となる決定係数があります.

決定係数を説明するために,回帰直線が満たす性質を説明する必要があるので,この記事では

  • 回帰直線が満たす性質
  • 決定係数とは何か

を順に説明します.

続きを読む


不偏分散ってなに?|不偏推定量を考え方から理解する

例えば「日本人全体の平均」などを考えたいとしても,日本人全員にアンケートをとることは現実的には不可能ですが,無作為にアンケートをとって大まかに実態を推測することは可能です.

標本から推測を行う場合には,不偏推定量の概念が重要な場合があります.

不偏推定量は母集団の統計量の「良い」推測ができる標本の統計量の1つです.

とくに,分散の不偏推定量は不偏分散として計算でき,この不偏分散はなんだかよく分からないものとして敬遠されがちなものです.

この記事では,不偏推定量の考え方を説明し

  • 平均の不偏推定量
  • 分散の不偏推定量

を考えます.

続きを読む


擬相関を見破る「偏相関係数」の考え方!回帰直線から導出

1日の「プールの利用者数」と「アイスの売り上げ」を記録すると,これらには正の相関があります.

しかし,「プールの利用者数が多くなるからアイスの売り上げが上がる」わけではないし,逆に「アイスの売り上げが上がるからプールの利用者数が多くなる」わけでもありません.

このように,相関とは「片方が大きいときに他方も大きいかどうか」を考えるものなので,因果関係までは分かりません.

さて,「プールの利用者数」と「アイスの売り上げ」を変化させる原因としては「気温」が挙げられます.

この「プールの利用者数」と「アイスの売り上げ」のように,因果関係がないのに相関があることを擬相関といいます.

よって,「気温」の変化による「プールの利用者数」と「アイスの売り上げ」の影響を除いたものの相関を考えると,相関関係は見られないのではないかと予想ができます.

このように,ある特定の影響を除いて考える相関係数のことを偏相関係数といいます.

この記事では

  • 偏相関係数の考え方
  • 導出法

を説明します.

続きを読む


回帰分析の目的|最小二乗法から回帰直線を求める方法

例えば,「気温」と「アイスの売り上げ」のような相関のある2つのデータを考えるとき,集めたデータを散布図を描いて視覚的に考えることはよくありますね.

「気温」と「アイスの売り上げ」の場合には,散布図から分かりやすく「気温が高いほどアイスの売り上げが良い(正の相関がある)」ことは見てとれるでしょうが,パッと見て相関が分かりにくい場合も当然あります.

そこで,相関を散布図の上に視覚的に表現するための方法として,回帰分析という方法があります.

回帰分析を用いると,2つのデータの相関関係をグラフとして視覚的に捉えることができ,相関関係を捉えやすくなります.

回帰分析の中で最も基本的なものに,回帰直線を描くための最小二乗法があります.

この記事では,最小二乗法の考え方を説明し,回帰直線を求めます.

続きを読む


最尤推定法の考え方|データから分布を推定する方法

何らかの全国規模の調査を行いたいとき,対象者全員に調査することができれば最もよいですが,それは時間やコストなどの面から現実的ではありません.

ですから,対象者の一部に調査を行い,そこで得られたデータから対象者全員の分布を推測することになります.

その推測の方法は色々ありますが,その1つに最尤推定法というものがあり,名前の通り「最もそれっぽい分布を推定する方法」です.

「最尤推定法」という名前を聞くといかめしい印象を受けますが,(実際の計算はともかく)実は考え方はシンプルでそれほど難しいものではありません.

この記事では,最尤推定法の考え方を説明し,最尤推定法の使い方をみます.

続きを読む


記事一覧は

こちら

Twitterを

フォロー

大学院入試

解答例

大学受験

解説ブログ