- 本記事は生成AIを用いて作成しています。内容の正確性には配慮していますが、保証はいたしかねますので、複数の情報源をご確認のうえ、ご判断ください。
【基礎 数学(数学B)】Module 6:統計的な推測(2) 正規分布
本モジュールの目的と構成
Module 5では、サイコロの目やコインの裏表といった、値が飛び飛びになる「離散型」の確率変数を扱うための言語と道具を学びました。しかし、私たちの身の回りにある多くの現象、例えば人の身長、製品の重さ、時間の経過などは、連続的な値をとりえます。本モジュールでは、この「連続型」の確率変数が織りなす世界を探求し、統計学の舞台を整数から実数全体へと拡張します。
この拡張に伴い、私たちは新しい概念「確率密度関数」を導入します。連続の世界では、特定の一点をとる確率はゼロになるため、確率はもはや「点」ではなく、ある区間にわたる「面積」として捉えられます。この新しい考え方の下で、私たちは確率分布の王とも呼ばれる、最も重要で美しい分布、正規分布(ガウス分布)と出会います。自然界から社会現象に至るまで、驚くほど多くの事象がこの「ベル型カーブ」に従うことが知られており、正規分布を理解することは、統計的な推測の核心に迫ることを意味します。
本モジュールの知的探求は、理論から実践、そして統計学の根幹をなす思想へと、以下のステップで進められます。
- 連続型確率変数の定義と確率密度関数: まず、連続的な値を扱うための新しいルールブック、「確率密度関数」を学びます。確率が「線」の高さではなく「面」の面積で定義されるという、パラダイムシフトを体験します。
- 正規分布(ガウス分布): 統計学の主役である正規分布の美しいベル型の形状と、その形を決定づける二つのパラメータ(平均と標準偏差)の役割を学びます。
- 標準正規分布と標準化: 無数に存在する正規分布を比較・計算可能にするための基準となる「標準正規分布」を導入します。あらゆる正規分布をこの基準に変換する「標準化」という万能の翻訳技術を習得します。
- 正規分布表の利用: 標準正規分布における確率(面積)を読み取るための正規分布表の使い方を、具体的な計算例を通して実践的にマスターします。
- 二項分布の正規近似: 試行回数が大きいとき、離散的な二項分布が連続的な正規分布に近似できるという、二つの世界の間の驚くべき繋がりを発見します。
- 様々な統計現象における正規分布の普遍性: なぜ正規分布はこれほどまでに普遍的に現れるのか?その背後にある数学的な理由と、それが持つ深い意味を探求します。
- 母集団と標本: ここから視点は、統計的推測の核心的なテーマ、「母集団」(知りたい対象の全体)と「標本」(手元にある部分的なデータ)の関係へと移ります。
- 無作為抽出: 部分から全体を正しく推測するための大前提となる、「偏りのない」標本をいかにして得るか、その黄金律である無作為抽出の重要性を学びます。
- 標本平均: 標本データから計算される最も重要な統計量である「標本平均」の性質を、確率変数として分析します。
- 標本平均の分布と中心極限定理: 最後に、統計学における最も強力で、奇跡的とも言える定理、「中心極限定理」と出会います。これは、母集団がどのような分布であっても、そこから得られる標本平均の分布は正規分布に近づくという驚くべき法則であり、部分的なデータから全体について科学的な推論を行うことを可能にする、理論的な支柱です。
このモジュールを修了したとき、皆さんは科学における最も重要な確率分布を自在に操る能力と、小さな標本から大きな母集団の真の姿を推測するための、統計的思考の根幹をなす偉大な定理を理解していることでしょう。
1. 連続型確率変数の定義と確率密度関数
1.1. 離散の世界から連続の世界へ
Module 5で扱った離散型確率変数は、サイコロの目のように「1, 2, 3, …」と、とりうる値が飛び飛びで数え上げられるものでした。しかし、身長や体重、時間といった量は、理論上は170cmと171cmの間にある任意の値(例えば170.512…cm)をとりえます。このような、ある区間内の任意の実数値をとりうる確率変数を連続型確率変数 (continuous random variable) と呼びます。
この「連続性」は、確率の考え方に根本的な変革をもたらします。離散型では「身長がちょうど170cmである確率」を考えることができましたが、連続型ではどうでしょうか。測定の精度を無限に高めていくと、身長が数学的に厳密に「170.0000…cm」である確率は、限りなく 0
に近づいてしまいます。
そこで、連続型確率変数の確率を考える際には、特定の値をとる確率ではなく、ある範囲(区間)に入る確率を考えるのが基本となります。
「身長が170cmである確率」→ P(X=170) = 0
「身長が169.5cm以上、170.5cm以下である確率」→ P(169.5 \le X \le 170.5) を考える。
1.2. 確率密度関数 (Probability Density Function)
連続型確率変数 X
の確率的な振る舞いを記述するために導入されるのが確率密度関数 (Probability Density Function, PDF) です。これは、f(x)
のように小文字で表されることが多いです。
確率密度関数 f(x)
は、確率そのものではありません。その関数のグラフ(分布曲線)を描いたとき、グラフと x
軸で囲まれた部分の面積が確率に対応します。
確率と面積の関係
連続型確率変数 X が a 以上 b 以下の値をとる確率は、分布曲線 y=f(x) と x 軸、そして2本の直線 x=a, x=b で囲まれた部分の面積に等しい。
\[ P(a \le X \le b) = \int_a^b f(x) dx \]
(高校数学では、この積分計算を直接行うことは稀で、主に正規分布表などを用いて面積を求めます。「確率とは面積である」という概念的な理解が重要です。)
1.3. 確率密度関数が満たすべき性質
ある関数 f(x)
が確率密度関数であるためには、確率分布と同様に、次の二つの基本的な性質を満たす必要があります。
- 関数の値は常に0以上:面積が負になることはないので、分布曲線が x 軸より下になることはありません。\[ f(x) \ge 0 \quad (\text{全ての } x \text{ について}) \]
- 全区間の面積は1:確率変数 X がとりうる値の全範囲にわたってグラフと x 軸で囲まれた部分の面積は、全事象の確率に対応するため、必ず 1 にならなければなりません。\[ \int_{-\infty}^{\infty} f(x) dx = 1 \]
例:一様分布
最も単純な連続型分布として、区間 [0, 2] の任意の値をとる確率が等しい確率変数を考えます。
この場合、確率密度関数 f(x) は、0 \le x \le 2 の範囲で一定の値 c をとり、それ以外の範囲では 0 となります。
全区間の面積が 1 になるためには、
(底辺の長さ) × (高さ) = 2 \times c = 1
より、c=1/2 でなければなりません。
よって、f(x) は
\[ f(x) = \begin{cases} 1/2 & (0 \le x \le 2) \ 0 & (\text{otherwise}) \end{cases} \]
となります。
]
この分布に従う確率変数 X が 0.5 と 1 の間の値をとる確率は、
P(0.5 \le X \le 1) = (底辺 1-0.5) × (高さ 1/2) = 0.5 \times 0.5 = 0.25
のように、面積(この場合は長方形)として計算できます。
この「確率 = 面積」という考え方は、次に学ぶ正規分布を理解するための基礎となります。
2. 正規分布(ガウス分布)
連続型確率分布の中で、最も重要で、自然界や社会現象において驚くほど普遍的に現れるのが正規分布 (normal distribution) です。その確率密度関数のグラフが、左右対称の美しい釣鐘状の曲線を描くことから、ベルカーブとも呼ばれます。また、その理論的基礎を築いた数学者ガウスにちなみ、ガウス分布 (Gaussian distribution) とも呼ばれます。
2.1. 正規分布を特徴づける二つのパラメータ
正規分布の形は、二つのパラメータによって完全に決定されます。
- 平均 (Mean) \(\mu\):分布の中心位置を決定します。グラフの対称軸の位置であり、最も確率密度が高くなる(最も出やすい)値です。\(\mu\) が変化すると、分布の形を変えずにグラフ全体が左右に平行移動します。
- 標準偏差 (Standard Deviation) \(\sigma\):分布の広がり具合(ばらつき)を決定します。\(\sigma\) が大きいほど、グラフの山は低く、裾野は広く広がります(データがばらついている)。\(\sigma\) が小さいほど、グラフの山は高く鋭く、データが平均 \(\mu\) の周りに集中します。(分散 \(\sigma^2\) で指定されることも多いです。)
確率変数 X
が平均 \(\mu\)、分散 \(\sigma^2\) の正規分布に従うことを、記号で \(X \sim N(\mu, \sigma^2)\) と表します。
上の図では、平均 \(\mu\) が異なると中心位置がずれ、標準偏差 \(\sigma\) が異なると山の鋭さが変わることが視覚的にわかります。
2.2. 正規分布の確率密度関数
正規分布の確率密度関数 f(x) は、次のような複雑な数式で与えられます。
\[ f(x) = \frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{(x-\mu)^2}{2\sigma^2}} \]
ここで、e はネイピア数(約2.718)、π は円周率です。
この式を暗記したり、これを使って積分計算をしたりする必要は一切ありません。
重要なのは、この式がパラメータ \(\mu\) と \(\sigma\) によって一意に定まり、そのグラフが左右対称のベル型になるという事実を理解することです。
2.3. 正規分布の重要な性質
- 対称性:グラフは直線 x=\mu に関して左右対称です。これにより、平均値と中央値(データを半分に分ける値)、最頻値(最も頻度が高い値)が全て一致します。
- 確率の目安(68-95-99.7ルール):正規分布に従うデータは、そのばらつき方に関して非常に便利な経験則が成り立ちます。
- 全データの約 68% は、平均からプラスマイナス1標準偏差の範囲 (\(\mu \pm \sigma\)) に含まれる。
- 全データの約 95% は、平均からプラスマイナス2標準偏差の範囲 (\(\mu \pm 2\sigma\)) に含まれる。
- 全データの約 99.7% は、平均からプラスマイナス3標準偏差の範囲 (\(\mu \pm 3\sigma\)) に含まれる。
このルールは、データのばらつきを直感的に把握するのに役立ちます。例えば、テストの点数が正規分布に従い、平均が60点、標準偏差が10点だった場合、受験者の約95%は 60 ± 2*10
すなわち40点から80点の間にいる、と大まかに推測できます。
- 無限の裾野:グラフは x 軸に限りなく近づきますが、決して交わることはありません。これは、理論上は平均からどれだけ離れた値でも、確率は 0 ではない(起こる可能性は極めて低いが、ありえないわけではない)ことを意味しています。
正規分布は、この後の統計的推測(推定や検定)の理論全体を支える、最も基本的な分布です。
3. 標準正規分布と標準化
正規分布は、平均 \(\mu\) と標準偏差 \(\sigma\) の組み合わせの数だけ、無数に存在します。これら一つ一つの分布について確率(面積)を計算するのは不可能です。そこで、全ての正規分布を扱うための基準となる、特別な正規分布を一つ定めます。それが標準正規分布 (standard normal distribution) です。
3.1. 標準正規分布とは
標準正規分布とは、正規分布の中でも特に平均が 0、標準偏差が 1 のものです。
\[ \mu=0, \quad \sigma=1 \quad (\text{分散 } \sigma^2=1) \]
標準正規分布に従う確率変数は、慣例的に Z で表されます。
記号で書けば、\(Z \sim N(0, 1)\) となります。
標準正規分布の確率密度関数 \(\phi(z)\) は、正規分布の一般式に \(\mu=0, \sigma=1\) を代入して、
\[ \phi(z) = \frac{1}{\sqrt{2\pi}} e^{-\frac{z^2}{2}} \]
となります。このグラフは y 軸(z=0)に関して対称なベルカーブです。
3.2. 標準化:あらゆる正規分布を標準形へ
あらゆる正規分布 \(N(\mu, \sigma^2)\) を、この唯一の標準正規分布 \(N(0, 1)\) に変換し、統一的に扱うための操作が標準化 (standardization) です。これは、Module 5で学んだ確率変数の一次変換の応用です。
確率変数 X が正規分布 \(N(\mu, \sigma^2)\) に従うとき、次の変換によって作られる新しい確率変数 Z は、標準正規分布 \(N(0, 1)\) に従います。
\[ Z = \frac{X – \mu}{\sigma} \]
(なぜこの変換で標準正規分布になるのか?)
これは、一次変換 Z = (1/\sigma)X – (\mu/\sigma) と見なせます。
E(Z) と V(Z) を計算してみましょう。
- 期待値:\( E(Z) = E\left(\frac{1}{\sigma}X – \frac{\mu}{\sigma}\right) = \frac{1}{\sigma}E(X) – \frac{\mu}{\sigma} = \frac{1}{\sigma}\mu – \frac{\mu}{\sigma} = 0 \)
- 分散:\( V(Z) = V\left(\frac{1}{\sigma}X – \frac{\mu}{\sigma}\right) = \left(\frac{1}{\sigma}\right)^2 V(X) = \frac{1}{\sigma^2} \cdot \sigma^2 = 1 \)期待値が 0、分散が 1 となり、確かに標準正規分布のパラメータと一致します。(X が正規分布に従うとき、その一次変換 aX+b もまた正規分布に従う、という性質があります。)
3.3. 標準化された値 Z
の意味
標準化された値 Z は、単なる計算上の道具ではありません。それは非常に重要な統計的意味を持っています。
Z の値は、「元の値 X が、その分布の平均 \(\mu\) から、標準偏差 \(\sigma\) いくつ分だけ離れているか」を示しています。
例:
あるテストの点数 X が、平均 \mu=60 点、標準偏差 \sigma=15 点の正規分布に従うとする。
- Aさんの点数が75点だった場合:\( Z = \frac{75-60}{15} = \frac{15}{15} = 1 \)Aさんの点数は、平均から +1標準偏差 だけ離れた位置にある。
- Bさんの点数が45点だった場合:\( Z = \frac{45-60}{15} = \frac{-15}{15} = -1 \)Bさんの点数は、平均から -1標準偏差 だけ離れた位置にある。
この Z スコア(標準得点や偏差値の元になる考え方)を用いることで、平均点や点数のばらつきが異なるテストの成績を、共通の尺度で比較することが可能になります。
例えば、別のテスト(平均70, 標準偏差5)で75点をとったCさんのZスコアは \( (75-70)/5 = 1 \) となり、Aさんと同じ相対的な位置にいることがわかります。
標準化は、個々の正規分布の「個性」(\(\mu, \sigma\))を取り除き、全てを共通の「ものさし」で測れるようにする、極めて強力な普遍化の技術なのです。
4. 正規分布表の利用
標準正規分布の確率(曲線の下の面積)は、その確率密度関数が複雑なため、手計算で積分することはできません。そこで、あらかじめコンピュータで計算された面積の値をまとめた標準正規分布表 (standard normal distribution table) を利用します。
4.1. 正規分布表の読み方
標準正規分布表にはいくつかの種類がありますが、日本の教科書で一般的なのは、標準正規分布に従う確率変数 Z
が 0
から z
までの値をとる確率 \(P(0 \le Z \le z)\) を与えるものです。
この確率は、分布曲線の z=0
(中心)から z
までの部分の面積に対応します。
表の見方:
表は通常、z の値を小数点第2位まで読み取れるようになっています。
z
の小数点第1位までを左端の列から探す。z
の小数点第2位を上端の行から探す。- その行と列が交差する場所にある数値が、求める確率(面積)です。
例: P(0 \le Z \le 1.96)
を求めたい場合
- 左の列から
1.9
を探す。 - 上の行から
.06
を探す。 - 1.9 の行と .06 の列が交わる場所の数値「.4750」を読み取る。よって、\(P(0 \le Z \le 1.96) = 0.4750\) となります。
4.2. 様々な区間の確率計算
正規分布表とグラフの対称性を利用することで、あらゆる区間の確率を計算することができます。
- 基本性質:
- 全体の面積は
1
。 z=0
を中心に左右対称なので、右半分の面積は0.5
、左半分の面積も0.5
。- \(P(Z \le -z) = P(Z \ge z)\)
- 全体の面積は
パターン1:\(P(Z \ge a)\) (a>0)
z 軸より右側全体の面積 0.5 から、0 から a までの面積を引く。
\( P(Z \ge a) = 0.5 – P(0 \le Z \le a) \)
パターン2:\(P(Z \le a)\) (a>0)
左半分の面積 0.5 に、0 から a までの面積を足す。
\( P(Z \le a) = 0.5 + P(0 \le Z \le a) \)
パターン3:\(P(Z \le -a)\) (a>0)
対称性を利用して、P(Z \ge a) と等しい。
\( P(Z \le -a) = P(Z \ge a) = 0.5 – P(0 \le Z \le a) \)
パターン4:\(P(a \le Z \le b)\) (a, b > 0)
0 から b までの面積から、0 から a までの面積を引く。
\( P(a \le Z \le b) = P(0 \le Z \le b) – P(0 \le Z \le a) \)
パターン5:\(P(-a \le Z \le b)\) (a, b > 0)
(-a, 0) の区間と (0, b) の区間に分ける。対称性より P(-a \le Z \le 0) = P(0 \le Z \le a)。
\( P(-a \le Z \le b) = P(-a \le Z \le 0) + P(0 \le Z \le b) = P(0 \le Z \le a) + P(0 \le Z \le b) \)
4.3. 一般の正規分布における確率計算
一般の正規分布 \(X \sim N(\mu, \sigma^2)\) の確率を求めるには、標準化と正規分布表の利用を組み合わせます。
計算ステップ
- 求めたい確率の範囲(例:\(P(x_1 \le X \le x_2)\))を、Z の範囲に変換(標準化)する。\[ P\left(\frac{x_1-\mu}{\sigma} \le \frac{X-\mu}{\sigma} \le \frac{x_2-\mu}{\sigma}\right) = P(z_1 \le Z \le z_2) \]
- 変換された
Z
の範囲の確率を、正規分布表を使って計算する。
ミニケーススタディ
問題: ある高校の生徒の身長 X は、平均 170cm, 標準偏差 5cm の正規分布 \(N(170, 5^2)\) に従う。この高校の生徒から無作為に1人選ぶとき、その生徒の身長が165cm以上180cm以下である確率を求めよ。
思考プロセス:
- 求める確率を式で書く:\( P(165 \le X \le 180) \)
- X を Z に標準化する:\( \mu=170, \sigma=5 \)
x=165
のとき: \( z = \frac{165-170}{5} = -1.0 \)- x=180 のとき: \( z = \frac{180-170}{5} = 2.0 \)よって、求める確率は \( P(-1.0 \le Z \le 2.0) \) に等しい。
- 正規分布表を使って確率を計算する:これはパターン5の形。\( P(-1.0 \le Z \le 2.0) = P(-1.0 \le Z \le 0) + P(0 \le Z \le 2.0) \)対称性より \( P(-1.0 \le Z \le 0) = P(0 \le Z \le 1.0) \)\( = P(0 \le Z \le 1.0) + P(0 \le Z \le 2.0) \)正規分布表から値を読み取る。
P(0 \le Z \le 1.00)
=0.3413
- P(0 \le Z \le 2.00) = 0.4772よって、確率は 0.3413 + 0.4772 = 0.8185
解答: 0.8185 (または 81.85%)
5. 二項分布の正規近似
離散型確率分布の代表である二項分布と、連続型確率分布の代表である正規分布。これら二つの分布は、一見すると全く異なる世界の住人のように思えます。しかし、二項分布の試行回数 n
が大きくなると、その姿は驚くほど正規分布に近づいていきます。この性質を利用したのが、二項分布の正規近似 (normal approximation to the binomial distribution) です。
5.1. なぜ近似が必要か
二項分布 \(B(n, p)\) の確率 \(P(X=k) = {}n\mathrm{C}k p^k (1-p)^{n-k}\) は、n が大きくなると計算が極めて困難になります。例えば、n=100, k=50 のときの \({}{100}\mathrm{C}{50}\) は天文学的な数値となり、手計算は不可能です。
このような場合に、計算が容易な正規分布で代用(近似)することができれば、非常に便利です。
5.2. 近似の様子
二項分布の確率を棒グラフで描くと、n
が大きくなるにつれて、その棒グラフの頂点を結んだ形が、正規分布の滑らかなベルカーブに似てくることが知られています。
[Image showing binomial histograms for increasing n overlaid with a normal curve]
この図は、p=0.5 の二項分布で n を大きくしていったときの様子です。n が大きくなるほど、棒グラフの包絡線がベルカーブに近づいていくのがわかります。
この近似がうまく機能するための経験的な目安として、次の条件がよく用いられます。
\(np \ge 5\) かつ \(n(1-p) \ge 5\)
期待される成功回数と失敗回数が、どちらも5回以上であれば、分布の歪みが十分に小さくなり、正規分布でうまく近似できるとされています。
5.3. 近似の方法
確率変数 X が二項分布 \(B(n, p)\) に従うとき、n が十分に大きければ、X は近似的に平均 \(\mu=np\)、分散 \(\sigma^2=np(1-p)\) の正規分布に従うと考えることができます。
\[ X \sim B(n,p) \quad \xrightarrow{n \to \large} \quad X \sim N(np, np(1-p)) \]
5.4. 連続性補正 (Continuity Correction)
ここで一つ、非常に重要な注意点があります。二項分布は離散型(X
は整数値しかとらない)であり、正規分布は連続型です。この「飛び飛び」と「なめらか」の間のギャップを埋めるための調整が必要となります。これが連続性補正です。
離散的な値 k の確率は、棒グラフでは k を中心とした幅 1 の長方形の面積と考えることができます。つまり、k-0.5 から k+0.5 までの区間に相当します。
したがって、離散的な確率を連続分布の面積で近似する際には、この 0.5 のズレを補正する必要があります。
- P(X=k):k という点を、区間 [k-0.5, k+0.5] として扱います。\[ P_B(X=k) \approx P_N(k-0.5 \le X \le k+0.5) \]
- P(X \le k):k 以下の整数(…, k-1, k)を含むので、区間は k+0.5 までとします。\[ P_B(X \le k) \approx P_N(X \le k+0.5) \]
- P(X \ge k):k 以上の整数(k, k+1, …)を含むので、区間は k-0.5 からとします。\[ P_B(X \ge k) \approx P_N(X \ge k-0.5) \]
5.5. 計算例
問題:
1枚の公正なコインを400回投げるとき、表が出る回数が210回以上220回以下である確率を求めよ。
思考プロセス:
- モデルの特定:表が出る回数 X は、二項分布 \(B(400, 0.5)\) に従う。n=400, p=0.5。
- 正規近似の妥当性を確認:np = 400 \times 0.5 = 200n(1-p) = 400 \times 0.5 = 200どちらも 5 より十分大きいので、正規近似は妥当である。
- 近似する正規分布のパラメータを計算:
- 平均: \(\mu = np = 200\)
- 分散: \(\sigma^2 = np(1-p) = 200 \times 0.5 = 100\)
- 標準偏差: \(\sigma = \sqrt{100} = 10\)よって、X は近似的に正規分布 \(N(200, 10^2)\) に従う。
- 確率の範囲を連続性補正する:求める確率は \(P(210 \le X \le 220)\)。離散変数 X が 210 から 220 までの整数値をとることに対応する連続区間は、\( [210-0.5, 220+0.5] = [209.5, 220.5] \)よって、\( P(209.5 \le X \le 220.5) \) を計算する。
- 標準化して確率を求める:
x=209.5
のとき: \( z = \frac{209.5-200}{10} = 0.95 \)- x=220.5 のとき: \( z = \frac{220.5-200}{10} = 2.05 \)求める確率は \( P(0.95 \le Z \le 2.05) \)。\( = P(0 \le Z \le 2.05) – P(0 \le Z \le 0.95) \)正規分布表より、\( = 0.4798 – 0.3289 = 0.1509 \)
解答: 約 0.1509
二項分布の正規近似は、離散と連続という二つの大きな数学的世界を結びつけ、計算が困難な問題を解決するための強力な橋渡しとなる理論です。
6. 様々な統計現象における正規分布の普遍性
正規分布の学習を進める中で、自然と次のような疑問が湧いてくるはずです。「なぜ、この特定の釣鐘型の分布が、これほどまでに多くの場面で登場するのか?」「身長、知能指数、測定誤差など、互いに無関係に見える現象が、なぜ同じ正規分布というパターンに従うのか?」
この正規分布の普遍性 (universality) は、単なる偶然ではありません。その背後には、中心極限定理という、確率論における最も深く、強力な定理が存在します。
6.1. 正規分布に従う現象の例
まず、正規分布が現実世界でいかにありふれたものであるか、その例を見てみましょう。
- 生物学的測定値:同じ種に属する生物の、身長、体重、血圧、葉の長さといった多くの測定値は、正規分布に非常によく従います。
- 工業製品のばらつき:工場で大量生産される製品(ネジの長さ、抵抗値など)の品質には、わずかなばらつきが生じます。このばらつきは、多くの場合、正規分布でモデル化されます。
- 測定誤差:同じ量を何度も精密に測定すると、測定値は真の値の周りにばらつきます。この測定誤差の分布は、古くから正規分布に従うことが知られており、誤差分布とも呼ばれます。
- テストのスコア:多数の受験者がいる試験の得点分布は、しばしば正規分布に近い形になります。知能指数(IQ)も、平均が100、標準偏差が15になるように正規分布を用いて定義されています。
- 金融市場:株価の日々の収益率(変化率)の分布は、完全ではないものの、正規分布に似た性質を示すことがあります。
6.2. 普遍性の背後にある数学的理由:中心極限定理
これらの多様な現象の背後に共通して潜んでいる構造を説明するのが、中心極限定理 (Central Limit Theorem, CLT) です。(この定理の詳細はセクション10で学びます)
中心極限定理の主張を、ごく簡単に言うと次のようになります。
「多数の、互いに独立な確率的要因が、足し合わされて生み出されるような現象は、個々の要因がどのような確率分布に従っていようとも、全体として正規分布に近づく」
この定理は、まさに魔法のような主張です。
- 身長: ある人の身長は、遺伝的な要因(多数の遺伝子の効果の和)、栄養状態、生活習慣など、無数の小さな要因が足し合わされて決まります。個々の要因の分布は不明でも、その総和である身長は正規分布に近づきます。
- 測定誤差: 測定誤差も、測定機器の微細な振動、空気の揺らぎ、読み取りの際の微小なズレなど、無数の独立した小さな誤差の和として生じます。したがって、測定誤差は正規分布に従います。
- 製品のばらつき: 製造工程における、原材料の不均一性、機械の微細な動作のズレ、温度・湿度のわずかな変化など、多数の要因の和が、最終的な製品の寸法のばらつきとなって現れます。
このように、多くの自然現象や社会現象が「多数の独立な要因の和(または平均)」という共通の構造を持っていることが、正規分布が普遍的に現れる理由なのです。
6.3. 正規分布の重要性
この普遍性により、正規分布は統計的推測において中心的な役割を担います。
未知の現象を分析する際、その現象が多数の要因の和で成り立っていると考えられるならば、まず第一の近似として正規分布を仮定することができます。この仮定を置くことで、私たちは強力な数学的ツールを用いて、データの背後にあるメカニズムを推測したり、未来を予測したりすることが可能になります。
正規分布は、混沌として見えるランダムな世界の中に潜む、一つの美しい秩序の形を示しています。そして、その秩序の根源が中心極限定理にあることを理解することは、統計的思考の核心に触れることに他なりません。
7. 母集団と標本
ここから、統計学の主目的である「推測」の世界へと本格的に入っていきます。推測とは、手元にある部分的な情報から、その背後にある全体像を推し量る知的活動です。この活動を科学的に行うために、統計学では「母集団」と「標本」という二つの重要な概念を明確に区別します。
7.1. 母集団 (Population)
母集団とは、調査や研究の対象となる全ての要素の集合のことです。私たちが本当に知りたいのは、この母集団全体の性質です。
母集団の例:
- 日本の有権者全体の支持政党: 母集団は、日本の有権者全員。
- ある工場で今日生産された全ての電球の寿命: 母集団は、今日生産された全電球。
- ある薬の治療効果: 母集団は、その薬を服用する可能性のある全ての患者。
母集団の大きさ(要素の数)は、非常に大きいか、あるいは無限であることもあります。そのため、母集団の全ての要素を調査する**全数調査(国勢調査など)**は、時間的・費用的に不可能であることがほとんどです。
母集団の性質は、母数 (parameter) と呼ばれる特定の数値で要約されます。
- 母平均 (population mean) \(\mu\): 母集団全体の平均値。
- 母分散 (population variance) \(\sigma^2\): 母集団全体の分散。
- 母比率 (population proportion)
p
: 母集団全体の中で、ある特定の性質を持つ要素の割合。
これらの母数(\(\mu, \sigma^2, p\))は、私たちが知りたい真の値ですが、通常は未知です。
7.2. 標本 (Sample)
母集団全体を調査することができないため、私たちは母集団から一部の要素を抜き出して調査を行います。この抜き出された要素の集合が標本(またはサンプル)です。
標本の例:
- 全国の有権者から無作為に選ばれた1000人の支持政党: 標本は、選ばれた1000人の有権者。
- 生産ラインから1時間ごとに抜き取られた5個の電球の寿命: 標本は、抜き取られた電球。
- 臨床試験に参加した100人の患者の回復データ: 標本は、参加した100人の患者。
標本から得られたデータを用いて計算される要約値が、統計量 (statistic) です。
- 標本平均 (sample mean) \(\bar{x}\): 標本のデータの平均値。
- 標本分散 (sample variance) \(s^2\): 標本のデータの分散。
- 標本比率 (sample proportion) \(\hat{p}\): 標本の中で、ある性質を持つ要素の割合。
これらの統計量は、あくまで標本から計算された既知の値であり、これ自体が母数を完全に表しているわけではありません。もし別の標本を抽出すれば、統計量の値は変動します。
7.3. 統計的推測の基本構造
統計的推測の目的は、観測可能(既知)な統計量(\(\bar{x}, s^2, \hat{p}\)など)を手がかりにして、観測不可能(未知)な母数(\(\mu, \sigma^2, p\)など)の値を推測することです。
この「部分から全体へ」という推論の橋渡しをするのが、確率論、特に本モジュールで学んでいる確率分布の理論です。
母集団から標本を無作為に抽出するという手続きを通じて、統計量がどのような確率分布に従うのかを理論的に導き、その性質を利用して母数に関する結論の「確からしさ」を評価する。これが統計的推測の基本的なロジックです。
母集団と標本。この二つの概念を明確に区別し、自分が今扱っている数値がどちらの世界に属するもの(未知の母数か、既知の統計量か)を常に意識することが、統計学を学ぶ上での第一歩となります。
8. 無作為抽出
統計的推測の目的は、標本から母集団の性質を正しく推し量ることです。この推測が妥当であるためには、大前提として、手元にある標本が母集団の姿を偏りなく反映した「良い縮図」でなければなりません。標本に偏り(バイアス)があれば、そこから得られる結論もまた、歪んだものになってしまいます。
この「良い標本」を得るための唯一の科学的な方法が、無作為抽出 (random sampling) です。
8.1. なぜ無作為抽出が必要か
例えば、ある大学の学生の平均勉強時間を知りたいとします。
- 悪い標本の例1(都合の良い場所で調査):図書館で熱心に勉強している学生だけを捕まえて調査した場合、得られる平均勉強時間は、大学全体の真の平均時間よりも過大に評価されるでしょう。
- 悪い標本の例2(自己選択バイアス):「勉強時間に関するアンケートにご協力ください」と掲示し、自主的に回答してくれた学生のデータだけを集計した場合、勉強に関心のある学生や、勉強時間が長い(または短い)ことをアピールしたい学生が多く集まり、偏った結果になる可能性があります。
このように、抽出の過程に何らかの意図や利便性が入り込むと、標本は母集団の縮図としての資格を失います。
無作為抽出は、このような偏りを排除し、標本が母集団を代表することを確率的に保証するための手続きです。
8.2. 無作為抽出の定義
無作為抽出とは、母集団の全ての要素が、等しい確率で標本に選ばれるように抽出を行う方法です。
これは、くじ引きのように、誰が選ばれるかが完全に偶然によってのみ決まる状態を意味します。
この手続きによって得られた n
個の要素からなる標本 \(X_1, X_2, \dots, X_n\) は、確率論的には次の重要な性質を持つと見なされます。
- 同一分布:各 \(X_i\) は、母集団の確率分布(母分布)に従う。つまり、どの要素も同じ確率法則から生まれてきたと考える。
- 独立性:ある要素 \(X_i\) が標本に選ばれたという事実が、他の要素 \(X_j\) が選ばれる確率に影響を与えない。つまり、各 \(X_i\) は互いに独立である。
この「独立に、同一の分布に従う (independent and identically distributed, i.i.d.)」という性質が、標本に数学的な分析を施す上での理論的な基盤となります。
8.3. 無作為抽出の実現方法
実際の調査では、どのようにして無作為抽出を実現するのでしょうか。
- 単純無作為抽出法:母集団の全ての要素に通し番号をつけたリスト(サンプリングフレーム)を用意し、そこから乱数を用いて、必要な数だけ無作為に番号を選ぶ方法。乱数賽やコンピュータの乱数生成機能が使われます。これが最も基本的な無作為抽出です。
- 系統抽出法:通し番号のリストから、最初の1つを無作為に選び、あとは一定の間隔(例えば100番ごと)で要素を選んでいく方法。リストに周期性がなければ、単純無作為抽出の近似として利用できます。
- 層化抽出法:母集団を、あらかじめいくつかの部分集団(層、例えば年代別や地域別)に分けておき、各層の中から無作為抽出を行う方法。母集団の構成比に合わせて標本を抽出することで、より精度の高い推測が可能になります。
どの方法を用いるにせよ、抽出プロセスから人為的な選択を排除し、確率のメカニズムに選択を委ねるという思想が根底にあります。
無作為抽出は、統計的推測という建物を支える、最も重要な土台です。この土台がしっかりして初めて、その上に建てられる推定や検定といった理論が意味を持つことを、心に留めておく必要があります。
9. 標本平均
母集団から無作為抽出によって標本 \((X_1, X_2, \dots, X_n)\) を得たとき、私たちが最も関心を持つ統計量の一つが、その標本の平均値、すなわち標本平均 (sample mean) です。標本平均は、未知である母平均 \(\mu\) を推測するための、最も自然で強力な手がかりとなります。
9.1. 標本平均の定義
大きさ n の標本 \(X_1, X_2, \dots, X_n\) に対して、標本平均は記号 \(\bar{X}\) (エックスバー) で表され、次のように定義されます。
\[ \bar{X} = \frac{X_1 + X_2 + \dots + X_n}{n} = \frac{1}{n} \sum_{i=1}^{n} X_i \]
これは、私たちが日常的に使う算術平均の計算と全く同じです。
9.2. 標本平均の確率変数としての性質
ここで極めて重要なのは、標本平均 \(\bar{X}\) もまた、一つの確率変数であると捉えることです。
なぜなら、もし私たちが標本抽出をもう一度やり直せば、異なるメンバーが選ばれ、\(\bar{X}\) の値も前回とは違う値になる可能性があるからです。標本抽出という試行の結果として値が決まるので、\(\bar{X}\) は確率変数なのです。
確率変数である以上、\(\bar{X}\) にも期待値と分散が存在します。これらは、母集団の平均 \(\mu\) と分散 \(\sigma^2\) を用いて、次のように表すことができます。
9.2.1. 標本平均の期待値
標本平均 \(\bar{X}\) の期待値 \(E(\bar{X})\) を計算してみましょう。
標本 \(X_1, \dots, X_n\) は、母平均 \(\mu\) の母集団からの無作為抽出なので、各 \(X_i\) の期待値は全て \(E(X_i) = \mu\) です。
期待値の線形性を用いると、
\[ E(\bar{X}) = E\left( \frac{1}{n} \sum_{i=1}^{n} X_i \right) = \frac{1}{n} E\left( \sum_{i=1}^{n} X_i \right) \]
和の期待値は期待値の和なので、
\[ = \frac{1}{n} \sum_{i=1}^{n} E(X_i) = \frac{1}{n} \sum_{i=1}^{n} \mu = \frac{1}{n} (n\mu) = \mu \]
標本平均の期待値
\[ E(\bar{X}) = \mu \]
この結果は、「標本平均 \(\bar{X}\) は、平均すると、母平均 \(\mu\) に一致する」ということを意味しています。つまり、\(\bar{X}\) は母平均 \(\mu\) を推測する上で、偏りのない (unbiased) 良い推定量であると言えます。
9.2.2. 標本平均の分散
次に、標本平均 \(\bar{X}\) の分散 \(V(\bar{X})\) を計算します。
無作為抽出では、各 \(X_i\) は互いに独立であると仮定します。また、各 \(X_i\) の分散は母分散 \(\sigma^2\) に等しいです。
一次変換の分散の公式 \(V(aX) = a^2V(X)\) と、独立な確率変数の和の分散の公式を用いると、
\[ V(\bar{X}) = V\left( \frac{1}{n} \sum_{i=1}^{n} X_i \right) = \left(\frac{1}{n}\right)^2 V\left( \sum_{i=1}^{n} X_i \right) \]
\(X_i\) は互いに独立なので、
\[ = \frac{1}{n^2} \sum_{i=1}^{n} V(X_i) = \frac{1}{n^2} \sum_{i=1}^{n} \sigma^2 = \frac{1}{n^2} (n\sigma^2) = \frac{\sigma^2}{n} \]
標本平均の分散
\[ V(\bar{X}) = \frac{\sigma^2}{n} \]
標本平均の標準偏差
\[ \sigma(\bar{X}) = \sqrt{\frac{\sigma^2}{n}} = \frac{\sigma}{\sqrt{n}} \]
9.3. 標本サイズ n
がもたらす効果
標本平均の分散に関するこの公式は、統計学において最も重要な洞察の一つを与えてくれます。
\[ V(\bar{X}) = \frac{\sigma^2}{n} \]
この式は、「標本平均のばらつきは、標本サイズ n が大きくなるほど、小さくなる」ことを示しています。
標本サイズ n を4倍にすれば、標本平均の標準偏差は \(1/\sqrt{4} = 1/2\) 倍になり、ばらつきは半分になります。n を100倍にすれば、標準偏差は 1/10 になります。
これは、標本サイズ n
を大きくすればするほど、標本平均 \(\bar{X}\) が母平均 \(\mu\) の周りのより狭い範囲に密集してくることを意味し、\(\bar{X}\) の信頼性が増すことを示しています。
この性質があるからこそ、私たちはより多くのデータを集めることで、より精度の高い推測を行うことができるのです。標本平均のこの振る舞いは、次に学ぶ中心極限定理の基礎となります。
10. 標本平均の分布と中心極限定理
私たちは、標本平均 \(\bar{X}\) が確率変数であり、その期待値が \(\mu\)、分散が \(\sigma^2/n\) であることを学びました。しかし、統計的推測を実際に行うためには、\(\bar{X}\) の期待値と分散だけでなく、\(\bar{X}\) がどのような確率分布に従うのかを知る必要があります。この問いに答えるのが、統計学の理論の頂点に立つ中心極限定理 (Central Limit Theorem, CLT) です。
10.1. 母集団が正規分布の場合
まず、最も単純なケースを考えましょう。
もし、調査対象の母集団そのものが、正規分布 \(N(\mu, \sigma^2)\) に従っていることが分かっている場合(例えば、身長など)、そこから抽出された標本平均 \(\bar{X}\) の分布は、正確に正規分布になります。
母集団が正規分布の場合の標本平均の分布
母集団が \(N(\mu, \sigma^2)\) に従うとき、標本平均 \(\bar{X}\) は、
\[ \bar{X} \sim N\left(\mu, \frac{\sigma^2}{n}\right) \]
に従う。
これは、正規分布に従う独立な確率変数の和もまた正規分布に従う、という正規分布の再生性という性質に基づいています。
10.2. 母集団が正規分布でない場合:中心極限定理
では、母集団が正規分布に従っていない場合、例えば一様分布や、歪んだ形の分布である場合、標本平均 \(\bar{X}\) の分布はどうなるのでしょうか。
ここで、奇跡とも言える驚くべき定理が登場します。
中心極限定理 (Central Limit Theorem)
平均 \(\mu\)、分散 \(\sigma^2\) を持つ任意の母集団(正規分布でなくてもよい)から、大きさ n の標本を無作為抽出するとき、
標本サイズ n が十分に大きいならば、標本平均 \(\bar{X}\) の分布は、近似的に正規分布 \(N\left(\mu, \frac{\sigma^2}{n}\right)\) に従う。
[Image showing sample mean distributions from a non-normal population for increasing n]
この図は、非常に歪んだ母集団(例えばサイコロ1個の出目のような一様分布)から標本を抽出したときの標本平均の分布を示しています。
n=1
のときは、母集団と同じ形です。n=2
になると、少し山なりの形が現れます。n
が大きくなるにつれて(例えばn=30
)、その分布は驚くほど美しい正規分布のベルカーブに近づいていくことがわかります。
「n
が十分に大きい」の目安は、慣例的に n \ge 30
とされることが多いです。
10.3. 中心極限定理の絶大な威力と意義
中心極限定理は、統計的推測の理論全体を支える、最も重要な基盤です。その威力は計り知れません。
- 普遍性:母集団の分布がどのような形であっても(サイコロの目のような一様分布でも、所得分布のような歪んだ分布でも)、標本平均の分布は正規分布という、私たちがよく知る扱いやすい分布で近似できることを保証します。これにより、母集団の形を仮定することなく、広範な問題に対して統計的推測を適用することが可能になります。
- 正規分布の重要性の根拠:セクション6で議論した「なぜ正規分布は普遍的に現れるのか」という問いに対する、最も強力な答えがこの定理です。多くの自然現象が「多数の独立な要因の和(平均)」として現れるため、それらの現象自体が正規分布に従うのです。
- 推測の理論的支柱:未知の母平均 \(\mu\) を推測したいとき、私たちは標本平均 \(\bar{X}\) を計算します。中心極限定理によれば、この \(\bar{X}\) が正規分布 \(N(\mu, \sigma^2/n)\) に従うことが分かっているので、\(\bar{X}\) が \(\mu\) からどの程度離れた値をとるかの確率を計算できます。この確率計算に基づいて、「観測された \(\bar{X}\) の値から逆算して、未知の \(\mu\) は、おそらくこの範囲にあるだろう」と推測する(区間推定)ことや、「母平均が特定の値であるという仮説は、観測された \(\bar{X}\) の値と照らし合わせて、果たして妥当と言えるだろうか」と判断する(仮説検定)ことが可能になります。
中心極限定理は、部分的な標本の情報と、母集団全体の真の姿とを結びつける、論理的な橋渡しです。この定理があるからこそ、私たちは手元のデータに基づいて、科学的根拠のある推論を行うことができるのです。この後のモジュールで学ぶ推定や検定の理論は、全てこの偉大な定理の上に成り立っています。
Module 6:統計的な推測(2) 正規分布の総括:偶然の世界の普遍的法則
本モジュールでは、私たちの分析の舞台を、整数という離散的な世界から、身長や時間といった連続的な実数の世界へと大きく広げました。この移行は、「確率」の概念を、点の上の「高さ」から曲線の下の「面積」へと捉え直す、思考のパラダイムシフトを要求しました。そして、この連続的な確率の世界で、私たちはその主役である「正規分布」と出会いました。その美しい釣鐘型の曲線は、多くの自然現象や社会現象の背後に潜む、共通のパターンを表現しています。
私たちは、この正規分布を特徴づける二つのパラメータ、平均μ
と標準偏差σ
の役割を学び、さらに「標準化」という強力な翻訳技術を習得しました。この技術によって、無数に存在する正規分布を、たった一つの「標準正規分布」という基準に統一し、正規分布表を用いてあらゆる確率計算を可能にしたのです。これは、多様で複雑な問題を、単一のシンプルな基準で解決するという、科学における強力な問題解決のアプローチそのものです。
モジュールの後半では、統計的推測の核心へと踏み込みました。「母集団」という知りたい対象の全体と、我々が手にできる唯一の情報である「標本」とを明確に区別し、両者を結びつける論理の架け橋を求めました。その答えこそが、統計学の金字塔である「中心極限定理」です。この定理は、母集団がどのような奇妙な形をしていようとも、そこから取り出された標本平均の分布は、標本の大きさが十分であれば、必ず正規分布という美しい秩序に従うことを保証してくれます。
この中心極限定理という奇跡的な法則こそが、私たちの推測に科学的な信頼性を与える理論的な支柱です。標本平均が正規分布に従うという確固たる事実があるからこそ、私たちは次のモジュールで、未知の母数に対する「推定」や「検定」を、確率的な根拠を持って行うことができるのです。本モジュールで得た知見は、データから真実を読み解く、統計的推測の本格的な旅の始まりを告げるものです。