【基礎 数学(数学B)】Module 5:統計的な推測(1) 確率変数と確率分布

当ページのリンクには広告が含まれています。
  • 本記事は生成AIを用いて作成しています。内容の正確性には配慮していますが、保証はいたしかねますので、複数の情報源をご確認のうえ、ご判断ください。

本モジュールの目的と構成

これまでの数学の学習、特に数学Aで扱った「場合の数と確率」では、私たちは個々の「事象」が起こる確率、例えば「サイコロを3回振って1の目が2回出る確率」などを計算する技術を学びました。それは、特定の出来事に焦点を当てた、いわばミクロな視点での分析でした。しかし、偶然性が支配する現象の全体像を体系的に理解するためには、よりマクロで構造的な視点が必要となります。

本モジュールから始まる「統計的な推測」の分野は、そのための強力な知的フレームワークを提供します。その第一歩として、私たちは偶然の結果を「数値」に対応させる確率変数という新しい言語を導入します。これにより、「サイコロの目」や「コインの裏表」といった具体的な事象を、四則演算や関数の概念が適用できる抽象的な変数へと変換し、数学的な分析の土俵に乗せることが可能になります。確率変数は、不確実な現象と数学の世界とを繋ぐ、決定的に重要な架け橋です。

この新しい言語を手に、私たちは偶然性の世界を体系的に探求する旅に出ます。その旅は、以下のステップで構成されます。

  1. 確率変数の定義(離散型、連続型): まず、確率論の基本言語である「確率変数」を定義し、その値が飛び飛びであるか連続的であるかによって二つのタイプに分類します。
  2. 離散型確率変数の確率分布: 確率変数がとりうる各値と、その値をとる確率の対応関係を示した「確率分布」を学びます。これは、ランダムな現象の全体像を記述する設計図に相当します。
  3. 期待値(平均)の計算とその性質: 確率分布の中心的な位置を示す代表値、「期待値」を導入します。これは、試行を無限に繰り返したときに得られるであろう値の平均を理論的に予測するものです。
  4. 分散・標準偏差の計算とその性質: 確率分布がその期待値の周りにどの程度広がっているか、その「ばらつき」の度合いを測る指標である「分散」と「標準偏差」を学びます。
  5. 確率変数の変換(一次式)と期待値・分散: 確率変数を線形変換(\(aX+b\))したときに、期待値や分散がどのように変化するか、その美しい法則性を探求します。
  6. 同時確率分布: 視点を一つの確率変数から二つへと広げ、二つの確率変数が同時にどのような値をとるかを記述する「同時確率分布」を学びます。
  7. 確率変数の独立性: 二つの確率変数が互いに影響を及ぼさない「独立」という重要な概念を厳密に定義し、その判定方法を学びます。
  8. 独立な確率変数の和の期待値と分散: 独立な確率変数の和から作られる新しい確率変数の期待値と分散が、驚くほどシンプルな法則に従うことを発見します。
  9. 二項分布: 現実世界の様々な場面(反復試行)に現れる、最も重要で代表的な確率分布である「二項分布」の構造とその性質を深く探求します。
  10. 大数の法則: 最後に、理論的な確率の世界(期待値など)と、私たちが経験する現実世界のデータ(標本平均)とを結びつける、確率論の根幹をなす「大数の法則」の思想に触れます。

このモジュールを修了したとき、皆さんは不確実性という捉えどころのない現象を、確率変数と確率分布という数学の言葉で厳密に記述し、その本質的な特徴を期待値や分散といった指標で要約する能力を手にしているはずです。それは、統計的な推測という、データから真実を読み解くための壮大な学問分野への、確かな第一歩となるでしょう。

目次

1. 確率変数の定義(離散型、連続型)

1.1. 確率論の新たな言語:なぜ確率変数が必要か

数学Aで学んだ確率は、「赤玉が出る」「1の目が出る」といった具体的な事象 (event) に注目していました。しかし、これらの事象を言葉で扱っているだけでは、数学的な分析、特に平均値を計算したり、ばらつきを評価したりといった操作を行うことが困難です。

そこで、偶然によって支配される試行の結果を、数値に結びつけるための概念が必要となります。これが確率変数 (random variable) です。確率変数は、試行の結果として起こる事象を、私たちが計算可能な実数の値に変換する「翻訳機」の役割を果たします。

例えば、「1個のサイコロを投げる」という試行を考えます。

  • 起こりうる結果(標本空間):\({1の目, 2の目, 3の目, 4の目, 5の目, 6の目}\)
  • 確率変数 X:「出た目の数」と定義する。このとき、確率変数 X は、\({1, 2, 3, 4, 5, 6}\) という数値のいずれかの値をとります。X の値は、試行を行うまで確定しませんが、どの値をどのような確率でとるかは定まっています。

このように、確率変数を導入することで、私たちは確率の問題を、関数や変数といった代数学の強力なツールが使える領域へと持ち込むことができるのです。

1.2. 確率変数の厳密な定義

確率変数とは、ある試行における根元事象(それ以上分解できない個々の結果)のそれぞれに、特定の実数を対応させる関数と定義されます。確率変数は通常、XYZ などの大文字で表されます。

例:コインを2回投げる試行

  • 標本空間 S = \({\text{表表, 表裏, 裏表, 裏裏}}\)
  • 確率変数 X を「表が出た回数」と定義する。

このとき、X は標本空間の各要素を、次のように実数に対応させる関数です。

  • X(表表) = 2
  • X(表裏) = 1
  • X(裏表) = 1
  • X(裏裏) = 0

したがって、確率変数 X がとりうる値は、0, 1, 2 のいずれかとなります。

1.3. 確率変数の分類:離散型と連続型

確率変数がとりうる値の性質によって、確率変数は大きく二つのタイプに分類されます。

1.3.1. 離散型確率変数 (Discrete Random Variable)

確率変数 X がとりうる値が、有限個であるか、または自然数のように数え上げられる(可算個)場合、X を離散型確率変数と呼びます。値が「飛び飛び」であるとイメージすると分かりやすいでしょう。

離散型確率変数の例:

  • サイコロを1回投げたときの出目 X: とりうる値は 1, 2, 3, 4, 5, 6(有限個)。
  • 10回コインを投げたときの表の回数 Y: とりうる値は 0, 1, 2, ..., 10(有限個)。
  • ある交差点で1時間に起きる交通事故の件数 Z: とりうる値は 0, 1, 2, 3, ... と無限に続く可能性があるが、数え上げることは可能(可算個)。

数学Bの「統計的な推測」の単元で主として扱うのは、この離散型確率変数です。

1.3.2. 連続型確率変数 (Continuous Random Variable)

確率変数 X がとりうる値が、ある区間内の任意の実数値である場合、X を連続型確率変数と呼びます。値が「連続的」につながっているイメージです。

連続型確率変数の例:

  • 日本人成人男性の身長 H150.0 cm, 175.25 cm, 168.12345... cm のように、理論上は任意の値をとりうる。
  • 駅に到着する電車の待ち時間 T0 分から 10 分の間(例えば)の任意の実数値。
  • 製品の重量 W: ある範囲内の任意の実数値。

連続型確率変数は、特定の値(例えば身長がちょうど170.000…cm)をとる確率が 0 になってしまうなど、離散型とは異なる扱い方が必要となります。そのため、和(\(\sum\))の代わりに積分(\(\int\))を用いたり、確率密度関数という新しい概念を導入したりします。これについては、Module 6で詳しく学びます。

本モジュールでは、これ以降、特に断りのない限り、確率変数は離散型であるものとして議論を進めます。

2. 離散型確率変数の確率分布

確率変数を定義しただけでは、その確率的な振る舞いを完全に記述したことにはなりません。次に必要なのは、その確率変数が**「どの値を、どれくらいの確率でとるのか」という対応関係を明確にすることです。この対応関係をまとめたものを確率分布 (probability distribution)** と呼びます。

2.1. 確率分布の定義

離散型確率変数 X がとりうる値を \(x_1, x_2, \dots, x_n\) とし、X が値 \(x_k\) をとる確率を \(P(X=x_k) = p_k\) とします。このとき、値 \(x_k\) と確率 \(p_k\) の対応関係の全体を、X の確率分布といいます。

確率分布は、いわばその確率変数の「プロフィール」や「設計図」のようなもので、その確率的な性質の全てがここに詰まっています。

2.2. 確率分布が満たすべき性質

確率分布を構成する確率 \(p_k\) は、確率である以上、必ず次の二つの基本的な性質を満たさなければなりません。

  1. 各確率の値の範囲:全ての k について、確率は 0 以上 1 以下でなければならない。\[ 0 \le p_k \le 1 \]
  2. 確率の総和:全ての確率を合計すると、必ず 1 にならなければならない。(全事象の確率)\[ \sum_{k=1}^{n} p_k = p_1 + p_2 + \dots + p_n = 1 \]

この二つの性質は、確率分布が正しく作られているかを確認するための重要なチェック項目となります。

2.3. 確率分布の表現方法

確率分布は、通常、以下の二つの方法で表現されます。

1. 確率分布表 (Probability Distribution Table)

確率変数がとりうる値と、それに対応する確率を一覧表にしたものです。

X の値 \((x_k)\)\(x_1\)\(x_2\)\(\dots\)\(x_n\)
確率 \((p_k)\)\(p_1\)\(p_2\)\(\dots\)\(p_n\)1

この表形式は、確率分布の全体像を把握するのに非常に便利です。

2. グラフ

横軸に確率変数 X の値 \(x_k\)、縦軸にその確率 \(p_k\) をとった棒グラフで表現することもあります。グラフで表現することで、どの値が出やすいのか、分布がどのあたりに集中しているのかといった特徴を視覚的に捉えることができます。

2.4. 具体例:2個のサイコロの和

問題:

2個の区別できるサイコロを同時に投げるとき、出る目の和を確率変数 X とする。X の確率分布を求めよ。

思考プロセス:

  1. 確率変数 X がとりうる値を特定する:目の和の最小値は 1+1=2、最大値は 6+6=12。よって、X がとりうる値は 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12 の11通り。
  2. 各値をとる確率を計算する:
    • 全ての根元事象は 6 \times 6 = 36 通りであり、これらは同様に確からしい。
    • X=2 となるのは (1,1) の1通り。よって \(P(X=2) = 1/36\)。
    • X=3 となるのは (1,2), (2,1) の2通り。よって \(P(X=3) = 2/36\)。
    • X=4 となるのは (1,3), (2,2), (3,1) の3通り。よって \(P(X=4) = 3/36\)。
    • X=5 となるのは (1,4), (2,3), (3,2), (4,1) の4通り。よって \(P(X=5) = 4/36\)。
    • X=6 となるのは (1,5), (2,4), (3,3), (4,2), (5,1) の5通り。よって \(P(X=6) = 5/36\)。
    • X=7 となるのは (1,6), (2,5), (3,4), (4,3), (5,2), (6,1) の6通り。よって \(P(X=7) = 6/36\)。
    • X=8 以降は、場合の数が対称的に減少していく。
    • X=8: 5通り, P(X=8)=5/36
    • X=9: 4通り, P(X=9)=4/36
    • X=10: 3通り, P(X=10)=3/36
    • X=11: 2通り, P(X=11)=2/36
    • X=12: 1通り, P(X=12)=1/36
  3. 確率分布表を作成する:| X | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 計 || :— | :— | :— | :— | :— | :— | :— | :— | :— | :— | :— | :— | :— || P | \(\frac{1}{36}\) | \(\frac{2}{36}\) | \(\frac{3}{36}\) | \(\frac{4}{36}\) | \(\frac{5}{36}\) | \(\frac{6}{36}\) | \(\frac{5}{36}\) | \(\frac{4}{36}\) | \(\frac{3}{36}\) | \(\frac{2}{36}\) | \(\frac{1}{36}\) | 1 |
  4. 確率の総和をチェックする:\( (1+2+3+4+5+6+5+4+3+2+1)/36 = 36/36 = 1 \)。正しく確率分布が作られていることが確認できた。

この確率分布表や、それを元にしたグラフを描くことで、この試行の確率的な振る舞いの全てが明らかになります。例えば、X=7 が最も起こりやすく、2 や 12 になるほど起こりにくくなる、という分布の山なりの形状が一目瞭然となります。

3. 期待値(平均)の計算とその性質

確率分布は、確率変数の振る舞いの全てを記述する完璧な情報ですが、時にはその分布の特徴を一つの数値で代表させたい場合があります。その代表値として最も重要なのが期待値 (expected value) です。

3.1. 期待値の定義:確率で重み付けされた平均

確率変数 X の期待値(または平均 (mean))とは、X がとりうる各値に、その値をとる確率を「重み」として掛けて、全て足し合わせたものです。記号では \(E(X)\) または \(\mu\) (ミュー) で表されます。

離散型確率変数 X の確率分布が

| X の値 | \(x_1\) | \(x_2\) | \(\dots\) | \(x_n\) |

| :— | :— | :— | :— | :— |

| 確率 | \(p_1\) | \(p_2\) | \(\dots\) | \(p_n\) |

で与えられるとき、X の期待値 \(E(X)\) は、

\[ E(X) = x_1p_1 + x_2p_2 + \dots + x_np_n = \sum_{k=1}^{n} x_k p_k \]

で計算されます。

3.2. 期待値が持つ意味

期待値には、二つの重要な解釈があります。

  1. 長期的試行における平均値:もし、同じ試行を非常に多数回(例えば N 回)繰り返したとします。そのとき、値 \(x_k\) が現れる回数は、およそ \(N \times p_k\) 回であると期待されます。したがって、観測される値の総和の平均は、\( \frac{x_1(Np_1) + x_2(Np_2) + \dots + x_n(Np_n)}{N} = x_1p_1 + x_2p_2 + \dots + x_np_n = E(X) \)となります。つまり、期待値とは、その試行を無限に繰り返したときに得られるであろう結果の、理論的な平均値なのです。「期待値」という名前ですが、一回の試行でその値が期待できる、という意味合いよりも、長期的な平均値と捉える方がより正確です。
  2. 確率分布の「重心」:確率分布のグラフを思い浮かべてください。横軸が値 x_k、縦軸が確率 p_k の棒グラフです。もし、各 x_k の位置に、重さ p_k のおもりを置いたとすると、この系の**重心(バランスがとれる点)**が、ちょうど期待値 \(E(X)\) の位置に対応します。

3.3. 期待値の計算例

セクション2で求めた「2個のサイコロの和 X」の確率分布を使って、期待値を計算してみましょう。

\[ E(X) = 2\cdot\frac{1}{36} + 3\cdot\frac{2}{36} + 4\cdot\frac{3}{36} + 5\cdot\frac{4}{36} + 6\cdot\frac{5}{36} + 7\cdot\frac{6}{36} + 8\cdot\frac{5}{36} + 9\cdot\frac{4}{36} + 10\cdot\frac{3}{36} + 11\cdot\frac{2}{36} + 12\cdot\frac{1}{36} \]

\[ = \frac{1}{36} (2+6+12+20+30+42+40+36+30+22+12) \]

\[ = \frac{252}{36} = 7 \]

したがって、2個のサイコロの和の期待値は 7 となります。これは、分布のグラフが 7 を中心に完全に対称であることからも直感的に理解できます。

3.4. 期待値の重要な性質(線形性)

期待値は、非常に美しい線形性 (linearity) という性質を持っています。これは、期待値の計算を劇的に簡単にする、極めて強力なツールです。

確率変数 XY と定数 ab に対して、以下の性質が成り立ちます。

  1. \(E(c) = c\) (cは定数)定数の期待値は、その定数自身です。
  2. \(E(aX) = aE(X)\)確率変数を a 倍したものの期待値は、元の期待値を a 倍したものと等しい。
  3. \(E(X+b) = E(X)+b\)確率変数に b を足したものの期待値は、元の期待値に b を足したものと等しい。

上記2と3を組み合わせることで、次の一般形が得られます。

\(E(aX+b) = aE(X)+b\)

(証明)

\( E(aX+b) = \sum_{k=1}^{n} (ax_k+b)p_k = \sum (ax_kp_k + bp_k) \)

\( = a\sum x_kp_k + b\sum p_k \)

\( \sum x_kp_k = E(X) \) であり、\( \sum p_k = 1 \) なので、

\( = aE(X) + b \cdot 1 = aE(X) + b \)

さらに、二つの確率変数の和に対しても、同様の性質が成り立ちます。

\(E(X+Y) = E(X)+E(Y)\)

この性質は、X と Y が独立でなくても常に成り立ち、非常に強力です。(証明はセクション8で行います)

例: 1個のサイコロの出目 X の期待値は、

\( E(X) = (1+2+3+4+5+6)/6 = 3.5 \)

です。この性質を使えば、2個のサイコロの和 X_1+X_2 の期待値は、

\( E(X_1+X_2) = E(X_1) + E(X_2) = 3.5 + 3.5 = 7 \)

となり、先ほどの面倒な計算をすることなく、瞬時に求めることができます。

4. 分散・標準偏差の計算とその性質

期待値は確率分布の中心的な位置を示してくれますが、それだけでは分布の全体像を捉えるには不十分です。例えば、以下の二つの確率分布を考えてみましょう。

  • A: 50%の確率で4、50%の確率で6をとる。
  • B: 50%の確率で0、50%の確率で10をとる。

この二つの分布の期待値は、どちらも \(4 \cdot 0.5 + 6 \cdot 0.5 = 5\) と \(0 \cdot 0.5 + 10 \cdot 0.5 = 5\) で、全く同じ 5 です。しかし、分布の形は明らかに異なります。分布Aは期待値の周りにデータが密集しているのに対し、分布Bは期待値から大きく離れて散らばっています。

この**「ばらつきの度合い」を数値で測るための指標が、分散 (variance) と標準偏差 (standard deviation)** です。

4.1. 分散の定義:偏差の二乗の期待値

ばらつきを測るには、各値が期待値(平均)\(\mu\) からどれだけ離れているか、すなわち偏差 (deviation) \((x_k – \mu)\) に注目するのが自然です。

しかし、偏差を単純に平均すると、プラスの偏差とマイナスの偏差が打ち消し合ってしまい、常に 0 になってしまいます。

\( \sum (x_k – \mu)p_k = \sum x_kp_k – \mu\sum p_k = \mu – \mu \cdot 1 = 0 \)

そこで、偏差が常に正の値になるように、偏差を2乗した \((x_k – \mu)^2\) を考え、その期待値(確率で重み付けした平均)をとります。これを分散と呼び、\(V(X)\) または \(\sigma^2\) (シグマの2乗) で表します。

分散の定義式

確率変数 X の期待値を \(\mu = E(X)\) とするとき、X の分散 \(V(X)\) は、

\[ V(X) = E\left( (X-\mu)^2 \right) = \sum_{k=1}^{n} (x_k-\mu)^2 p_k \]

分散が大きいほど、データが平均から離れて広く分布していることを意味します。

4.2. 分散の計算用公式

定義式は分散の意味をよく表していますが、実際の計算には不便なことが多いです。そこで、定義式を変形した、より計算しやすい公式が用いられます。

分散の計算用公式

\[ V(X) = E(X^2) – {E(X)}^2 \]

この公式は、「X の2乗の期待値から、X の期待値の2乗を引く」と覚えます。

ここで、X の2乗の期待値 \(E(X^2)\) とは、

\[ E(X^2) = x_1^2 p_1 + x_2^2 p_2 + \dots + x_n^2 p_n = \sum_{k=1}^{n} x_k^2 p_k \]

のことです。

(計算用公式の証明)

\( V(X) = \sum (x_k – \mu)^2 p_k = \sum (x_k^2 – 2\mu x_k + \mu^2) p_k \)

\( = \sum x_k^2 p_k – 2\mu \sum x_k p_k + \mu^2 \sum p_k \)

ここで、\(\sum x_k^2 p_k = E(X^2)\)、\(\sum x_k p_k = E(X) = \mu\)、\(\sum p_k = 1\) なので、

\( = E(X^2) – 2\mu \cdot \mu + \mu^2 \cdot 1 \)

\( = E(X^2) – 2\mu^2 + \mu^2 = E(X^2) – \mu^2 = E(X^2) – {E(X)}^2 \)

4.3. 標準偏差の定義

分散は、偏差を2乗しているため、元のデータ(X)とは単位が異なります(例えば、Xがcmなら、分散はcm²)。これでは、ばらつきの大きさを直感的に解釈しにくいです。

そこで、分散の正の平方根をとることで、単位を元のデータと揃えた指標が作られます。これを標準偏差と呼び、\(\sigma(X)\) または単に \(\sigma\) で表します。

標準偏差の定義式

\[ \sigma(X) = \sqrt{V(X)} = \sqrt{E(X^2) – {E(X)}^2} \]

標準偏差は、期待値からの「平均的なズレの大きさ」のおおよその目安を与えてくれる、非常に解釈しやすい指標です。

4.4. 計算例:1個のサイコロの出目

問題: 1個のサイコロを投げたときの出目を X とする。X の分散と標準偏差を求めよ。

思考プロセス:

  1. 期待値 \(E(X)\) を求める:X は 1, 2, 3, 4, 5, 6 をそれぞれ確率 1/6 でとる。\( E(X) = (1+2+3+4+5+6) \cdot \frac{1}{6} = \frac{21}{6} = 3.5 \)
  2. 2乗の期待値 \(E(X^2)\) を求める:\( E(X^2) = (1^2+2^2+3^2+4^2+5^2+6^2) \cdot \frac{1}{6} \)\( = (1+4+9+16+25+36) \cdot \frac{1}{6} = \frac{91}{6} \)
  3. 分散 \(V(X)\) を計算用公式で求める:\( V(X) = E(X^2) – {E(X)}^2 = \frac{91}{6} – (3.5)^2 = \frac{91}{6} – (\frac{7}{2})^2 \)\( = \frac{91}{6} – \frac{49}{4} = \frac{182 – 147}{12} = \frac{35}{12} \)
  4. 標準偏差 \(\sigma(X)\) を求める:\( \sigma(X) = \sqrt{V(X)} = \sqrt{\frac{35}{12}} = \frac{\sqrt{35}}{2\sqrt{3}} = \frac{\sqrt{105}}{6} \)(\( \approx 1.708 \))

解答: 分散は \(\frac{35}{12}\)、標準偏差は \(\frac{\sqrt{105}}{6}\)

5. 確率変数の変換(一次式)と期待値・分散

確率変数 X を元にして、その一次式で表される新しい確率変数 Y = aX+b を考えることはよくあります。例えば、テストの素点 X に対して、平均点が50点、標準偏差が10点になるように調整した得点 Y を計算する、といった状況です。

このとき、新しい確率変数 Y の期待値や分散は、元の X の期待値や分散と、どのような関係にあるのでしょうか。ここには非常にシンプルで美しい法則が存在します。

5.1. 変換された確率変数の期待値

確率変数 X と定数 a, b に対して、新しい確率変数 Y = aX+b を考えます。Y の期待値は、期待値の線形性から次のように求められます。

\[ E(Y) = E(aX+b) = aE(X)+b \]

これはセクション3で既に証明した性質です。

  • a 倍すると、期待値も a 倍される。
  • b を足すと、期待値も b だけ平行移動する。

この性質は非常に直感的です。全員の点数を2倍して10点を加えたら、平均点も2倍されて10点加わる、と考えることができます。

5.2. 変換された確率変数の分散と標準偏差

次に、Y = aX+b の分散を考えてみましょう。

  • b を足す(平行移動):分布全体が b だけ平行移動しても、各値と平均との差(偏差)は変わりません。つまり、分布の「広がり具合」は変化しません。したがって、定数を足す操作は分散に影響を与えません。
  • a 倍する(拡大・縮小):各値が a 倍され、平均も a 倍されるので、偏差 \((ax_k – a\mu)\) は \(a(x_k-\mu)\) となり、元の a 倍になります。分散は偏差の2乗の期待値なので、分散は \(a^2\) 倍になります。

これらの考察をまとめると、次の公式が得られます。

一次変換された確率変数の分散

\[ V(Y) = V(aX+b) = a^2V(X) \]

(証明)

Y の期待値は \(E(Y) = aE(X)+b = a\mu+b\) である。

分散の定義より、

\( V(Y) = E\left((Y – E(Y))^2\right) = E\left( (aX+b – (a\mu+b))^2 \right) \)

\( = E\left( (aX – a\mu)^2 \right) = E\left( a^2(X-\mu)^2 \right) \)

期待値の性質 \(E(cZ)=cE(Z)\) より、定数 a^2 を前に出すことができる。

\( = a^2 E\left( (X-\mu)^2 \right) \)

\( E((X-\mu)^2) \) は V(X) の定義そのものなので、

\( = a^2 V(X) \)

標準偏差は分散の正の平方根なので、

\[ \sigma(Y) = \sigma(aX+b) = \sqrt{a^2V(X)} = \sqrt{a^2}\sqrt{V(X)} = |a|\sigma(X) \]

標準偏差は a の絶対値倍になります。(標準偏差は常に0以上なので)

5.3. 確率変数の標準化

これらの変換の性質の重要な応用として、確率変数の標準化 (standardization) があります。

任意の確率変数 X (ただし \(\sigma(X) \neq 0\))に対して、期待値を 0、分散(および標準偏差)を 1 になるように変換する操作です。

X の期待値を \(\mu\)、標準偏差を \(\sigma\) とするとき、標準化された確率変数 Z は次のように定義されます。

\[ Z = \frac{X – \mu}{\sigma} = \frac{1}{\sigma}X – \frac{\mu}{\sigma} \]

これは、X に対する一次変換 \(Z = aX+b\) において、\(a = 1/\sigma\)、\(b = -\mu/\sigma\) とした場合に相当します。

この Z の期待値と分散を計算してみましょう。

  • 期待値:\( E(Z) = E\left(\frac{1}{\sigma}X – \frac{\mu}{\sigma}\right) = \frac{1}{\sigma}E(X) – \frac{\mu}{\sigma} = \frac{1}{\sigma}\mu – \frac{\mu}{\sigma} = 0 \)
  • 分散:\( V(Z) = V\left(\frac{1}{\sigma}X – \frac{\mu}{\sigma}\right) = \left(\frac{1}{\sigma}\right)^2 V(X) = \frac{1}{\sigma^2} \cdot \sigma^2 = 1 \)

標準化された確率変数の性質

どんな確率変数 X も、\( Z = \frac{X-E(X)}{\sigma(X)} \) という変換を施すことで、

\[ E(Z)=0, \quad V(Z)=1, \quad \sigma(Z)=1 \]

となる新しい確率変数 Z を作ることができる。

標準化は、単位や平均、ばらつきが異なる様々な確率分布を、「平均0, 標準偏差1」という共通の土俵に乗せて比較・分析するための極めて重要な手続きです。これは、Module 6で学ぶ正規分布の理論において中心的な役割を果たします。

6. 同時確率分布

これまでは、単一の確率変数 X の振る舞いに焦点を当ててきました。しかし、多くの場合、一つの試行から二つ以上の確率的な量が同時に決まる状況を分析したくなります。例えば、「あるクラスから一人を選んだときの、その生徒の身長 X と体重 Y」のように、二つの確率変数 X と Y の関係性を調べたい場合です。

このような状況を記述するのが、同時確率分布 (joint probability distribution) です。

6.1. 同時確率分布の定義

離散型確率変数 X がとりうる値を \({x_1, \dots, x_m}\)、Y がとりうる値を \({y_1, \dots, y_n}\) とします。

このとき、X が値 \(x_i\) をとり、かつ、Y が値 \(y_j\) をとる確率を

\[ P(X=x_i, Y=y_j) \]

と書きます。この同時確率を、全ての組み合わせ \((x_i, y_j)\) について定めたものが、X と Y の同時確率分布です。

同時確率分布は、通常、次のような二次元の表(分割表またはクロス集計表とも呼ばれる)で表現されます。

Y \ X\(x_1\)\(x_2\)\(\dots\)\(x_m\)Yの計
\(y_1\)\(P(X=x_1, Y=y_1)\)\(P(X=x_2, Y=y_1)\)\(\dots\)\(P(X=x_m, Y=y_1)\)\(P(Y=y_1)\)
\(y_2\)\(P(X=x_1, Y=y_2)\)\(P(X=x_2, Y=y_2)\)\(\dots\)\(P(X=x_m, Y=y_2)\)\(P(Y=y_2)\)
\(\vdots\)\(\vdots\)\(\vdots\)\(\ddots\)\(\vdots\)\(\vdots\)
\(y_n\)\(P(X=x_1, Y=y_n)\)\(P(X=x_2, Y=y_n)\)\(\dots\)\(P(X=x_m, Y=y_n)\)\(P(Y=y_n)\)
Xの計\(P(X=x_1)\)\(P(X=x_2)\)\(\dots\)\(P(X=x_m)\)1

この表の内部の各セルが同時確率を表し、全てのセルの確率を合計すると 1 になります。

6.2. 周辺確率分布

同時確率分布表が与えられると、そこから個々の確率変数 X と Y の確率分布を復元することができます。

X の確率分布:

X が特定の値 \(x_i\) をとる確率 \(P(X=x_i)\) は、Y がどのような値をとるかに関わらず、X が \(x_i\) となる全ての事象の確率の和です。これは、表の i 番目の列の和を計算することで得られます。

\[ P(X=x_i) = \sum_{j=1}^{n} P(X=x_i, Y=y_j) \]

Y の確率分布:

同様に、Y が特定の値 \(y_j\) をとる確率 \(P(Y=y_j)\) は、j 番目の行の和を計算することで得られます。

\[ P(Y=y_j) = \sum_{i=1}^{m} P(X=x_i, Y=y_j) \]

このようにして得られた個々の確率変数 X と Y の分布のことを、元の同時分布に対して周辺確率分布 (marginal probability distribution) と呼びます。表の周辺(マージン)に合計として書き込まれることから、この名がついています。

6.3. 計算例

問題:

赤玉3個、白玉2個が入った袋から、同時に2個の玉を取り出す。取り出した赤玉の個数を X、白玉の個数を Y とするとき、X と Y の同時確率分布を求めよ。

思考プロセス:

  1. X と Y がとりうる値を特定する:合計で2個取り出すので、(X, Y) の組み合わせは以下の3パターンしかない。
    • (赤2, 白0) → (X=2, Y=0)
    • (赤1, 白1) → (X=1, Y=1)
    • (赤0, 白2) → (X=0, Y=2)よって、X は {0, 1, 2}、Y は {0, 1, 2} の値をとりうる。
  2. 各同時確率を計算する:全部で5個の玉から2個を取り出す総数は \({}_5\mathrm{C}_2 = 10\) 通り。
    • P(X=2, Y=0): 赤3個から2個、白2個から0個選ぶ。\( \frac{{}_3\mathrm{C}_2 \times {}_2\mathrm{C}_0}{{}_5\mathrm{C}_2} = \frac{3 \times 1}{10} = \frac{3}{10} \)
    • P(X=1, Y=1): 赤3個から1個、白2個から1個選ぶ。\( \frac{{}_3\mathrm{C}_1 \times {}_2\mathrm{C}_1}{{}_5\mathrm{C}_2} = \frac{3 \times 2}{10} = \frac{6}{10} \)
    • P(X=0, Y=2): 赤3個から0個、白2個から2個選ぶ。\( \frac{{}_3\mathrm{C}_0 \times {}_2\mathrm{C}_2}{{}_5\mathrm{C}_2} = \frac{1 \times 1}{10} = \frac{1}{10} \)
    • その他の組み合わせ(例:P(X=1, Y=0)など)は起こり得ないので、確率は 0
  3. 同時確率分布表を作成する:
Y \ X012Yの計
000\(\frac{3}{10}\)\(\frac{3}{10}\)
10\(\frac{6}{10}\)0\(\frac{6}{10}\)
2\(\frac{1}{10}\)00\(\frac{1}{10}\)
Xの計\(\frac{1}{10}\)\(\frac{6}{10}\)\(\frac{3}{10}\)1

この表から、X と Y の周辺確率分布も読み取ることができる。

  • X の確率分布:| X | 0 | 1 | 2 | 計 || :— | :— | :— | :— | :— || P | \(\frac{1}{10}\) | \(\frac{6}{10}\) | \(\frac{3}{10}\) | 1 |
  • Y の確率分布:| Y | 0 | 1 | 2 | 計 || :— | :— | :— | :— | :— || P | \(\frac{3}{10}\) | \(\frac{6}{10}\) | \(\frac{1}{10}\) | 1 |

同時確率分布は、二つの確率変数の関係性を分析するための出発点であり、次に学ぶ「独立性」や、相関関係などを調べるための基礎情報となります。

7. 確率変数の独立性

二つの事象 AB が独立であるとは、A が起こるかどうかが B が起こる確率に影響を与えず、その逆もまた然り、ということでした(数学A)。この「独立」という概念は、確率変数にも拡張することができます。二つの確率変数 X と Y が独立であるとは、X がどのような値をとるかが Y がとる値の確率に全く影響を与えない、という状況を指します。

7.1. 独立性の厳密な定義

確率変数の独立性の定義

二つの離散型確率変数 X と Y が独立であるとは、X がとりうる全ての値 \(x_i\) と Y がとりうる全ての値 \(y_j\) の全ての組み合わせに対して、次の等式が成り立つことをいう。

\[ P(X=x_i, Y=y_j) = P(X=x_i) \times P(Y=y_j) \]

この定義が意味するのは、「同時確率が、周辺確率の積に等しい」ということです。同時確率分布表の全てのセルの中身が、そのセルの行の合計と列の合計の積になっていれば、X と Y は独立であると言えます。一つでもこの関係が成り立たない組み合わせがあれば、X と Y は独立ではなく、従属 (dependent) であるといいます。

例:

コインを2回投げる試行。X を1回目の結果(表=1, 裏=0)、Y を2回目の結果(表=1, 裏=0)とする。

このとき、

P(X=1, Y=1) = 1/4

P(X=1) = 1/2, P(Y=1) = 1/2

P(X=1)P(Y=1) = 1/4

となり、等式が成立。他の全ての組み合わせ (0,0), (0,1), (1,0) でも同様に成立するため、X と Y は独立です。これは直感とも一致します。

一方、セクション6の「袋から玉を2個同時に取り出す」例では、

P(X=2, Y=0) = 3/10

P(X=2) = 3/10, P(Y=0) = 3/10

P(X=2)P(Y=0) = 9/100

となり、P(X=2, Y=0) \neq P(X=2)P(Y=0) です。よって、この X と Y は独立ではありません(従属です)。これも直感的です。1個目に赤玉を取り出す(X が大きくなる)と、袋の中の白玉の比率が高まり、2個目に白玉を取り出す確率(Y が大きくなる確率)に影響を与えるからです。

7.2. 独立性と期待値

独立な確率変数 XY に関して、積 XY の期待値について非常に重要な性質が成り立ちます。

独立な確率変数の積の期待値

X と Y が互いに独立ならば、

\[ E(XY) = E(X)E(Y) \]

が成り立つ。

(証明の概略)

\( E(XY) = \sum_{i}\sum_{j} (x_i y_j) P(X=x_i, Y=y_j) \)

X, Y は独立なので、P(X=x_i, Y=y_j) = P(X=x_i)P(Y=y_j)

\( = \sum_{i}\sum_{j} x_i y_j P(X=x_i) P(Y=y_j) \)

和の順序を交換し、i と j でまとめると、

\( = \left(\sum_{i} x_i P(X=x_i)\right) \left(\sum_{j} y_j P(Y=y_j)\right) \)

\( = E(X)E(Y) \)

7.3. 共分散と独立性

二つの確率変数の関係性を測る指標として共分散 (covariance) があります。

X の期待値を \(\mu_X\)、Y の期待値を \(\mu_Y\) とするとき、共分散 Cov(X, Y) は次のように定義されます。

\[ \mathrm{Cov}(X, Y) = E\left( (X-\mu_X)(Y-\mu_Y) \right) \]

これは、「X の偏差」と「Y の偏差」の積の期待値です。

  • X が平均より大きいとき Y も平均より大きい傾向にあれば(正の相関)、共分散は正の大きな値になります。
  • X が平均より大きいとき Y は平均より小さい傾向にあれば(負の相関)、共分散は負の大きな値になります。
  • X と Y に特定の傾向がなければ、共分散は 0 に近くなります。

共分散の計算には、次の公式が便利です。

\[ \mathrm{Cov}(X, Y) = E(XY) – E(X)E(Y) \]

この式と、先ほどの E(XY) の性質を組み合わせると、次の重要な関係が導かれます。

独立性と共分散の関係

X と Y が互いに独立ならば、E(XY)=E(X)E(Y) なので、

\[ \mathrm{Cov}(X, Y) = E(X)E(Y) – E(X)E(Y) = 0 \]

となる。

つまり、独立な確率変数の共分散は 0 です。共分散が 0 である状態を無相関 (uncorrelated) といいます。

【最重要注意点】逆は必ずしも真ならず

Cov(X,Y)=0(無相関)であっても、X と Y が独立であるとは限りません。

独立性は「いかなる関係性もない」という非常に強い条件であるのに対し、無相関は「直線的な関係がない」という、より弱い条件だからです。

例えば、X が {-1, 0, 1} を等確率でとり、Y=X^2 とした場合、Cov(X,Y)=0 となりますが、Y の値は X の値によって完全に決まるため、全く独立ではありません。

しかし、高校数学の範囲では、「独立ならば共分散は0」という方向の理解が中心となります。この性質は、次に学ぶ「独立な確率変数の和の分散」の証明において、決定的な役割を果たします。

8. 独立な確率変数の和の期待値と分散

個々の確率変数の性質を学んだ後、それらを足し合わせて作られる新しい確率変数 X+Y の性質を調べることは、統計学において非常に重要です。例えば、「1個のサイコロの出目 X」の期待値と分散は分かっていますが、では「100個のサイコロの出目の和 S = X_1 + \dots + X_{100}」の期待値と分散はどうなるのでしょうか。この問いに答えるのが、本セクションで学ぶ加法法則です。

8.1. 和の期待値

二つの確率変数 X と Y の和 X+Y の期待値は、非常にシンプルで美しい法則に従います。

期待値の加法法則

任意の確率変数 X, Y に対して、

\[ E(X+Y) = E(X)+E(Y) \]

が成り立つ。

この法則の特筆すべき点は、X と Y が独立である必要がないということです。どのような関係にあっても、和の期待値は期待値の和となります。

(証明)

離散型の場合で考えます。

\( E(X+Y) = \sum_{i}\sum_{j} (x_i+y_j) P(X=x_i, Y=y_j) \)

\( = \sum_{i}\sum_{j} x_i P(X=x_i, Y=y_j) + \sum_{i}\sum_{j} y_j P(X=x_i, Y=y_j) \)

第1項の和の順序を交換すると、

\( = \sum_{i} x_i \left( \sum_{j} P(X=x_i, Y=y_j) \right) + \sum_{j} y_j \left( \sum_{i} P(X=x_i, Y=y_j) \right) \)

ここで、() の中は周辺確率の定義そのものです。

\( \sum_{j} P(X=x_i, Y=y_j) = P(X=x_i) \)

\( \sum_{i} P(X=x_i, Y=y_j) = P(Y=y_j) \)

よって、

\( = \sum_{i} x_i P(X=x_i) + \sum_{j} y_j P(Y=y_j) \)

\( = E(X) + E(Y) \)

この法則は、n 個の確率変数にも拡張できます。

\[ E(X_1+X_2+\dots+X_n) = E(X_1)+E(X_2)+\dots+E(X_n) \]

8.2. 和の分散

一方、分散の加法法則は、期待値ほど単純ではありません。成立するために、確率変数が独立である(より正確には無相関である)という条件が必要になります。

分散の加法法則

X と Y が互いに独立であるとき、

\[ V(X+Y) = V(X)+V(Y) \]

が成り立つ。

(証明)

\(\mu_X=E(X), \mu_Y=E(Y)\) とする。\(E(X+Y)=\mu_X+\mu_Y\)。

分散の定義より、

\( V(X+Y) = E\left( {(X+Y) – (\mu_X+\mu_Y)}^2 \right) \)

\( = E\left( {(X-\mu_X) + (Y-\mu_Y)}^2 \right) \)

\( = E\left( (X-\mu_X)^2 + 2(X-\mu_X)(Y-\mu_Y) + (Y-\mu_Y)^2 \right) \)

期待値の線形性より、

\( = E((X-\mu_X)^2) + 2E((X-\mu_X)(Y-\mu_Y)) + E((Y-\mu_Y)^2) \)

ここで、第1項は V(X)、第3項は V(Y)、そして第2項の E((X-\mu_X)(Y-\mu_Y)) は共分散 Cov(X,Y) の定義そのものである。

よって、一般には \( V(X+Y) = V(X) + V(Y) + 2\mathrm{Cov}(X,Y) \) が成り立つ。

X と Y が独立であれば、Cov(X,Y)=0 となるので、

\( V(X+Y) = V(X)+V(Y) \)

が成立する。

この法則も n 個の互いに独立な確率変数に拡張できます。

\[ V(X_1+X_2+\dots+X_n) = V(X_1)+V(X_2)+\dots+V(X_n) \]

8.3. 法則の応用

これらの加法法則は、非常に強力です。

問題: 1個のサイコロを100回振るとき、出る目の合計を S とする。S の期待値と分散を求めよ。

思考プロセス:

  1. S を、個々の試行を表す確率変数の和として表現する。i 回目の出目を \(X_i\) とする。S = X_1 + X_2 + \dots + X_{100}。
  2. 各 \(X_i\) は、1個のサイコロの出目なので、全て同じ確率分布に従う。また、各回の試行は独立なので、\(X_1, \dots, X_{100}\) は互いに独立である。
  3. 1回あたりの期待値と分散を計算する(セクション4の例より)。\( E(X_i) = 3.5 \)\( V(X_i) = 35/12 \)
  4. 加法法則を適用する。
    • 期待値:\( E(S) = E(X_1+\dots+X_{100}) = E(X_1)+\dots+E(X_{100}) \)\( = 100 \times E(X_1) = 100 \times 3.5 = 350 \)
    • 分散:\(X_i\) は互いに独立なので、\( V(S) = V(X_1+\dots+X_{100}) = V(X_1)+\dots+V(X_{100}) \)\( = 100 \times V(X_1) = 100 \times \frac{35}{12} = \frac{3500}{12} = \frac{875}{3} \)

解答: 期待値は 350, 分散は \(\frac{875}{3}\)

このように、複雑に見える問題も、和の法則を知っていれば、個々の部品(1回分の試行)の性質を調べるだけで、全体の性質を簡単に導き出すことができます。

9. 二項分布

世の中には、繰り返し現れる典型的な確率のモデルが存在します。その中でも最も重要で基本的なものが二項分布 (binomial distribution) です。コイントスのように、結果が「成功か失敗か」の二択で表される独立な試行を繰り返す状況は、全てこの二項分布でモデル化できます。

9.1. 二項分布の前提:ベルヌーイ試行

二項分布の構成要素となるのが、ベルヌーイ試行 (Bernoulli trial) です。

ベルヌーイ試行とは、結果が「成功」「失敗」のいずれか一方にしかならない試行のことです。

  • 成功の確率を p
  • 失敗の確率を q = 1-pとします。

二項分布は、このベルヌーイ試行を n 回、互いに独立に繰り返したときに、「成功」が何回起こるか、という確率分布です。

二項分布が適用できるための4条件

  1. 試行の回数 n が固定されている。
  2. 各試行は互いに独立である。
  3. 各試行の結果は「成功」か「失敗」の二者択一である。
  4. 各試行における成功確率 p は、常に一定である。

9.2. 二項分布の確率関数

n 回の独立なベルヌーイ試行において、成功が k 回起こる確率を考えてみましょう。

確率変数 X を「成功回数」とすると、P(X=k) は次のように計算されます。

  1. 特定のパターンでの確率:まず、n 回中、最初の k 回が成功し、残りの n-k 回が失敗する、という特定の順序で起こる確率を考えます。各試行は独立なので、この確率は\[ \underbrace{p \times p \times \dots \times p}{k個} \times \underbrace{(1-p) \times (1-p) \times \dots \times (1-p)}{n-k個} = p^k (1-p)^{n-k} \]となります。
  2. パターンの数:次に、「n 回中 k 回が成功する」という結果になるような、成功と失敗の並び順のパターンが何通りあるかを考えます。これは、n 個の場所から成功が入る k 個の場所を選ぶ組合せの数に等しいので、\({}_n\mathrm{C}_k\) 通りあります。

これら二つを掛け合わせることで、二項分布の確率関数が得られます。

二項分布の確率関数

確率変数 X がパラメータ n と p の二項分布に従うとき(記号で \(X \sim B(n, p)\) と書く)、X が値 k をとる確率は、

\[ P(X=k) = {}_n\mathrm{C}_k p^k (1-p)^{n-k} \quad (\text{for } k=0, 1, \dots, n) \]

この式が、二項定理 \((a+b)^n = \sum {}_n\mathrm{C}_k a^k b^{n-k}\) の一般項と同じ形をしていることから、「二項分布」という名前が付けられています。

9.3. 二項分布の期待値と分散

二項分布の期待値と分散には、非常にシンプルで美しい公式が存在します。

二項分布の期待値と分散

確率変数 X が二項分布 \(B(n, p)\) に従うとき、

  • 期待値: \( E(X) = np \)
  • 分散: \( V(X) = np(1-p) \)
  • 標準偏差: \( \sigma(X) = \sqrt{np(1-p)} \)

これらの公式は、定義に従って \( \sum k \cdot P(X=k) \) などを計算しても証明できますが、非常に複雑になります。そこで、セクション8で学んだ「和の法則」を用いた、はるかにエレガントな証明方法を紹介します。

(期待値と分散の証明)

n 回の試行を、n 個の独立なベルヌーイ試行の集まりと考えます。

i 回目の試行結果を表す確率変数 \(X_i\) を次のように定義します。(指示確率変数)

  • i 回目が成功なら \(X_i=1\)
  • i 回目が失敗なら \(X_i=0\)

すると、全体の成功回数 X は、これらの和 \( X = X_1 + X_2 + \dots + X_n \) として表現できます。

\(X_1, \dots, X_n\) は互いに独立で、全て同じ確率分布に従います。

まず、1回の試行 \(X_i\) の期待値と分散を求めましょう。

  • \(E(X_i)\): \( 1 \cdot P(X_i=1) + 0 \cdot P(X_i=0) = 1 \cdot p + 0 \cdot (1-p) = p \)
  • \(E(X_i^2)\): \( 1^2 \cdot p + 0^2 \cdot (1-p) = p \)
  • \(V(X_i)\): \( E(X_i^2) – {E(X_i)}^2 = p – p^2 = p(1-p) \)

あとは、和の法則を適用するだけです。

  • X の期待値:\( E(X) = E(X_1+\dots+X_n) = E(X_1)+\dots+E(X_n) = \underbrace{p+p+\dots+p}_{n個} = np \)
  • X の分散:\(X_i\) は互いに独立なので、\( V(X) = V(X_1+\dots+X_n) = V(X_1)+\dots+V(X_n) = \underbrace{p(1-p)+\dots+p(1-p)}_{n個} = np(1-p) \)

9.4. 計算例

問題:

1個のサイコロを180回投げるとき、1の目が出る回数を X とする。X の期待値と標準偏差を求めよ。

思考プロセス:

  1. モデルの特定:
    • 試行回数 n=180 で固定。
    • 各回の試行は独立。
    • 結果は「1の目が出る(成功)」か「それ以外(失敗)」の二択。
    • 成功確率 p = 1/6 で一定。これは、二項分布 \(B(180, 1/6)\) に従う。
  2. 公式の適用:
    • 期待値: \( E(X) = np = 180 \times \frac{1}{6} = 30 \)
    • 分散: \( V(X) = np(1-p) = 180 \times \frac{1}{6} \times \frac{5}{6} = 30 \times \frac{5}{6} = 25 \)
    • 標準偏差: \( \sigma(X) = \sqrt{V(X)} = \sqrt{25} = 5 \)

解答: 期待値は 30回, 標準偏差は 5回

10. 大数の法則

これまでの議論は、全て理論的な確率の世界(モデルの世界)での話でした。期待値はあくまで理論的な平均値であり、実際に10回サイコロを振ったからといって、その平均がぴったり3.5になるとは限りません。

では、この理論の世界と、私たちが経験する現実のデータの世界は、どのようにつながっているのでしょうか? この根源的な問いに答えるのが、確率論における最も重要で深遠な定理の一つ、大数の法則 (Law of Large Numbers) です。

10.1. 法則の直感的な意味

大数の法則を非常に直感的に言うと、次のようになります。

「同じ試行を多数回繰り返せば、その結果として得られる標本平均(観測データの平均値)は、限りなく理論上の期待値(真の平均値)に近づいていく」

例えば、

  • コイン投げ: 1枚のコインを投げ続ければ、表が出る割合(標本平均)は、理論上の確率 1/2(期待値)に近づいていく。
  • サイコロ投げ: 1個のサイコロを振り続ければ、出た目の平均値(標本平均)は、理論上の期待値 3.5 に近づいていく。

この法則は、私たちが日々、確率というものを無意識のうちに理解している際の、経験的な感覚を数学的に保証するものです。「数撃てば当たる」ということわざの背後にある数学的な裏付けとも言えるでしょう。

10.2. チェビシェフの不等式

大数の法則をもう少し形式的に理解するための準備として、チェビシェフの不等式 (Chebyshev’s inequality)を紹介します。この不等式は、確率変数 X がその期待値 \(\mu\) から大きく外れた値をとる確率の上限を与えるものです。

チェビシェフの不等式

期待値 \(\mu\)、標準偏差 \(\sigma\) を持つ任意の確率変数 X と、任意の正の数 k に対して、

\[ P(|X-\mu| \ge k\sigma) \le \frac{1}{k^2} \]

が成り立つ。

この式が言っているのは、「X の値が、期待値 \(\mu\) から標準偏差 \(\sigma\) の k 倍以上離れる確率は、高々 \(1/k^2\) である」ということです。

例えば、k=2 とすると、平均から2標準偏差以上離れる確率は 1/4=25% 以下であり、k=3 とすると、3標準偏差以上離れる確率は 1/9 \approx 11% 以下であることが、どんな確率分布であっても保証されます。

これは、標準偏差 \(\sigma\) が小さいほど、データが期待値 \(\mu\) の近くに集中している、という私たちの直感を、数学的に定量化したものと言えます。

10.3. 大数の法則の形式的な記述

大数の法則にはいくつかのバージョンがありますが、ここでは弱大数の法則 (Weak Law of Large Numbers)を紹介します。

互いに独立で、同じ確率分布に従う n 個の確率変数 \(X_1, X_2, \dots, X_n\) を考えます(i.i.d.; independent and identically distributed と呼ばれる)。それぞれの期待値を \(\mu\)、分散を \(\sigma^2\) とします。

これらの観測値の算術平均を標本平均 (sample mean) と呼び、\(\bar{X}_n\) で表します。

\[ \bar{X}_n = \frac{X_1 + X_2 + \dots + X_n}{n} \]

この標本平均 \(\bar{X}_n\) 自体も一つの確率変数です。その期待値と分散を計算してみましょう。

  • \( E(\bar{X}_n) = E\left(\frac{1}{n}\sum X_i\right) = \frac{1}{n}\sum E(X_i) = \frac{1}{n}(n\mu) = \mu \)
  • \( V(\bar{X}_n) = V\left(\frac{1}{n}\sum X_i\right) = \frac{1}{n^2}\sum V(X_i) = \frac{1}{n^2}(n\sigma^2) = \frac{\sigma^2}{n} \)

標本平均の期待値は元の期待値 \(\mu\) と同じですが、分散は \(\sigma^2/n\) となり、サンプルサイズ n が大きくなるにつれて 0 に近づいていきます。これは、n を大きくすればするほど、標本平均のばらつきが小さくなり、真の平均 \(\mu\) の周りに密集してくることを示唆しています。

この事実をチェビシェフの不等式を使って定式化したものが、大数の法則です。

弱大数の法則

任意の小さな正の数 \(\epsilon\) (イプシロン) に対して、

\[ \lim_{n \to \infty} P(|\bar{X}_n – \mu| \ge \epsilon) = 0 \]

これは、「サンプルサイズ n を無限に大きくすれば、標本平均 \(\bar{X}_n\) が真の平均 \(\mu\) から、どんなに小さな値 \(\epsilon\) ですら外れる確率が 0 に収束する」ということを意味しています。

10.4. 大数の法則の意義

大数の法則は、なぜ私たちが統計的な推測を行えるのか、その理論的な根拠を与えてくれます。

  • 保険会社: 多数の契約者を集めることで、一人一人に起こる事故の不確実性を乗り越え、全体の支払い額が期待値に近づくことを利用して、ビジネスを成り立たせている。
  • カジノ: 個々のゲームの結果はランダムだが、多数の試行を繰り返すことで、カジノ側の利益率(期待値)が確実に実現される。
  • 世論調査: 全国民(母集団)の支持率(真の比率 p)を直接知ることはできないが、無作為に選ばれた十分な大きさの標本を調べることで、その標本支持率(標本平均)が真の支持率に非常に近い値になることが、大数の法則によって保証される。

この法則があるからこそ、私たちはサンプル(標本)という部分的な情報から、母集団全体の性質を、確率的な誤差の範囲で、合理的に推測することが可能になるのです。大数の法則は、不確実な世界から確からしい知識を引き出すための、人類の知性の金字塔と言えるでしょう。

Module 5:統計的な推測(1) 確率変数と確率分布の総括:不確実性を記述する言語

本モジュールを通じて、私たちは「偶然」や「不確実性」という、捉えどころのない現象を数学の言葉で厳密に記述するための、全く新しい言語体系を学びました。その言語の根幹をなすのが、「確率変数」という概念です。これにより、サイコロの目やコインの裏表といった具体的な事象を、演算可能な「数値」へと翻訳し、数学的な分析の土台を築きました。そして、その確率変数がとりうる全ての値と確率の対応を記した「確率分布」は、ランダムな現象の全体像を解き明かすための、完璧な設計図の役割を果たしました。

確率分布という物語の全体像を掴んだ後、私たちはその物語を要約するための二つの重要な指標、期待値と分散を手にしました。期待値は、物語の「中心」、すなわち長期的に見て最も確からしい結果を示し、一方の分散(および標準偏差)は、物語がその中心からどれほど「ばらつく」か、その展開の広がりを教えてくれました。これらは、複雑な確率分布の本質を、わずか二つの数値で捉えるための強力な要約ツールです。

さらに私たちの視点は、単一の確率変数から二つの変数が織りなす関係へと広がり、そこで「独立性」という極めて重要な概念を学びました。この独立性こそが、独立な確率変数の和の期待値と分散が驚くほどシンプルな加法法則に従うことを保証し、反復試行の代表モデルである「二項分布」の性質をエレガントに解き明かす鍵となったのです。

最後に、私たちは「大数の法則」という、理論と現実世界とを結ぶ壮大な橋を目撃しました。この法則は、私たちが構築した確率モデル(期待値など)が机上の空論ではなく、試行を数多く重ねることで、観測される経験的な事実(標本平均)が理論値へと収束していくことを数学的に保証するものです。この確固たる保証があるからこそ、私たちは次のステップである「統計的推定」へと、自信を持って進むことができるのです。

目次