【共通テスト 数学 ②】Module 6: 確率分布と統計的推測の論理体系
本記事の目的と構成
本モジュールは、大学入学共通テスト「数学Ⅱ・B・C」において、多くの受験生が苦手意識を抱きがちな確率分布と統計的推測の分野を、その論理体系から構造的に理解し、得点力を最大化することを目的とします。この分野は、複雑な計算よりも、問題文で提示される状況を正確にモデル化し、統計的な思考のフレームワークに沿って論理を展開する能力が問われます。共通テストでは、特定の社会的事象や科学的実験を題材とした長文問題が出題され、その中で一連の統計的推測プロセスを段階的に実行させることが一般的です。
この分野で高得点を獲得する鍵は、個々の公式を暗記するだけでなく、「確率変数」から始まり、「確率分布(二項分布・正規分布)」を経て、「標本調査」、そして最終的な「区間推定」や「仮説検定」へと至る、一貫した論理の流れを完全にマスターすることです。
本稿では、まず第1章で、不確実な事象を数値化する「確率変数」とその基本的な性質(期待値・分散)を解説し、反復試行のモデルである「二項分布」を扱います。第2章では、統計的推測の理論的支柱である「正規分布」に焦点を当て、その標準化と正規分布表の活用法、そして大量の試行を扱うための「二項分布の正規分布による近似」という強力なテクニックを詳述します。最後に第3章では、本分野のクライマックスである「統計的推測」を取り上げ、限られた標本データから母集団全体の特徴を探る「区間推定」と、データに基づいて特定の主張の妥当性を判断する「仮説検定」の論理フレームワークを、共通テストの典型的な出題形式に沿って徹底的に解説します。このモジュールを通じて、統計分野の思考法を体系的に身につけ、長文問題にも臆することなく立ち向かうための確固たる自信を築き上げましょう。
1. 確率変数と確率分布 – 不確実性を数式でモデル化する
統計的推測の第一歩は、ランダムな事象の結果を「確率変数」という数値に対応させ、その変数がどのような値を取りやすいのかを「確率分布」という形でモデル化することです。
1.1. 確率変数の期待値・分散・標準偏差
- 確率変数 (Random Variable)
- 試行の結果によって値が定まる変数を確率変数といい、通常
$X$
などの大文字で表します。例えば、「さいころを1回投げたときに出る目」や「無作為に抽出した製品の重さ」などが確率変数です。
- 試行の結果によって値が定まる変数を確率変数といい、通常
- 期待値 (Expectation)
- 確率変数 $X$ の期待値 $E(X)$(または平均 $\mu$)は、その確率変数が平均してどのくらいの値を取るかを示す指標です。各々の値 $x_i$ にその確率 $p_i$ を重みとして掛け合わせた加重平均で定義されます。$$E(X) = \sum_{i} x_i p_i$$
2025年度新課程 第5問(1)
では、くじの得点を確率変数Xとし、その期待値E(X)を$\sum x_i p_i$
の定義に従って計算させています 1111。
- 分散 (Variance) と 標準偏差 (Standard Deviation)
- 分散 $V(X)$(または $\sigma^2$)は、確率変数の値がその期待値(平均)からどれだけ散らばっているか、その「ばらつきの度合い」を示す指標です。偏差(値と平均の差)の2乗の期待値として定義されます。$$V(X) = E[(X – E(X))^2] = \sum_{i} (x_i – E(X))^2 p_i$$
- 計算上は、
$V(X) = E(X^2) - (E(X))^2$
((2乗の平均)-(平均の2乗))の公式が非常に便利です。 - 標準偏差
$\sigma(X)$
は、分散の正の平方根$\sqrt{V(X)}$
で定義され、期待値と同じ単位を持つため、ばらつきをより直観的に解釈しやすくなります。
- 確率変数の線形変換
- 確率変数 $X$ を定数 $a, b$ を用いて $Y = aX + b$ と変換した場合、その期待値と分散は以下のように変換されます。これは極めて重要な性質です。$$E(Y) = E(aX + b) = aE(X) + b$$$$V(Y) = V(aX + b) = a^2V(X)$$
2025年度新課程 第5問(2)
では、得点$X$
から参加費$c$
を引いた損益$Y = X - c$
を考えています 2。このとき、期待値は$E(Y) = E(X) - c$
3333、分散は$V(Y) = 1^2 \cdot V(X) = V(X)$
4444 となります。分散において、定数$c$
を引く(平行移動する)だけでは、ばらつきの度合いは変わらないという点がポイントです。
1.2. 二項分布 – 「成功か失敗か」の反復試行
共通テストの統計問題で最も頻繁に登場する確率分布が二項分布です。
- 二項分布
$B(n, p)$
の成立条件- ある試行が以下の条件を満たすとき、成功回数を表す確率変数
$X$
は二項分布に従います。- 同じ試行を
$n$
回繰り返す(反復試行)。 - 各試行は独立である(互いに影響しない)。
- 各試行の結果は「成功」か「失敗」のどちらかである。
- 各試行における成功の確率
$p$
は常に一定である。
- 同じ試行を
- ある試行が以下の条件を満たすとき、成功回数を表す確率変数
- 確率と期待値・分散
- $n$ 回の試行のうち、成功が $k$ 回起こる確率は、$$P(X=k) = {}_n\mathrm{C}_k p^k (1-p)^{n-k}$$で計算されます。
- 期待値と分散は、以下の非常にシンプルな公式で与えられます。これは必ず暗記してください。$$E(X) = np$$$$V(X) = np(1-p)$$
2022年度本試験 第3問(1)
では、さいころを72回投げ、特定の目が出る回数を確率変数$X$
としています 5。これは試行回数$n=72$
、成功確率$p=1/36$
の二項分布$B(72, 1/36)$
に従う典型例であり 6666、その期待値$E(X) = 72 \times (1/36) = 2$
が問われています 7。
2. 連続型確率分布と正規分布 – 大標本の挙動を捉える
試行回数 $n$
が非常に大きい場合、二項分布の計算は現実的ではありません。そこで登場するのが、連続的な値をとる確率変数を扱う正規分布と、二項分布を正規分布で近似する考え方です。
2.1. 正規分布とその性質
- 正規分布
$N(\mu, \sigma^2)$
- 正規分布は、平均
$\mu$
を中心に左右対称な釣鐘型の連続的な確率分布です。現実世界の多くの事象(身長、体重、測定誤差など)がこの分布に近似的に従うことが知られています。 $\mu$
は分布の中心(平均)を、$\sigma$
(標準偏差)は分布の広がり(ばらつき)を決定します。
- 正規分布は、平均
- 標準化と正規分布表の活用
- 平均や標準偏差が異なる様々な正規分布を統一的に扱うため、標準化という操作を行います。
- 確率変数 $X$ が正規分布 $N(\mu, \sigma^2)$ に従うとき、$$Z = \frac{X – \mu}{\sigma}$$と変換すると、$Z$ は平均が0、標準偏差が1の標準正規分布 $N(0, 1)$ に従います。
- 共通テストでは、この
$Z$
に関する確率を計算するための正規分布表が与えられます 8888888888888888888888888888888888888888888888888888888888888888888888888888888888888888888888888888。この表と、グラフの対称性を利用して、$P(a \le X \le b)$
のような確率を求めることができます。 2025年度新課程 第5問(1)
では、レモンの重さ$X$
が正規分布$N(110, 20^2)$
に従うと仮定し、$P(110 \le X < 140)$
を求めるために、$X=140$
を$Z = (140-110)/20 = 1.5$
と標準化し、正規分布表から$P(0 \le Z \le 1.5)$
の値を読み取らせています 9。
2.2. 二項分布の正規分布による近似
- 中心極限定理の思想
- 二項分布
$B(n, p)$
は、試行回数$n$
が十分に大きいとき、その形状が正規分布$N(np, np(1-p))$
に非常によく似てきます。 - これにより、本来は離散的な確率分布である二項分布の確率計算を、連続的な正規分布の問題として近似的に解くことが可能になります。これは中心極限定理として知られる、統計学における最も重要な定理の一つに基づいています。
- 二項分布
- 共通テストでの適用
- 「試行回数
$n$
は十分に大きいので」という一文は、この近似を用いてよいという合図です。 2023年度本試験 第3問(2)
では、50個のピーマンを抽出し、Sサイズである確率$p=1/2$
に基づいて、Sサイズの個数$U_0$
が二項分布$B(50, 1/2)$
に従うことを確認させた上で 10、さらに多くの個数$(50+k)$
を抽出した場合は、その個数を表す確率変数$U_k$
が正規分布で近似できるとして話を進めています 11。この流れは、二項分布から正規分布への移行を体験させる典型的な問題構成です。
- 「試行回数
3. 統計的推測 – 標本から母集団を探る
統計的推測の目的は、手元にある一部分のデータ(標本)から、その背後にある巨大な集団(母集団)全体の性質を、確率的な裏付けをもって推論することです。
3.1. 母集団と標本 – 推測の論理
- 母集団と標本
- 母集団 (Population):調査対象となる全体の集団(例:日本全国の有権者、工場で生産された全ての製品)。母集団の平均を母平均 (
$\mu$
)、分散を母分散 ($\sigma^2$
)、標準偏差を母標準偏差($\sigma$
)と呼びます。 - 標本 (Sample):母集団から無作為に抽出された一部分の集団(例:1000人の有権者、100個の製品)。標本から計算される平均を標本平均 (
$\bar{x}$
)、分散を標本分散 ($s^2$
)と呼びます。
- 母集団 (Population):調査対象となる全体の集団(例:日本全国の有権者、工場で生産された全ての製品)。母集団の平均を母平均 (
- 標本平均の分布
- 統計的推測の理論的な土台となるのが、標本平均 $\bar{X}$ の性質です。母平均 $\mu$、母分散 $\sigma^2$ の母集団から、大きさ $n$ の標本を無作為抽出するとき、標本平均 $\bar{X}$ の期待値と分散は以下のようになります。$$E(\bar{X}) = \mu$$$$V(\bar{X}) = \frac{\sigma^2}{n}$$
$V(\bar{X})$
の式は、標本のサイズ$n$
が大きくなるほど、標本平均$\bar{X}$
のばらつきは小さくなることを意味しています。- そして中心極限定理により、
$n$
が大きければ、$\bar{X}$
は正規分布$N(\mu, \sigma^2/n)$
に近似的に従います。2025年度新課程 第5問(2)
では、この一連の理論が誘導形式で丁寧に説明されています 121212121212121212。
3.2. 母平均の信頼区間推定
母平均 $\mu$
は未知の値であることがほとんどです。そこで、標本平均 $\bar{x}$
を用いて、$\mu$
が存在すると期待される「範囲」を推定します。これが信頼区間です。
- 信頼区間の考え方と公式
- 信頼度95%の信頼区間とは、「この手順で区間を100回作ったら、そのうち95回は真の母平均
$\mu$
を含むような区間が作れる」という手続きの信頼性を表すものです。 - $n$ が大きいとき、母平均 $\mu$ に対する信頼度95%の信頼区間は、$$\bar{x} – 1.96 \frac{\sigma}{\sqrt{n}} \le \mu \le \bar{x} + 1.96 \frac{\sigma}{\sqrt{n}}$$で与えられます。ここで1.96という値は、標準正規分布において $-1.96 \le Z \le 1.96$ となる確率が0.95であることに由来します。
- 共通テストでは、母標準偏差
$\sigma$
が未知の場合、$n$
が大きければ標本の標準偏差$s$
で代用してよい、という断りが必ず入ります 13131313。
- 信頼度95%の信頼区間とは、「この手順で区間を100回作ったら、そのうち95回は真の母平均
- 共通テストにおける出題例
2025年度新課程 第5問(3)
では、400個のレモンの標本平均が16.75点、標本の標準偏差が75点であったとき、母平均$m$
に対する信頼度95%の信頼区間を計算させています 14。- 計算結果の解釈も重要です。
2023年度本試験 第3問(3)
では、計算した信頼区間$[ツ, テ]$
に、理論的な期待値$E(X)$
が含まれているかどうかを判断させ、標本の結果が理論と矛盾しないかを考察させています 15151515。
3.3. 仮説検定の枠組み
仮説検定は、母集団に関するある仮説が正しいと言えるかどうかを、標本データに基づいて確率的に判断する手法です。
- 仮説検定の論理的ステップ
- 仮説の設定:
- 帰無仮説 (
$H_0$
):否定したい、あるいは基準となる仮説(例:「母平均$\mu$
は110gである」$\mu=110$
)。 - 対立仮説 (
$H_1$
):主張したい、あるいは検証したい仮説(例:「母平均$\mu$
は110gより軽い」$\mu<110$
)。
- 帰無仮説 (
- 有意水準 (
$\alpha$
) の設定:帰無仮説が正しいにもかかわらず、それを棄却してしまう間違い(第一種の過誤)を犯す確率の上限。通常、5% (0.05
) や 1% (0.01
) に設定されます。 - 検定統計量の計算:帰無仮説が正しいと仮定したときに、観測されたデータがどの程度珍しいかを示す指標を計算します。通常、標準化した
$Z$
値を用います。 - 判定:
- 計算された検定統計量が、予め定めた棄却域(起こる確率が有意水準
$\alpha$
以下の、極端な値の範囲)に入った場合 → 帰無仮説を棄却し、対立仮説を採択する。 - 棄却域に入らなかった場合 → 帰無仮説を棄却できない(結論を保留する)。
- 計算された検定統計量が、予め定めた棄却域(起こる確率が有意水準
- 仮説の設定:
- 共通テストでの実践 (
2025年度新課程 第5問(3)
より)- この問題では、「レモンの母平均
$m$
が110gより軽いといえるか」を検定します 16。 - 仮説:帰無仮説
$H_0: m=110$
、対立仮説$H_1: m<110$
17171717。 - 仮定:帰無仮説が正しいと仮定すると、標本平均
$\bar{W}$
は正規分布$N(110, 20^2/400) = N(110, 1^2)$
に従う 18181818。 - 計算:標本平均108.2gが得られたとき、それが起こる確率
$P(\bar{W} \le 108.2)$
を計算します。標準化すると$Z = (108.2 - 110) / 1 = -1.8$
。正規分布表から$P(Z \le -1.8)
を求めると約0.036となります 19。 - 判定:この確率(p値)は有意水準5% (0.05)より小さいです。これは、「もし本当に母平均が110gなら、これほど低い標本平均が得られるのは極めて珍しい(確率3.6%)」ことを意味します。したがって、帰無仮説は棄却され、「母平均は110gより軽いと判断できる」と結論付けます 202020202020202020。
- この問題では、「レモンの母平均
結論:Module 6の総括
確率分布と統計的推測は、一連の論理的な物語として構成されています。その物語を理解し、自分が今どの段階にいるのかを把握することが、この分野を攻略する最大の鍵です。
- モデル化:現実の不確実な事象を、確率変数と確率分布(特に二項分布)という数学の言葉で表現する。
- 理論的基盤:試行回数が多い、あるいは標本サイズが大きいという状況では、中心極限定理を背景として、万能な正規分布を解析の道具として用いる。その際の「標準化」は必須の計算技術である。
- 推測の実践:標本データから、母集団のパラメータ(特に母平均)がどのような値を取りそうか「範囲」で推定する(区間推定)。あるいは、母集団に関する特定の主張が正しいかどうかを、確率的な基準で「判断」する(仮説検定)。
共通テストの問題は、この物語を丁寧に一歩ずつ辿らせてくれます。期待値の計算から始まり、信頼区間の計算、そして仮説検定へと至る流れは、まさに統計的思考の王道です。各ステップで何が問われ、どの公式や概念が対応するのかを正確に結びつける訓練を積むことで、一見複雑に見える長文問題も、確実な得点源とすることができるでしょう。