【基礎 数学(数学B)】Module 7:統計的な推測(3) 統計的な推定

当ページのリンクには広告が含まれています。
  • 本記事は生成AIを用いて作成しています。内容の正確性には配慮していますが、保証はいたしかねますので、複数の情報源をご確認のうえ、ご判断ください。

本モジュールの目的と構成

本モジュールでは、統計的推測の核心的な柱の一つである「推定」について深く学びます。私たちは、知りたい対象のすべてを調査することが困難な、あるいは不可能な状況に頻繁に直面します。例えば、日本人全体の平均身長や、ある政党の全国的な支持率、工場で生産される全製品の平均寿命などです。このような、調査の対象となる全体の集団を「母集団」と呼びます。この母集団の特性を示す値、例えば母平均、母分散、母比率などを「母数」と呼びますが、その真の値を完全に知ることは極めて難しいのが現実です。

そこで私たちは、母集団からその一部を無作為に抽出し、その限られたデータ(これを「標本」と呼びます)を分析することで、母集団全体の性質、すなわち母数の値を推し量るというアプローチをとります。この科学的な推測のプロセスが「統計的推定」です。本モジュールを通じて、皆さんは不完全な情報から、いかにして客観的かつ合理的に全体像を推し量るか、そのための論理と数学的な技術を体系的に習得します。これは、現代社会に溢れる様々なデータや情報に惑わされることなく、その背後にある本質を見抜くための強力な知的「方法論」となります。

本モジュールは、以下の学習項目で構成されています。

  1. 推定の考え方(点推定、区間推定):まず、母数を一つの値で指し示す「点推定」と、ある程度の幅を持たせて「この範囲に母数があるだろう」と主張する「区間推定」という、二つの基本的なアプローチの本質的な違いと、それぞれの役割を明確に理解します。
  2. 母平均の区間推定:統計的推定において最も基本的かつ重要な、母集団の平均値(母平均)を、手元の標本データからどのようにして信頼できる区間として推定するのか、その具体的な計算手法と思考プロセスを学びます。
  3. 信頼区間と信頼度:推定結果の信頼性を数学的に保証する「信頼区間」と「信頼度」という極めて重要な概念を深く掘り下げます。特に「信頼度95%」といった表現が持つ真の確率的な意味を正確に捉え、よくある誤解を解消します。
  4. 標本の大きさと信頼区間の幅:調査の規模、すなわち標本の大きさ(サンプルサイズ)が、推定の精度を示す信頼区間の幅にどのように影響を与えるのか、その関係性を数式を通じて論理的に解き明かし、調査設計の勘所を掴みます。
  5. 母比率の区間推定:内閣支持率や製品の不良率など、社会調査や品質管理で頻繁に登場する「割合(比率)」に焦点を当て、母集団における比率(母比率)を区間で推定するための手法を習得します。
  6. 母分散の推定:データの平均的な位置だけでなく、その「ばらつき」の度合いを示す母分散を推定する方法について学びます。これにより、母集団の分布の形状をより深く推測する視点を養います。
  7. 推定の精度に関する考察:推定の精度とは何か、そしてそれを決定づける要因は何かを多角的に分析します。より信頼性の高い推測を行うために考慮すべき条件や、推定という行為そのものが内包する限界について考察を深めます。
  8. 統計的推測の応用事例:ここで学ぶ統計的推定の理論が、決して机上の空論ではなく、医学、経済学、マーケティングといった現実世界の多様な分野で、どのように活用され、私たちの意思決定を支えているのかを具体的な事例を通じて探求します。
  9. 世論調査の仕組み:私たちが日常的にメディアで目にする世論調査が、どのような統計的理論に基づいて設計・実施され、その結果が解釈されているのか、その科学的な裏側にある仕組みを解き明かします。
  10. 品質管理と統計:製造業をはじめとする産業界において、製品の品質を一定に保ち、向上させるための「品質管理」の現場で、統計的推定がいかに不可欠な役割を果たしているかを学びます。

このモジュールを学び終えるとき、皆さんは単なる計算手順の暗記に留まらず、不確実性を伴う現実世界の中で、データに基づいていかにして合理的な判断を下すかという「推測の科学」という強力な思考の枠組みを身につけていることでしょう。

目次

1. 推定の考え方(点推定、区間推定)

統計的な推測は、大きく「推定」と「仮説検定」の二つの領域に分かれます。このモジュールで扱うのは前者、「推定」です。推定とは、手元にある標本という断片的な情報を用いて、知りたい対象である母集団の特性(母数)がどのような値であるかを推測する行為です。そのアプローチには、大きく分けて「点推定」と「区間推定」の二つが存在します。これら二つの考え方を正確に理解することが、統計的推定の世界への第一歩となります。

1.1. 統計的推測の全体像と「推定」の位置づけ

私たちが統計学を学ぶ根源的な動機の一つは、「知りたいけれど、全てを調べることはできない」という壁を乗り越えるためです。例えば、ある製薬会社が新しい頭痛薬を開発したとします。この薬が本当に効果があるのか、平均して何分で効果が現れるのかを知りたいと考えます。このとき、調査の対象となる「頭痛に悩む日本人全体」が母集団であり、知りたい値である「日本人全体における効果発現時間の平均」が母平均 \(\mu\) です。

しかし、日本人全員にこの薬を投与して時間を計測することは、コスト、時間、倫理的な観点から不可能です。そこで、私たちは母集団から一部の人々を無作為に選び出し(例えば100人)、その人たちに薬を投与して効果発現時間を記録します。この選ばれた100人の集団が「標本」であり、その100人のデータから得られた平均時間(例えば20分)が「標本平均」 \(\bar{x}\) です。

統計的推測の目的は、この観測できた標本平均 \(\bar{x} = 20\) 分という情報だけを頼りにして、観測できていない真の母平均 \(\mu\) の値を推し量ることにあります。この「推し量る」という行為が「推定」なのです。

このプロセスは、刑事ドラマにおける推理に似ています。刑事は、現場に残された指紋や目撃証言といった断片的な証拠(標本)から、まだ捕まっていない犯人(母集団の真の姿)を特定しようとします。もちろん、証拠が不完全である以上、100%の確信を持つことはできません。しかし、論理的な推論を重ねることで、犯人像を絞り込んでいきます。統計的推定も同様に、不完全なデータから、数学的な論理を用いて母集団の姿に迫っていく知的な営みなのです。

1.2. 点推定:一点で母数を狙う

点推定は、母数を「この一つの値だろう」と、ピンポイントで推定する方法です。最も直感的で分かりやすい推定方法と言えるでしょう。

例えば、前述の頭痛薬の例で、母平均 \(\mu\) を推定したい場合、何を以ってその推定値とするのが最も合理的でしょうか。多くの人は、手元にある標本平均 \(\bar{x} = 20\) 分をそのまま母平均 \(\mu\) の推定値として採用するのが自然だと感じるはずです。実際にその通りで、母平均 \(\mu\) の点推定値としては、標本平均 \(\bar{x}\) を用いるのが一般的です。

同様に、

  • 母比率 \(p\) (例:全国の有権者の内閣支持率)を推定したい場合は、標本比率 \(\hat{p}\) (例:無作為抽出した1000人の支持率)を点推定値として用います。
  • 母分散 \(\sigma^2\) (例:ある部品の寿命のばらつき)を推定したい場合は、標本分散を少し調整した「不偏分散」 \(u^2\) を点推定値として用います。(不偏分散については後のセクションで詳しく解説します。)

このように、点推定は標本から計算される統計量(標本平均、標本比率など)を、そのまま対応する母数(母平均、母比率など)の推測値として利用する考え方です。これは、ダーツの的の中心を狙って矢を一本だけ投げるようなイメージです。その一投が、母数という的の中心を正確に射抜くことを期待するわけです。

ミニケーススタディ:池の魚の数を推定する

ある池に生息する魚の総数 \(N\) を点推定したいと考えます。どうすればよいでしょうか。

一つの方法として、「標識再捕獲法」があります。

  1. まず、池から魚を \(M\) 匹捕獲し、それらすべてに標識をつけて池に戻します。(例:\(M=100\) 匹)
  2. しばらくして魚が池全体に均一に混ざった後、再び \(n\) 匹の魚を捕獲します。(例:\(n=80\) 匹)
  3. その中に、標識のついた魚が \(x\) 匹いたとします。(例:\(x=10\) 匹)

このとき、母集団(池全体の魚)における標識魚の比率 \(M/N\) と、標本(再捕獲した魚)における標識魚の比率 \(x/n\) は、ほぼ等しいだろうと考えるのが合理的です。

つまり、

\[ \frac{M}{N} \approx \frac{x}{n} \]

という比例式が成り立つと推測できます。ここから、未知の値である \(N\) を求めると、

\[ N \approx \frac{M \times n}{x} \]

となります。

今回の例の数値を代入すると、

\[ N \approx \frac{100 \times 80}{10} = 800 \]

となり、池の魚の総数は約800匹であると点推定できます。これもまた、限られた標本情報から母集団の特性(総数)を一点で推定する、点推定の一例です。

1.3. 点推定の限界:一点の危うさ

点推定はシンプルで分かりやすい反面、重大な弱点を抱えています。それは、**「その推定値が、真の母数と完全に一致する可能性は極めて低い」**ということです。

頭痛薬の例に戻りましょう。標本平均は20分でしたが、もし私たちが偶然、薬が効きやすい体質の人ばかりを標本に選んでしまったら、標本平均は真の母平均よりも短い値(例えば18分)になるでしょう。逆に、効きにくい人ばかりを選んでしまえば、もっと長い値(例えば25分)になるかもしれません。

無作為抽出を行ったとしても、抽出する標本が毎回異なれば、標本平均の値もその都度ばらつきます。標本平均が、小数点以下まで含めて真の母平均と寸分違わず一致することは、天文学的な確率でしか起こりえません。

ダーツの例えで言えば、的の中心を狙って投げた一本の矢が、本当にど真ん中に突き刺さることは稀です。ほとんどの場合、中心からわずかにずれた場所に当たります。点推定とは、この「わずかにずれているかもしれない一投」を指して、「的の中心はここだ」と断言するようなものなのです。

この方法では、推定がどれくらい「惜しい」のか、つまり、真の値からどれくらい離れている可能性があるのか、その誤差の大きさに関する情報が一切提供されません。「平均20分」と推定されても、それが「たぶん19分から21分の間だろう」という精度なのか、「もしかしたら15分から25分の間かもしれない」という程度の精度なのかが全く分からないのです。これでは、その推定値を安心して利用することはできません。

1.4. 区間推定:幅で母数を捉える

点推定の限界を克服するために生まれたのが「区間推定」です。区間推定は、母数を一つの値で断定するのではなく、「母数は、おそらくこの区間の中にあるだろう」と、幅を持たせて推定する方法です。

これは、ダーツで的の中心を狙うのではなく、的全体を覆うような大きな網(区間)を投げて、「的(母数)はこの網の中に捉えられているはずだ」と主張するようなイメージです。

具体的には、「標本平均は20分であった。この結果から、真の母平均 \(\mu\) は、95%の確率で18.5分から21.5分の間に含まれる」といった形で結論を述べます。この「18.5分から21.5分まで」という区間を信頼区間 (Confidence Interval) と呼び、ここで用いられた「95%」という確率を信頼度 (Confidence Level) または信頼係数と呼びます。

区間推定の最大の利点は、推定の精度を明確に示せることです。区間の幅が狭ければ、母数をかなり正確に絞り込めていることを意味し、推定の精度は高いと言えます。逆に、区間の幅が広ければ、母数が存在する範囲が広く、推定の精度は低いということになります。

例えば、

  • A社の調査:「支持率は40%から42%の間と推定される」
  • B社の調査:「支持率は35%から47%の間と推定される」

この二つの報告を受け取ったとき、私たちはA社の調査の方がより精度の高い推定を行っていると判断できます。このように、区間推定は誤差の大きさを「区間の幅」という形で可視化してくれるため、点推定よりも遥かに多くの情報を提供してくれるのです。

1.5. 点推定と区間推定の比較と使い分け

点推定と区間推定は、どちらが優れていてどちらが劣っているというものではなく、互いに補完しあう関係にあります。

特徴点推定区間推定
推定方法母数を1つの値で推定する母数を含む確率的な区間を推定する
表現\(\mu \approx 20\)\(18.5 \le \mu \le 21.5\)
長所直感的で分かりやすい推定の精度(誤差)が区間の幅で分かる
短所誤差の情報がなく、真の値と一致する可能性が極めて低い計算がやや複雑で、結果の解釈に注意が必要
アナロジーダーツの的の中心を狙う一投的を捕らえるための網

では、両者はどのように使い分けられるのでしょうか。

実際には、まず点推定によって母数のおおよその見当をつけ、次に区間推定によってその推定値がどの程度の信頼性を持つのか(誤差はどのくらいか)を評価する、という流れが一般的です。

例えば、新しい肥料の効果を調べる実験で、作物の平均収穫量の増加分を推定したいとします。

  1. 点推定: まず、標本データから平均増加量を計算し、「増加量は1サンプルあたり平均50g」という点推定値を得ます。これは、効果の大きさを端的に示すための分かりやすい指標となります。
  2. 区間推定: 次に、この点推定値の信頼性を評価するために区間推定を行います。その結果、「増加量の95%信頼区間は40gから60g」と得られたとします。これは、点推定値である50gという値が、プラスマイナス10g程度の誤差を含んでいる可能性があることを示唆します。もし、信頼区間が「-10gから110g」のように非常に広くなってしまったら、点推定値の50gという値はほとんど信頼できない、ということになります。

このように、区間推定は点推定の「答え」に信頼性の「裏付け」を与える役割を果たします。大学受験以降の学問や実社会で用いられる統計的推定では、単に点推定値を報告するだけでなく、必ず区間推定を併記することで、その結論の信頼性を客観的に示すことが求められます。このモジュールでは、この極めて重要な区間推定の考え方と計算方法を、中心的に学んでいくことになります。

2. 母平均の区間推定

区間推定の中で最も基本的かつ頻繁に利用されるのが、母平均 \(\mu\) の区間推定です。このセクションでは、標本平均 \(\bar{x}\) をもとにして、未知の母平均 \(\mu\) が含まれるであろう区間(信頼区間)を具体的にどのように計算するのかを学びます。その計算の根底には、前のモジュールで学んだ「中心極限定理」が極めて重要な役割を果たしています。

2.1. 推定の前提条件:母集団と標本

母平均の区間推定を行うにあたり、まずその舞台設定を明確にしておく必要があります。

  • 母集団: 私たちが本当に知りたい対象の全体です。その分布は、平均が \(\mu\) 、標準偏差が \(\sigma\) であるとします。この \(\mu\) と \(\sigma\) が母数であり、特に今回は \(\mu\) が未知であるという状況を考えます。母集団の分布が正規分布である場合もあれば、そうでない場合もあります。
  • 標本: 母集団から無作為に抽出された \(n\) 個のデータの集まりです。\(X_1, X_2, \dots, X_n\) のように表されます。重要なのは「無作為抽出」という点で、これにより標本が母集団の縮図として偏りなく選ばれていることが保証されます。
  • 標本統計量: 抽出した標本から計算される値です。
    • 標本平均: \(\bar{X} = \frac{1}{n}\sum_{i=1}^{n} X_i\)
    • 標本分散: \(S^2 = \frac{1}{n}\sum_{i=1}^{n} (X_i – \bar{X})^2\)
    • 不偏分散: \(U^2 = \frac{1}{n-1}\sum_{i=1}^{n} (X_i – \bar{X})^2\)

私たちのミッションは、観測できた標本平均 \(\bar{X}\) の値(具体的に計算した値を \(\bar{x}\) と書きます)を手がかりに、未知の母平均 \(\mu\) が存在しそうな区間を求めることです。

2.2. 中心極限定理の復習とその重要性

ここで、標本平均 \(\bar{X}\) という確率変数の性質を思い出しましょう。母集団から大きさ \(n\) の標本を何度も何度も抽出し、そのたびに標本平均 \(\bar{X}\) を計算すると、その \(\bar{X}\) の値は毎回少しずつ異なる値をとります。つまり、標本平均 \(\bar{X}\) 自体も一つの確率分布(これを標本分布といいます)に従うのです。

そして、この標本平均 \(\bar{X}\) の分布に関して、中心極限定理 (Central Limit Theorem) という、統計学において最も重要とも言える定理が存在しました。

中心極限定理

母集団が平均 \(\mu\)、標準偏差 \(\sigma\) の分布に従うとき、標本の大きさ \(n\) が十分に大きければ(一般に \(n \ge 30\) が目安)、標本平均 \(\bar{X}\) の分布は、母集団がどのような分布であっても、近似的に正規分布 \(N(\mu, \frac{\sigma^2}{n})\) に従う。

この定理の凄さは、元の母集団の分布の形を問わない(正規分布でなくてもよい)という点にあります。どんな形の母集団からデータを取ってきても、そこから計算される標本平均たちの分布は、標本の大きさ \(n\) が大きくなるにつれて、きれいな正規分布の形に近づいていくのです。

この定理により、私たちは標本平均 \(\bar{X}\) がどのような値を取りやすいのか、その確率的な振る舞いを正規分布という非常に扱いやすい分布で記述することができます。具体的には、\(\bar{X}\) を標準化(平均を0、標準偏差を1に変換)した確率変数 \(Z\) は、

\[ Z = \frac{\bar{X} – \mu}{\sigma / \sqrt{n}} \]

となり、この \(Z\) は標準正規分布 \(N(0, 1)\) に(近似的に)従います。

区間推定は、まさにこの性質を利用します。\(Z\) が標準正規分布に従うということは、\(Z\) が特定の値の範囲に収まる確率を、正規分布表を使って正確に計算できるということです。例えば、\(Z\) が \(-1.96\) から \(1.96\) までの間に収まる確率は約95% (\(0.95\)) であることが知られています。

\[ P(-1.96 \le Z \le 1.96) = 0.95 \]

この式が、母平均の信頼区間を導出するための出発点となります。

2.3. 母分散が既知の場合の母平均の区間推定

まずは、母集団の分散 \(\sigma^2\) (したがって標準偏差 \(\sigma\))の値が、何らかの理由で既に分かっているという理想的なケースを考えてみましょう。現実には稀ですが、理論の出発点として重要です。

中心極限定理から、

\[ Z = \frac{\bar{X} – \mu}{\sigma / \sqrt{n}} \]

は、標準正規分布 \(N(0, 1)\) に従います。

信頼度を95%として信頼区間を求めてみましょう。標準正規分布では、確率が95%となる範囲は \(-1.96 \le Z \le 1.96\) です。

したがって、

\[ P(-1.96 \le \frac{\bar{X} – \mu}{\sigma / \sqrt{n}} \le 1.96) = 0.95 \]

が成り立ちます。この不等式の意味するところは、「母集団から標本を一つ抽出して標本平均 \(\bar{X}\) を計算したとき、その \(\bar{X}\) を使って作った \(\frac{\bar{X} – \mu}{\sigma / \sqrt{n}}\) という値が、-1.96と1.96の間に収まる確率は95%である」ということです。

今、私たちが知りたいのは未知の母平均 \(\mu\) の範囲です。そこで、この不等式を \(\mu\) について解き、\(\mu\) を真ん中に来るように式変形します。

\[ -1.96 \le \frac{\bar{X} – \mu}{\sigma / \sqrt{n}} \le 1.96 \]

各辺に \(\sigma / \sqrt{n}\) を掛けると、

\[ -1.96 \frac{\sigma}{\sqrt{n}} \le \bar{X} – \mu \le 1.96 \frac{\sigma}{\sqrt{n}} \]

各辺から \(\bar{X}\) を引くと、

\[ -\bar{X} – 1.96 \frac{\sigma}{\sqrt{n}} \le -\mu \le -\bar{X} + 1.96 \frac{\sigma}{\sqrt{n}} \]

各辺に \(-1\) を掛けると、不等号の向きが逆転します。

\[ \bar{X} + 1.96 \frac{\sigma}{\sqrt{n}} \ge \mu \ge \bar{X} – 1.96 \frac{\sigma}{\sqrt{n}} \]

これを整理して書くと、

\[ \bar{X} – 1.96 \frac{\sigma}{\sqrt{n}} \le \mu \le \bar{X} + 1.96 \frac{\sigma}{\sqrt{n}} \]

となります。

この式が、母平均 \(\mu\) に対する信頼度95%の信頼区間を表します。実際に標本を一つ抽出して得られた標本平均の実現値を \(\bar{x}\) とすると、具体的な信頼区間は

\[ \left[ \bar{x} – 1.96 \frac{\sigma}{\sqrt{n}}, \quad \bar{x} + 1.96 \frac{\sigma}{\sqrt{n}} \right] \]

と計算されます。

同様に、信頼度99%の信頼区間を求めたい場合は、標準正規分布で確率が99%となる範囲を調べます。これは \(-2.58 \le Z \le 2.58\) なので、信頼区間は

\[ \left[ \bar{x} – 2.58 \frac{\sigma}{\sqrt{n}}, \quad \bar{x} + 2.58 \frac{\sigma}{\sqrt{n}} \right] \]

となります。

一般的に、信頼度 \((1-\alpha) \times 100\) % の信頼区間を求めるには、標準正規分布の上側 \(\alpha/2\) 点(グラフの右側の面積が \(\alpha/2\) となる \(z\) の値)を \(z_{\alpha/2}\) とすると、

\[ \left[ \bar{x} – z_{\alpha/2} \frac{\sigma}{\sqrt{n}}, \quad \bar{x} + z_{\alpha/2} \frac{\sigma}{\sqrt{n}} \right] \]

と表すことができます。

2.4. 母分散が未知の場合の母平均の区間推定

さて、ここからがより現実的な状況です。通常、母平均 \(\mu\) が未知であるならば、母分散 \(\sigma^2\) も同様に未知であることがほとんどです。この場合、前節の式に含まれる \(\sigma\) を使うことができません。

では、どうすればよいでしょうか。最も自然な発想は、未知の \(\sigma\) の代わりに、その推定値である標本の標準偏差を使おう、というものです。しかし、\(n\) が小さい場合、標本標準偏差は \(\sigma\) の良い近似とは言えず、誤差が大きくなることが知られています。

そこで、\(\sigma\) の代わりに、標本から計算した不偏標準偏差 \(U\) を用いることを考えます。不偏分散 \(U^2\) は \(\frac{1}{n-1}) で割ることで、\(\sigma^2\) のより良い推定値となるように補正されたものでした。

\[ U^2 = \frac{1}{n-1}\sum_{i=1}^{n} (X_i – \bar{X})^2 \]

この \(U\) を用いて、先ほどの \(Z\) に似た新しい確率変数 \(T\) を定義します。

\[ T = \frac{\bar{X} – \mu}{U / \sqrt{n}} \]

この \(T\) が従う分布は、もはや標準正規分布ではありません。ウィリアム・ゴセットという統計学者が「スチューデント」というペンネームで発表した、t分布 (Student’s t-distribution) と呼ばれる新しい確率分布に従うことが分かっています。

t分布の特徴

  • 形状: 標準正規分布と同じく、0を中心とする左右対称の釣鐘型の分布です。
  • 裾の広がり: 標準正規分布に比べて、裾がやや広く、少し扁平な形をしています。これは、\(\sigma\) が未知であるという不確実性を反映しており、極端な値が出やすいことを意味します。
  • 自由度: t分布の形は、自由度 (degrees of freedom) と呼ばれるパラメータ(通常 \(\nu\) や \(df\) と書く)によって決まります。母平均の推定の場合、自由度は \(\nu = n-1\) となります。自由度が大きくなる(つまり、標本の大きさ \(n\) が大きくなる)と、t分布はどんどん標準正規分布に近づいていきます。直感的には、標本が大きくなれば不偏標準偏差 \(U\) の精度が上がり、\(\sigma\) の良い近似となるため、\(T\) の分布が \(Z\) の分布に近づくと理解できます。

このt分布を用いることで、母分散が未知の場合でも、母平均の信頼区間を構成することができます。

自由度 \(n-1\) のt分布において、上側 \(\alpha/2\) 点を \(t_{n-1, \alpha/2}\) と書くと、

\[ P(-t_{n-1, \alpha/2} \le T \le t_{n-1, \alpha/2}) = 1-\alpha \]

が成り立ちます。

この不等式を、先ほどと同様に \(\mu\) について解くことで、母平均 \(\mu\) に対する信頼度 \((1-\alpha) \times 100\) % の信頼区間が得られます。

\[ \left[ \bar{x} – t_{n-1, \alpha/2} \frac{u}{\sqrt{n}}, \quad \bar{x} + t_{n-1, \alpha/2} \frac{u}{\sqrt{n}} \right] \]

ここで \(\bar{x}\) は標本平均、\(u\) は不偏標準偏差の実現値です。

補足:標本の大きさ \(n\) が大きい場合

中心極限定理が十分に機能するよう、標本の大きさ \(n\) が大きい場合(例えば \(n \ge 30\))、不偏標準偏差 \(u\) は母標準偏差 \(\sigma\) の非常に良い近似値となります。また、t分布も標準正規分布に非常に近くなります。そのため、実用上は \(\sigma\) の代わりに \(u\) を用い、t分布の代わりに標準正規分布を使って、

\[ \left[ \bar{x} – z_{\alpha/2} \frac{u}{\sqrt{n}}, \quad \bar{x} + z_{\alpha/2} \frac{u}{\sqrt{n}} \right] \]

として計算することも広く行われています。高校数学の教科書では、こちらの方法が主に扱われます。

2.5. 具体的な計算プロセスと解釈

例題: ある工場で製造された製品の重さを調査するため、100個を無作為に抽出して重さを測定したところ、平均は 500g、不偏標準偏差は 10g であった。この製品の重さの母平均 \(\mu\) に対する、信頼度95%の信頼区間を求めなさい。

解法:

  1. 与えられた情報を整理する。
    • 標本の大きさ: \(n = 100\)
    • 標本平均: \(\bar{x} = 500\) g
    • 不偏標準偏差: \(u = 10\) g
    • 信頼度: 95%
  2. 適切な分布と値を確認する。
    • 標本の大きさ \(n=100\) は十分に大きいので、中心極限定理が適用でき、標本平均 \(\bar{X}\) の分布は正規分布で近似できる。
    • 母分散は未知だが \(n\) が大きいので、標準正規分布を利用して信頼区間を構成する。(もし \(n\) が小さければt分布を用いる。)
    • 信頼度95%に対応する標準正規分布の値は \(z_{0.025} = 1.96\) である。
  3. 信頼区間の公式に代入する。
    • 信頼区間の公式は \[ \bar{x} \pm z_{\alpha/2} \frac{u}{\sqrt{n}} \]
    • 値を代入すると、\[ 500 \pm 1.96 \times \frac{10}{\sqrt{100}} \]\[ = 500 \pm 1.96 \times \frac{10}{10} \]\[ = 500 \pm 1.96 \]
  4. 区間を計算する。
    • 下限: \(500 – 1.96 = 498.04\)
    • 上限: \(500 + 1.96 = 501.96\)
  5. 結論を述べる。
    • よって、母平均 \(\mu\) に対する信頼度95%の信頼区間は、\([498.04, 501.96]\) となる。
    • 解釈: この計算結果から、「この工場で生産される全製品の平均重量は、95%の信頼度で 498.04g から 501.96g の間にある」と結論づけることができます。

この一連の流れが、母平均の区間推定における基本的なプロセスです。重要なのは、どの公式を使うべきか(母分散が既知か未知か、標本サイズが大きいか小さいか)を正しく判断し、計算結果が何を意味しているのかを正確に解釈することです。

3. 信頼区間と信頼度

区間推定の結果は、「信頼度95%で、母平均 \(\mu\) は \(a\) から \(b\) の間に含まれる」という形で表現されます。この「信頼区間」と「信頼度」は、区間推定の核となる概念ですが、その確率的な意味は非常に誤解されやすいポイントでもあります。ここでは、これらの概念の正しい意味を、アナロジーも交えながら深く理解していきます。

3.1. 「信頼度」の確率的な意味

「信頼度95%」と聞くと、多くの人は「求めた信頼区間(例えば [498.04, 501.96])の中に、真の母平均 \(\mu\) が95%の確率で存在する」と解釈してしまいがちです。しかし、この解釈は厳密には誤りです。

なぜ誤りなのでしょうか。その理由を理解するためには、何が「確率的に変動するもの」で、何が「固定された値」なのかを区別する必要があります。

  • 母平均 \(\mu\): これは私たちが知りたい未知の値ですが、特定のただ一つの値です。確率的に変動する変数ではありません。例えば、サイコロの目の期待値は3.5という一つの決まった値であり、サイコロを振るたびに変動するものではありません。同様に、日本人全体の真の平均身長も、ある時点においては一つの定まった(ただし未知の)値です。
  • 信頼区間: こちらは、標本を抽出するたびに変動するものです。もし、同じ母集団からもう一度、大きさ100の標本を無作為抽出したら、標本平均 \(\bar{x}\) の値は先ほどの500gとは少し違う値になるでしょう。それに伴い、計算される信頼区間の下限と上限も変わってきます。つまり、信頼区間は標本に依存する確率的な変数なのです。

したがって、「信頼区間 \([a, b]\) の中に \(\mu\) が存在する確率が95%」という表現は、定数である \(\mu\) に対して確率を語っているため、論理的におかしいのです。\(\mu\) が区間に入っているか、入っていないかのどちらかであり、そこに確率の概念は介在しません。

では、「信頼度95%」の正しい意味とは何でしょうか。

それは、**「これから行う一回の標本抽出と、それに基づいて信頼区間を計算するという一連の手続きにおいて、その結果得られる信頼区間が、真の母平均 \(\mu\) を含んでいる確率が95%である」**ということです。

もっと平易な言い方をすれば、**「同じ手順で100回標本抽出と信頼区間の計算を繰り返せば、そのうち約95個の信頼区間は真の母平均 \(\mu\) をその内部に含むが、残りの約5個は \(\mu\) を含みそこねてしまう」**という意味になります。

私たちが手元に持っている一つの信頼区間は、この100個のうちのどれか一つです。それが「当たり」の95個のうちの一つなのか、それとも「ハズレ」の5個のうちの一つなのかを知る術はありません。しかし、私たちは「95%の確率で当たる手続きを採用した」ということに基づいて、この区間を信頼しているのです。

3.2. 信頼度95%とは何か?:誤解しやすいポイント

前のセクションで述べた正しい解釈は、少し回りくどく感じるかもしれません。なぜ、このような少し複雑な解釈が必要になるのか、もう少し掘り下げてみましょう。

誤った解釈: 「母平均 \(\mu\) が、区間 [498.04, 501.96] に入る確率は95%である。」

この文がなぜダメなのかを考えてみます。計算が終わって [498.04, 501.96] という具体的な数値の区間が得られた後では、この区間も、そして真の母平均 \(\mu\) も、もはや確率的に動くものではありません。両方とも定数です。

例えば、真の \(\mu\) が 501.0 であったとしましょう。この場合、\(\mu=501.0\) は区間 [498.04, 501.96] に含まれています。この事実は確実であり、確率100%です。

もし、真の \(\mu\) が 502.0 であったとしましょう。この場合、\(\mu=502.0\) は区間 [498.04, 501.96] に含まれていません。この事実も確実であり、確率0%です。

このように、一度区間が確定してしまえば、\(\mu\) がその中に含まれる確率は100%か0%のどちらかしかないのです。「95%の確率で」という表現の居場所はありません。

正しい解釈: 「この信頼区間を計算するために用いた手続きは、100回試せば95回の割合で成功する(真の母平均を捕捉する)ものである。」

確率が語られる対象は、具体的な数値として得られた区間そのものではなく、その区間を生み出す**「標本抽出から区間計算までの一連のプロセス」**なのです。

この違いは、天気予報の「降水確率90%」とは少し意味合いが異なります。降水確率は、未来の「雨が降る」という事象そのものの起こりやすさを表しています。一方、信頼度は、過去のデータから計算された区間に関するものではなく、その計算手続きの長期的な成功率を表しているのです。

3.3. アナロジーで理解する信頼区間

この少し捉えにくい信頼度の概念を、比喩を使って理解してみましょう。

「輪投げ」のアナロジー

  • 的(まと): これが、位置は固定されているけれど我々からは見えない「真の母平均 \(\mu\)」です。
  • 輪(わ): これが、標本データから計算される「信頼区間」です。
  • 投げる人: 標本を抽出する調査者(私たち)です。

調査者が標本を一つ抽出して信頼区間を計算するという行為は、目隠しをされた状態で、的があると思われる方向に向かって輪を一つ投げる行為に似ています。

輪の大きさは、信頼度によって決まります。

  • 信頼度95%: これは、的を十分捉えられるくらいの「そこそこ大きい輪」です。この大きさの輪を使えば、100回投げれば95回は的を輪の中に入れることができる、という腕前(手続きの信頼性)を持っていることを意味します。
  • 信頼度99%: これは、さらに的を捉えやすいように作られた「かなり大きい輪」です。この輪を使えば、100回中99回は成功するでしょう。

さて、私たちは一回の調査で、輪を一度だけ投げます。投げ終わった後、目隠しを外すと、地面に落ちた輪が見えます。これが、私たちが計算した具体的な信頼区間です。

しかし、的の正確な位置は依然として見えません。

私たちに分かるのは、地面にある輪の位置だけです。この輪の中に、本当に的が入っているでしょうか?それは分かりません。もしかしたら、運悪く大きく的を外してしまい、輪が的を捉えそこなっているかもしれません。

それでも私たちは、「この輪は、100回投げれば95回は成功するほどの大きさ(信頼性)を持っている。だから、今回投げたこの一回の結果も、おそらく成功しているだろう」と信頼するわけです。これが、信頼区間と信頼度の関係性の本質です。

このアナロジーから分かるように、

  • 動いているのは「輪(信頼区間)」であり、「的(母平均)」ではありません。
  • 「信頼度95%」とは、輪が的を含む確率ではなく、輪投げという行為そのものの成功率を指します。
  • 一度投げられた輪(計算された信頼区間)について、それが成功しているか失敗しているかを断定することはできません。

3.4. 信頼区間の導出過程(数式による再確認)

この解釈が、数式のどこから来ているのかをもう一度見てみましょう。

出発点となった式は、

\[ P(-1.96 \le \frac{\bar{X} – \mu}{\sigma / \sqrt{n}} \le 1.96) = 0.95 \]

でした。

この式の主語は、確率変数である標本平均 \(\bar{X}\) です。まだ標本を抽出する前の段階で、「これから抽出する標本の平均 \(\bar{X}\) は、95%の確率で \(\mu \pm 1.96 \frac{\sigma}{\sqrt{n}}\) の範囲に収まるだろう」という予測を立てています。

この不等式を \(\mu\) について変形すると、

\[ P(\bar{X} – 1.96 \frac{\sigma}{\sqrt{n}} \le \mu \le \bar{X} + 1.96 \frac{\sigma}{\sqrt{n}}) = 0.95 \]

となります。

この式は、確率的に変動する区間 \([\bar{X} – 1.96 \frac{\sigma}{\sqrt{n}}, \bar{X} + 1.96 \frac{\sigma}{\sqrt{n}} ]\) が、定数である \(\mu\) を含む確率が95%であると読んでください。

主語はあくまで、標本を取るたびに値が変わるランダムな区間 \([\bar{X}{lower}, \bar{X}{upper}]\) なのです。

そして、実際に標本を一つ抽出して計算した具体的な区間 \([\bar{x}{lower}, \bar{x}{upper}]\) は、この確率的なプロセスの一つの実現値にすぎません。

3.5. 信頼度と信頼区間の関係

信頼度は、私たちがどれだけ確信を持ちたいかに応じて設定することができます。一般的には95%や99%がよく用いられます。

  • 信頼度を高く設定する(例:95% → 99%)
    • 輪投げの例で言えば、より成功率の高い「大きな輪」を使うことに相当します。
    • 数式で言えば、95%のときの \(z\) の値(1.96)よりも、99%のときの \(z\) の値(2.58)の方が大きくなります。
    • その結果、信頼区間の幅 \(2 \times z_{\alpha/2} \frac{\sigma}{\sqrt{n}}\) は広くなります。
    • 結論: 確信の度合いを高めようとすると、主張する区間の範囲は広くなり、推定の精度は下がります。「日本の成人の平均身長は、信頼度99.9%で100cmから250cmの間にある」と言っても、確実性は高いですが、ほとんど無意味な情報になってしまいます。
  • 信頼度を低く設定する(例:95% → 90%)
    • 成功率がやや下がる代わりに、「小さな輪」を使うことに相当します。
    • 90%に対応する \(z\) の値(1.645)は、95%のときの値(1.96)よりも小さくなります。
    • その結果、信頼区間の幅は狭くなります。
    • 結論: 主張する区間の範囲を絞り込み、推定の精度を上げようとすると、その主張が正しいという確信の度合い(信頼度)は犠牲になります。

このように、信頼度と信頼区間の幅(推定の精度)はトレードオフの関係にあります。高い確実性を求めれば精度が落ち、高い精度を求めれば確実性が落ちるのです。この関係を理解することは、調査の目的や状況に応じて、適切な信頼度を選択する上で非常に重要です。

4. 標本の大きさと信頼区間の幅

前セクションでは、信頼度と信頼区間の幅がトレードオフの関係にあることを見ました。実は、信頼区間の幅を決定するもう一つの、そして調査者がコントロール可能な極めて重要な要因が「標本の大きさ(サンプルサイズ)」です。ここでは、標本の大きさが推定の精度(信頼区間の幅)にどのように影響するのかを、数式と具体例を通じて解き明かしていきます。

4.1. 信頼区間の幅を決定する要因

母平均の信頼区間の公式を再掲します(母分散既知、または \(n\) が大きい場合)。

\[ \left[ \bar{x} – z_{\alpha/2} \frac{\sigma}{\sqrt{n}}, \quad \bar{x} + z_{\alpha/2} \frac{\sigma}{\sqrt{n}} \right] \]

この区間の中心は標本平均 \(\bar{x}\) であり、区間の幅 \(W\) (Width) は、

\[ W = (\bar{x} + z_{\alpha/2} \frac{\sigma}{\sqrt{n}}) – (\bar{x} – z_{\alpha/2} \frac{\sigma}{\sqrt{n}}) = 2 \times z_{\alpha/2} \frac{\sigma}{\sqrt{n}} \]

となります。

この式を観察すると、信頼区間の幅 \(W\) を決定しているのは、以下の三つの要素であることが分かります。

  1. 信頼度 (\(z_{\alpha/2}\)):これは、前セクションで見た通りです。信頼度を高くする(例:95%→99%)と、\(z_{\alpha/2}\) の値は大きく(例:1.96→2.58)なり、区間の幅 \(W\) は広くなります。これは調査者が分析の目的応じて設定する値です。
  2. 母集団のばらつき (\(\sigma\)):母標準偏差 \(\sigma\) は、母集団のデータの散らばり具合を表します。\(\sigma\) が大きい、つまり母集団のデータが元々大きくばらついている(例:日本人の所得など)場合、区間の幅 \(W\) は広くなります。逆に、\(\sigma\) が小さい、つまりデータが平均値の周りに密集している(例:精密機械の部品の直径など)場合、区間の幅 \(W\) は狭くなります。これは母集団が持つ固有の性質であり、調査者がコントロールすることはできません。
  3. 標本の大きさ (\(n\)):標本の大きさ \(n\) は、式の中で分母の平方根 \(\sqrt{n}\) の位置にあります。したがって、\(n\) が大きくなればなるほど、分数の値は小さくなり、区間の幅 \(W\) は狭くなります。これは、三つの要素の中で唯一、調査者が調査を設計する段階でコントロールできる要素です。

結論として、より精度の高い推定(狭い信頼区間)を得るためには、標本の大きさを増やすことが最も直接的で効果的な手段であると言えます。

4.2. 数式から読み解く関係性

信頼区間の幅の式 \(W = 2 z_{\alpha/2} \frac{\sigma}{\sqrt{n}}\) は、\(n\) と \(W\) の関係について、さらに重要な示唆を与えてくれます。

幅 \(W\) は、\(n\) の逆数ではなく、\(\sqrt{n}\) の逆数に比例しています。

\[ W \propto \frac{1}{\sqrt{n}} \]

これは、標本の大きさを増やしたときの「費用対効果」が、単純な比例関係ではないことを意味します。具体的に見てみましょう。

  • 信頼区間の幅を半分 (1/2) にしたい場合幅を \(1/2\) にするためには、\(1/\sqrt{n}\) を \(1/2\) にする必要があります。\[ \frac{1}{\sqrt{n_{new}}} = \frac{1}{2} \times \frac{1}{\sqrt{n_{old}}} = \frac{1}{\sqrt{4n_{old}}} \]つまり、\(n_{new} = 4n_{old}\) となり、標本の大きさを4倍にする必要があります。
  • 信頼区間の幅を10分の1 (1/10) にしたい場合同様に考えると、\[ \frac{1}{\sqrt{n_{new}}} = \frac{1}{10} \times \frac{1}{\sqrt{n_{old}}} = \frac{1}{\sqrt{100n_{old}}} \]となり、標本の大きさを100倍にする必要があります。

このように、推定の精度を2倍にするためには4倍の労力(サンプル数)が、精度を10倍にするためには100倍の労力が必要になるのです。この関係は**「平方根の逆数の法則」**とも呼ばれ、標本調査を計画する上で必ず考慮しなければならない重要な原則です。精度を上げれば上げるほど、そのために必要なコスト(標本を集める手間や費用)が加速度的に増大していくことを示しています。

4.3. 標本の大きさを2倍、4倍にすると幅はどうなるか

先ほどの関係を逆の視点から見てみましょう。

基準となる標本の大きさを \(n_0\)、そのときの信頼区間の幅を \(W_0 = C \frac{1}{\sqrt{n_0}}\) (ここで \(C = 2 z_{\alpha/2} \sigma\) は定数)とします。

  • 標本の大きさを2倍 (\(n=2n_0\)) にした場合新しい幅 \(W_1\) は、\[ W_1 = C \frac{1}{\sqrt{2n_0}} = C \frac{1}{\sqrt{2}\sqrt{n_0}} = \frac{1}{\sqrt{2}} (C \frac{1}{\sqrt{n_0}}) = \frac{1}{\sqrt{2}} W_0 \approx 0.707 W_0 \]となり、幅は元の約70.7%にしか縮まりません。労力を2倍にしても、精度は3割も改善しないのです。
  • 標本の大きさを4倍 (\(n=4n_0\)) にした場合新しい幅 \(W_2\) は、\[ W_2 = C \frac{1}{\sqrt{4n_0}} = C \frac{1}{2\sqrt{n_0}} = \frac{1}{2} (C \frac{1}{\sqrt{n_0}}) = \frac{1}{2} W_0 = 0.5 W_0 \]となり、幅は元の半分になります。これは先ほどの計算と一致します。

この非線形な関係を理解しておくことは、データの解釈において非常に重要です。例えば、サンプルサイズが50の調査と100の調査では、後者の方が信頼性が高いと言えますが、その精度の向上は2倍にはならず、約1.4倍(\(\sqrt{2}\)倍)に留まることを知っておくべきです。

4.4. 調査設計におけるトレードオフ:コストと精度

これまでの考察から、統計調査を設計する際には、常に**「許容できる誤差(信頼区間の幅)」「かけられるコスト(標本の大きさ)」**の間のトレードオフを考えなければならないことが分かります。

  • 高い精度が求められる場合:例えば、医薬品の効果を検証する臨床試験や、ロケットの部品の寸法を管理する場合など、わずかな誤差が重大な結果を招く可能性がある分野では、莫大なコストをかけてでも非常に大きな標本サイズを確保し、信頼区間の幅を可能な限り狭くする必要があります。
  • 大まかな傾向が知りたい場合:例えば、新商品のコンセプトに対する消費者の大まかな反応を知りたい、といった市場調査の初期段階では、それほど高い精度は必要とされないかもしれません。この場合、コストを抑えるために、ある程度の信頼区間の幅を許容し、比較的小さな標本サイズで調査を行うという判断が合理的です。

実務の世界では、多くの場合、まず目標とする信頼区間の幅(許容誤差)を決定し、そこから必要な標本の大きさを逆算するというアプローチが取られます。

4.5. 事例研究:必要な標本サイズの見積もり

問題:

ある地域の住民の平均勉強時間を、信頼度95%で、誤差(信頼区間の中心からの幅)が\(\pm 10\)分以内に収まるように推定したい。過去の調査から、この地域の住民の勉強時間の標準偏差は \(\sigma \approx 60\) 分であることが分かっている。このとき、何人以上の標本を調査する必要があるか。

解説:

  1. 目標を設定する。
    • 信頼区間の半分(中心からの誤差)を \(E\) とすると、\(E = z_{\alpha/2} \frac{\sigma}{\sqrt{n}}\)。
    • 目標は \(E \le 10\) 分とすること。
  2. 与えられた情報を整理する。
    • 信頼度: 95% → \(z_{\alpha/2} = 1.96\)
    • 母標準偏差: \(\sigma = 60\)
    • 許容誤差: \(E = 10\)
  3. 不等式を立てて、\(n\) について解く。\[ 1.96 \times \frac{60}{\sqrt{n}} \le 10 \]両辺に \(\sqrt{n}\) を掛けて、10で割ると(\(\sqrt{n} > 0\) なので不等号の向きは変わらない)、\[ 1.96 \times \frac{60}{10} \le \sqrt{n} \]\[ 1.96 \times 6 \le \sqrt{n} \]\[ 11.76 \le \sqrt{n} \]両辺を2乗すると、\[ (11.76)^2 \le n \]\[ 138.3 \dots \le n \]
  4. 結論を出す。
    • 標本の大きさ \(n\) は整数でなければならないので、不等式を満たす最小の整数は \(n=139\) である。
    • よって、139人以上の標本を調査する必要がある。

このように、信頼区間の幅の構造を理解することで、調査を開始する前に、目的の精度を達成するために必要な調査規模を科学的に見積もることが可能になります。これは、無駄なコストを避け、効率的で効果的な調査計画を立てる上で不可欠な知識です。

5. 母比率の区間推定

これまでは母集団の「平均値」という量的データを扱ってきましたが、世の中には「はい/いいえ」で答えられるような質的データも数多く存在します。例えば、内閣を支持するかしないか、ある製品が好きか嫌いか、コインを投げたときに表が出るか裏が出るか、などです。このような、二つのカテゴリーのどちらかに属するものの割合(比率)を扱うのが母比率の推定です。

5.1. 母比率とは何か?

母比率 (Population Proportion) とは、母集団全体の中で、ある特定の性質を持つ要素が占める割合のことです。通常、記号 \(p\) で表されます。

  • 例1:日本人有権者全体の内閣支持率
  • 例2:ある工場で生産された全製品の不良品の割合
  • 例3:ウイルスに感染した人全体の中で、ある症状が現れる人の割合

これらの母比率 \(p\) も、母平均 \(\mu\) と同様に、全数調査をしない限り真の値を知ることはできません。そこで、母集団から大きさ \(n\) の標本を無作為抽出し、その標本における比率(標本比率)を手がかりに、母比率 \(p\) を推定することを考えます。

標本比率 (Sample Proportion) とは、大きさ \(n\) の標本の中で、特定の性質を持つ要素の個数を \(X\) としたとき、その割合 \(\hat{p} = \frac{X}{n}\) のことです。(\(p\) の上に「^」がついた記号で、「ピー・ハット」と読みます。)

私たちの目的は、観測できた標本比率 \(\hat{p}\) を用いて、未知の母比率 \(p\) が含まれる信頼区間を構成することです。

5.2. 標本比率とその分布(二項分布の正規近似)

母比率の区間推定の理論を構築するために、まず標本比率 \(\hat{p}\) という確率変数がどのような分布に従うのかを考える必要があります。

母集団から1つの要素を抽出したとき、それが特定の性質を持つ確率が \(p\) であるとします。(例えば、有権者を1人選んだときに内閣支持である確率が \(p\))。この試行を \(n\) 回繰り返したとき(\(n\) 人を無作為抽出したとき)、その性質を持つ要素の個数 \(X\) は、二項分布 \(B(n, p)\) に従います。

二項分布の期待値と分散は、

\[ E[X] = np \]

\[ V[X] = np(1-p) \]

でした。

標本比率 \(\hat{p}\) は \(\hat{p} = \frac{X}{n}\) なので、その期待値と分散は、確率変数の線形変換の性質 \(E[aX+b] = aE[X]+b\) と \(V[aX+b] = a^2V[X]\) を用いて、

\[ E[\hat{p}] = E[\frac{1}{n}X] = \frac{1}{n}E[X] = \frac{1}{n}(np) = p \]

\[ V[\hat{p}] = V[\frac{1}{n}X] = (\frac{1}{n})^2V[X] = \frac{1}{n^2}(np(1-p)) = \frac{p(1-p)}{n} \]

となります。

標本比率 \(\hat{p}\) の期待値が母比率 \(p\) と一致することから、\(\hat{p}\) は \(p\) の偏りのない推定量(不偏推定量)であることが分かります。

ここで、母平均の推定で中心極限定理が強力な役割を果たしたように、母比率の推定ではド・モアブル–ラプラスの定理として知られる、二項分布の正規近似が重要な役割を果たします。

二項分布の正規近似

\(n\) が十分に大きく、かつ \(np \ge 5, n(1-p) \ge 5\) を満たすとき、二項分布 \(B(n, p)\) は、平均 \(np\)、分散 \(np(1-p)\) の正規分布 \(N(np, np(1-p))\) で近似できる。

この定理により、標本比率 \(\hat{p}\) の分布もまた、\(n\) が大きいときには正規分布で近似できることが分かります。\(\hat{p}\) の分布は、平均が \(p\)、分散が \(\frac{p(1-p)}{n}\) の正規分布 \(N(p, \frac{p(1-p)}{n})\) で近似されます。

したがって、\(\hat{p}\) を標準化した確率変数 \(Z\) は、

\[ Z = \frac{\hat{p} – p}{\sqrt{\frac{p(1-p)}{n}}} \]

となり、この \(Z\) は近似的に標準正規分布 \(N(0, 1)\) に従います。

この式が、母比率の信頼区間を導出するための出発点となります。

5.3. 母比率の信頼区間の導出

母平均のときと同様に、標準正規分布に従う \(Z\) を利用して信頼区間を構成します。

信頼度 \((1-\alpha) \times 100\) % の場合、

\[ P(-z_{\alpha/2} \le \frac{\hat{p} – p}{\sqrt{\frac{p(1-p)}{n}}} \le z_{\alpha/2}) \approx 1-\alpha \]

が成り立ちます。

この不等式を \(p\) について解けばよいのですが、一つ問題があります。分母の \(\sqrt{\frac{p(1-p)}{n}}\) の中に、私たちが求めたい未知の値である \(p\) が含まれてしまっているのです。これでは計算を進めることができません。

そこで、\(n\) が十分に大きいという仮定のもと、未知の母比率 \(p\) を、その非常に良い推定値である標本比率 \(\hat{p}\) で置き換える、という近似を行います。

つまり、

\[ \sqrt{\frac{p(1-p)}{n}} \approx \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \]

として扱うのです。この近似は、\(n\) が大きいほど妥当性が高まります。

すると、標準化の式は

\[ Z \approx \frac{\hat{p} – p}{\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}} \]

となり、ここから信頼区間を導出できます。

不等式

\[ -z_{\alpha/2} \le \frac{\hat{p} – p}{\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}} \le z_{\alpha/2} \]

を \(p\) について解くと、

\[ \hat{p} – z_{\alpha/2}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \le p \le \hat{p} + z_{\alpha/2}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \]

という、母比率 \(p\) に対する信頼度 \((1-\alpha) \times 100\) % の信頼区間の公式が得られます。

5.4. 具体例:内閣支持率の推定

問題:

全国の有権者を対象とした内閣支持率の世論調査で、1600人を無作為抽出したところ、640人が「支持する」と回答した。全国の支持率 \(p\) に対する信頼度95%の信頼区間を求めなさい。

解法:

  1. 与えられた情報から標本比率を計算する。
    • 標本の大きさ: \(n = 1600\)
    • 支持すると回答した人数: \(X = 640\)
    • 標本比率: \(\hat{p} = \frac{X}{n} = \frac{640}{1600} = 0.4\)
  2. 適切な分布と値を確認する。
    • 標本の大きさ \(n=1600\) は十分に大きい。
    • \(n\hat{p} = 1600 \times 0.4 = 640 \ge 5\)
    • \(n(1-\hat{p}) = 1600 \times 0.6 = 960 \ge 5\)
    • よって、正規近似が妥当であると判断できる。
    • 信頼度95%に対応する標準正規分布の値は \(z_{0.025} = 1.96\) である。
  3. 信頼区間の公式に代入する。
    • 信頼区間の公式は \[ \hat{p} \pm z_{\alpha/2}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \]
    • 値を代入すると、\[ 0.4 \pm 1.96 \times \sqrt{\frac{0.4 \times (1-0.4)}{1600}} \]\[ = 0.4 \pm 1.96 \times \sqrt{\frac{0.4 \times 0.6}{1600}} \]\[ = 0.4 \pm 1.96 \times \sqrt{\frac{0.24}{1600}} \]\[ = 0.4 \pm 1.96 \times \frac{\sqrt{0.24}}{40} \]\[ \approx 0.4 \pm 1.96 \times \frac{0.4899}{40} \]\[ \approx 0.4 \pm 1.96 \times 0.01225 \]\[ \approx 0.4 \pm 0.024 \]
  4. 区間を計算する。
    • 下限: \(0.4 – 0.024 = 0.376\)
    • 上限: \(0.4 + 0.024 = 0.424\)
  5. 結論を述べる。
    • よって、全国の内閣支持率 \(p\) に対する信頼度95%の信頼区間は、\([0.376, 0.424]\) となる。
    • 解釈: この調査結果から、「全国の内閣支持率は、95%の信頼度で37.6%から42.4%の間にある」と推定される。ニュースなどで報じられる「支持率40%、誤差はプラスマイナス2.4ポイント」といった表現は、まさにこの計算に基づいています。

5.5. 標本比率を用いる際の注意点

母比率の推定は非常に有用ですが、いくつかの注意点があります。

  • 正規近似の条件: \(n\) が小さい場合や、\(p\) が0または1に非常に近い場合には、正規近似の精度が悪くなるため、この方法を適用すべきではありません。その場合は、二項分布に直接基づくより正確な方法(クロッパー–ピアソン法など)を用いる必要がありますが、これは大学レベルの範囲です。
  • 誤差の最大値: 信頼区間の幅(の半分)である誤差 \(E = z_{\alpha/2}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}\) は、\(\hat{p}\) の値によって変化します。関数 \(f(x) = x(1-x)\) は \(x=0.5\) のときに最大値を取るため、誤差は標本比率 \(\hat{p}\) が0.5(50%)のときに最大になります。世論調査などで、事前に支持率がどの程度か見当がつかない場合に必要サンプルサイズを見積もる際には、この最悪のケース(\(\hat{p}=0.5\))を想定して計算することがあります。

6. 母分散の推定

これまでは母集団の「代表値」である母平均や母比率を推定する方法について学んできました。しかし、母集団の特性を理解するためには、データがどの程度散らばっているか、すなわち「ばらつき」の尺度も同様に重要です。このばらつきの尺度として最も基本的なものが母分散 \(\sigma^2\) と母標準偏差 \(\sigma\) です。このセクションでは、母分散をいかにして推定するか、その考え方について学びます。

6.1. なぜ母分散を推定するのか?

母分散を推定することには、いくつかの重要な目的があります。

  1. 品質管理: 製造業において、製品の品質を一定に保つことは至上命題です。例えば、ペットボトル飲料の内容量が毎回大きくばらついていては、消費者の信頼を失います。製品の重量、寸法、成分含有量などの「ばらつき(分散)」を小さく抑えることが重要であり、そのために母分散を継続的に監視(推定)する必要があります。
  2. リスク評価: 金融の世界では、株価や為替レートの変動の激しさ(ボラティリティ)は、投資のリスクを測る重要な指標です。このボラティリティは、統計学的には標準偏差や分散で表されます。過去のデータから将来の分散を推定することは、リスク管理の基本です。
  3. 他の統計手法への応用: これまで見てきたように、母平均の区間推定(t分布を用いる場合)や、次モジュールで学ぶ仮説検定など、多くの統計手法では母分散(またはその推定値)の値が必要となります。母分散を正確に推定することは、他のより高度な分析を行うための基礎となります。

6.2. 不偏分散の導入

母平均 \(\mu\) の点推定には標本平均 \(\bar{x}\) を用いました。では、母分散 \(\sigma^2 = E[(X-\mu)^2]\) の点推定には何を用いるのが良いでしょうか。

最も自然に思いつくのは、標本における分散、すなわち標本分散でしょう。

\[ S^2 = \frac{1}{n}\sum_{i=1}^{n} (X_i – \bar{X})^2 \]

しかし、この標本分散 \(S^2\) を母分散 \(\sigma^2\) の推定値として用いると、少し問題があることが知られています。実は、標本分散 \(S^2\) の期待値を計算すると、

\[ E[S^2] = \frac{n-1}{n}\sigma^2 \]

となり、真の母分散 \(\sigma^2\) よりも少しだけ小さく見積もってしまう傾向(これを「過小評価」と言います)があるのです。つまり、標本分散 \(S^2\) は、母分散 \(\sigma^2\) の偏りのない推定量(不偏推定量)ではありません。

なぜこのようなズレが生じるのでしょうか。直感的には、標本分散を計算する際に、真の母平均 \(\mu\) の代わりに標本平均 \(\bar{X}\) を使っていることが原因です。偏差平方和 \(\sum(X_i – c)^2\) は、\(c\) としてそのデータの平均値を用いたときに最小になるという性質があります。したがって、偏差平方和は、真の平均 \(\mu\) からの差の平方和よりも、標本平均 \(\bar{X}\) からの差の平方和の方が、常に小さくなる(または等しくなる)のです。

\[ \sum_{i=1}^{n} (X_i – \bar{X})^2 \le \sum_{i=1}^{n} (X_i – \mu)^2 \]

この系統的なズレを補正し、期待値がちょうど \(\sigma^2\) となるようにしたのが不偏分散 (Unbiased Variance) です。不偏分散は通常 \(U^2\) や \(s^2\) といった記号で表され、偏差平方和を \(n\) ではなく \(n-1\) で割ることによって定義されます。

\[ U^2 = \frac{1}{n-1}\sum_{i=1}^{n} (X_i – \bar{X})^2 \]

この \(U^2\) の期待値は、

\[ E[U^2] = E[\frac{n}{n-1}S^2] = \frac{n}{n-1}E[S^2] = \frac{n}{n-1} \cdot \frac{n-1}{n}\sigma^2 = \sigma^2 \]

となり、見事に \(\sigma^2\) と一致します。この性質(不偏性)から、母分散 \(\sigma^2\) の点推定には、標本分散 \(S^2\) ではなく、不偏分散 \(U^2\) を用いるのが標準的です。

\(n-1\) という数は、t分布のときにも登場した「自由度」に対応します。標本平均 \(\bar{X}\) を計算した時点で、\(n\) 個のデータのうち \(n-1\) 個の値が決まれば残りの1個の値は自動的に決まってしまう、というデータの自由度を反映していると解釈されます。

6.3. カイ二乗分布の導入(発展)

母平均の区間推定で正規分布やt分布を用いたように、母分散の区間推定を行うためには、不偏分散 \(U^2\) がどのような確率分布に従うのかを知る必要があります。

ここで登場するのがカイ二乗分布 (Chi-squared distribution, \(\chi^2\)分布) です。

カイ二乗分布は、以下のように定義されます。

\(Z_1, Z_2, \dots, Z_k\) が互いに独立な標準正規分布 \(N(0, 1)\) に従う確率変数であるとき、これらの2乗和

\[ W = Z_1^2 + Z_2^2 + \dots + Z_k^2 \]

が従う分布を、自由度 \(k\) のカイ二乗分布といい、\(\chi^2(k)\) と表記します。

カイ二乗分布には、次のような性質があります。

  • 非負の値: 2乗和なので、常に0以上の値をとります。
  • 形状: 左右非対称で、右に裾が長い分布です。自由度 \(k\) が大きくなるにつれて、徐々に左右対称な形(正規分布に似た形)に近づいていきます。
  • 期待値と分散: 自由度 \(k\) のカイ二乗分布の期待値は \(k\)、分散は \(2k\) となります。

このカイ二乗分布と不偏分散の間には、母集団が正規分布 \(N(\mu, \sigma^2)\) に従うという仮定のもとで、次の重要な関係が成り立ちます。

標本とカイ二乗分布の関係

母集団分布が \(N(\mu, \sigma^2)\) であるとき、不偏分散 \(U^2\) を用いて作られる統計量

\[ \frac{(n-1)U^2}{\sigma^2} = \frac{\sum_{i=1}^{n} (X_i – \bar{X})^2}{\sigma^2} \]

は、自由度 \(n-1\) のカイ二乗分布 \(\chi^2(n-1)\) に従う。

この関係式が、母分散 \(\sigma^2\) の区間推定を行うための鍵となります。

6.4. 母分散の区間推定の考え方(発展)

上記の統計量 \( \frac{(n-1)U^2}{\sigma^2} \) が自由度 \(n-1\) のカイ二乗分布に従うことを利用して、母分散 \(\sigma^2\) の信頼区間を構成してみましょう。(これは高校数学の範囲を少し超えますが、推定の論理を理解するために重要です。)

信頼度を \((1-\alpha) \times 100\) % とします。

カイ二乗分布は非対称なので、上側と下側からそれぞれ確率が \(\alpha/2\) となる点を考えます。

  • 上側 \(\alpha/2\) 点: \( P(\chi^2 > \chi^2_{n-1, \alpha/2}) = \alpha/2 \) となる点 \(\chi^2_{n-1, \alpha/2}\)
  • 下側 \(\alpha/2\) 点: \( P(\chi^2 < \chi^2_{n-1, 1-\alpha/2}) = \alpha/2 \) となる点 \(\chi^2_{n-1, 1-\alpha/2}\)

これらの点を用いると、

\[ P(\chi^2_{n-1, 1-\alpha/2} \le \frac{(n-1)U^2}{\sigma^2} \le \chi^2_{n-1, \alpha/2}) = 1-\alpha \]

が成り立ちます。

この不等式を、未知の \(\sigma^2\) について解きます。

まず、各辺の逆数をとると、不等号の向きが逆転します。

\[ \frac{1}{\chi^2_{n-1, 1-\alpha/2}} \ge \frac{\sigma^2}{(n-1)U^2} \ge \frac{1}{\chi^2_{n-1, \alpha/2}} \]

次に、各辺に \((n-1)U^2\) を掛けると、

\[ \frac{(n-1)U^2}{\chi^2_{n-1, 1-\alpha/2}} \ge \sigma^2 \ge \frac{(n-1)U^2}{\chi^2_{n-1, \alpha/2}} \]

となります。

これが、母分散 \(\sigma^2\) に対する信頼度 \((1-\alpha) \times 100\) % の信頼区間の公式です。

\[ \left[ \frac{(n-1)u^2}{\chi^2_{n-1, \alpha/2}}, \quad \frac{(n-1)u^2}{\chi^2_{n-1, 1-\alpha/2}} \right] \]

ここで \(u^2\) は、実際に標本から計算された不偏分散の実現値です。

分母に来るカイ二乗分布の値が、区間の左端(下限)では上側確率点、右端(上限)では下側確率点と、入れ替わっている点に注意が必要です。

この区間推定は、母集団が正規分布に従うという仮定が強く要求されるため、母平均の推定に比べて利用には注意が必要ですが、データのばらつきを確率的な幅で評価するための重要な手法です。

7. 推定の精度に関する考察

これまで、母平均、母比率、母分散といった様々な母数を区間で推定する方法を学んできました。そのいずれにおいても、推定結果の有用性を判断する上で「精度」という概念が極めて重要になります。このセクションでは、推定の精度とは何か、それを決定づける要因は何かを改めて整理し、推定という行為そのものが持つ限界についても考察を深めていきます。

7.1. 精度を左右する三つの要素:信頼度、標本の大きさ、ばらつき

統計的推定における「精度」とは、一言で言えば**「信頼区間の幅の狭さ」**です。信頼区間の幅が狭いほど、母数が存在する範囲をよりシャープに特定できていることになり、推定の精度は高いと評価されます。逆に、幅が広ければ、母数に関する情報が曖昧であることを意味し、精度は低いと評価されます。

信頼区間の幅を決定する要因は、これまで繰り返し見てきたように、主に以下の三つです。

  1. 信頼度:調査者が設定する、推定手続きの成功率です。高い信頼度(例:99%)を求めれば、より大きな信頼係数(例:\(z=2.58\))を用いるため、区間の幅は**広く(精度は低く)**なります。確実性をとるか、精度をとるかのトレードオフの関係にあります。
  2. 標本の大きさ (\(n\)):調査者がコントロール可能な最も重要な要素です。標本の大きさを増やせば増やすほど、\(\sqrt{n}\) が大きくなるため、区間の幅は**狭く(精度は高く)**なります。ただし、精度を2倍にするにはサンプルサイズを4倍にする必要があるという、「平方根の逆数の法則」に従うため、精度の向上にはコストが加速度的に増加します。
  3. 母集団のばらつき (\(\sigma\)):母集団自体が持つデータの散らばり具合です。元々のデータのばらつきが大きい母集団(例:年収)を推定しようとすると、区間の幅は必然的に**広く(精度は低く)**なります。これは調査者がコントロールできない、対象固有の性質です。

これら三つの関係を理解することは、調査結果を正しく解釈し、またこれから行う調査を適切に設計するための基礎となります。例えば、「なぜ今回の調査結果は、前回の調査に比べて信頼区間が広いのだろうか?」と疑問に思ったとき、

  • 信頼度の設定が違うのではないか?
  • 標本の大きさが小さいのではないか?
  • あるいは、調査対象の母集団の性質(ばらつき)が前回とは異なるのではないか?といった多角的な視点から原因を分析することができます。

7.2. 系統誤差と偶然誤差

推定における誤差は、大きく二つの種類に分類することができます。

  • 偶然誤差 (Random Error):これは、無作為抽出を行う限り、どうしても避けることのできない誤差です。たまたま平均より高い値を持つ要素が多く選ばれたり、その逆が起きたりすることで、標本統計量(標本平均など)が母数からずれてしまう現象です。信頼区間は、まさにこの偶然誤差の大きさを確率的に評価するためのものです。標本の大きさを増やすことで、偶然誤差の影響を小さくすることができます。
  • 系統誤差 (Systematic Error) / バイアス (Bias):こちらは、標本の抽出方法や調査方法そのものに内在する「偏り」によって生じる誤差です。例えば、
    • 選択バイアス: ある特定の意見を持つ人ばかりが回答しやすいような調査方法(例:特定のウェブサイト上でのアンケート)を用いると、標本が母集団の縮図とはならず、結果が偏ります。
    • 無回答バイアス: アンケート調査で、ある質問に答えない人が特定の層に偏っている場合、回答者だけのデータから全体を推測すると結果が歪みます。
    • 測定誤差: 測定機器の不具合や、質問文の誘導的な表現によって、回答や測定値が真の値から系統的にずれてしまう場合もこれに含まれます。

系統誤差の最も厄介な点は、標本の大きさをいくら増やしても、この誤差を減らすことはできないという点です。偏った方法で10万人を調査しても、その結果は偏ったままであり、信頼区間が狭くなることで、むしろ誤った結論を強く確信してしまうという危険性すらあります。

統計的推定の理論(信頼区間の計算など)は、あくまで偶然誤差を扱っています。その大前提として、調査の設計段階で系統誤差を可能な限り排除する努力がなされていなければなりません。適切なサンプリング手法(無作為抽出)の選択や、中立的な調査票の作成などが、計算以前の段階で極めて重要なのです。

7.3. 望ましい推定量の性質(発展)

母数を点推定する際に用いられる統計量(標本平均や不偏分散など)を一般に推定量 (Estimator) と呼びます。どのような推定量が「良い」推定量と言えるのでしょうか。統計学では、望ましい推定量の性質として、主に以下の三つが挙げられます。

  1. 不偏性 (Unbiasedness):推定量の期待値が、真の母数と一致するという性質です。これは、長い目で見て、平均的には推定が真の値を過大評価したり過小評価したりしない、ということを意味します。不偏分散 \(U^2\) が \(n-1\) で割る理由も、この不偏性を満たすためでした。\[ E[\hat{\theta}] = \theta \] (\(\hat{\theta}\)は推定量、\(\theta\)は母数)
  2. 一致性 (Consistency):標本の大きさ \(n\) を無限に大きくしていくと、推定量が真の母数に限りなく近づいていくという性質です。これは、サンプルを増やせば増やすほど、推定が正確になるという直感的な要請に対応します。大数の法則は、標本平均が母平均の一致推定量であることを保証しています。\[ \lim_{n \to \infty} P(|\hat{\theta}_n – \theta| < \epsilon) = 1 \quad (\text{for any } \epsilon > 0) \]
  3. 有効性 (Efficiency):複数の不偏推定量が存在する場合、その中で分散が最も小さい推定量が「最も有効である」とされます。推定量の分散が小さいということは、標本ごとに推定値がばらつく度合いが小さい、つまり、どの標本を引いても安定して真の値に近い値を出す能力が高いことを意味します。

これらの性質は、なぜ私たちが母平均の推定に標本平均を、母分散の推定に不偏分散を用いるのか、その理論的な裏付けを与えてくれます。

7.4. 推定の限界と統計リテラシー

統計的推定は、不完全な情報から合理的な結論を導くための強力なツールですが、万能ではありません。その限界を正しく認識することが、誤った判断を避けるための統計リテラシー(統計を読み解く能力)につながります。

  • 信頼区間は予言ではない: 信頼区間は、あくまで「もし母数がこの範囲にあれば、手元の標本データが得られることは十分にあり得る」ということを示しているに過ぎません。母数がその範囲に「ある」ことを100%保証するものではありません。特に、信頼度95%であれば、20回に1回は信頼区間が母数を外してしまうという事実を忘れてはなりません。
  • 「統計的に有意」との混同: 後のモジュールで学ぶ「仮説検定」では、「統計的に有意な差がある」といった結論が登場します。これは、推定とは異なる論理に基づいています。推定は母数の値を「見積もる」こと、検定は母数に関する特定の仮説を「判断する」こと、という目的の違いを理解する必要があります。
  • 因果関係は示さない: たとえ二つの変数の平均値の信頼区間に重なりがなかったとしても、それはそれらの変数間に因果関係があることを直接示すものではありません。推定は、あくまで母集団の特性を描写するものであり、なぜそのような特性になっているのかという原因までを自動的に教えてくれるわけではないのです。

結論として、推定の精度を高めるためには、数学的な計算能力だけでなく、調査対象に関する知識、適切な調査デザイン能力、そして結果を慎重に解釈する批判的な思考力が不可欠です。

8. 統計的推測の応用事例

統計的推定の理論は、抽象的な数式や概念の集まりに留まるものではありません。それは、科学、産業、社会のあらゆる場面で、不確実性の中での合理的な意思決定を支える、極めて実践的なツールとして活用されています。ここでは、これまで学んできた推定の考え方が、現実世界のどのような問題解決に応用されているのか、その具体的な事例をいくつか見ていきましょう。

8.1. 医療分野:新薬の効果測定

製薬会社が新しい高血圧治療薬を開発したとします。この新薬が本当に効果があるのか、また、既存の薬と比較してどの程度優れているのかを客観的に証明しなければ、医薬品として承認されません。このプロセスで、統計的推定は中心的な役割を果たします。

  • プロセス:
    1. 被験者の募集: 高血圧の患者を多数集め、無作為に二つのグループに分けます。一方には新薬を、もう一方には偽薬(プラセボ)または既存の薬を投与します(これを無作為化比較試験:RCT と言います)。
    2. データ収集: 一定期間の後、両グループの患者の血圧を測定します。
    3. 推定の実施:
      • 新薬グループの「平均血圧降下量」を、信頼区間とともに推定します。
      • 偽薬グループの「平均血圧降下量」も同様に推定します。
      • さらに重要なのは、両グループの「平均降下量の差」を推定することです。
    4. 意思決定: もし、「平均降下量の差」の95%信頼区間が、例えば [5 mmHg, 15 mmHg] のように、明確に0を含まない正の値の区間となった場合、「新薬は偽薬よりも統計的に有意に血圧を下げる効果がある」と結論づけることができます。この信頼区間の下限値(この例では5 mmHg)は、新薬が持つ効果の最低保証ラインとも解釈でき、臨床的な重要性を判断する材料となります。

このように、新薬の有効性を「点」ではなく「区間」で評価することで、偶然による変動を超えた本質的な効果があるかどうかを、科学的根拠に基づいて判断しているのです。

8.2. マーケティング:新商品の需要予測

食品メーカーが新しいスナック菓子を発売する前に、その商品が市場でどの程度受け入れられるかを知りたいと考えています。全国の消費者を対象に全数調査を行うことは不可能です。

  • プロセス:
    1. 標本調査: 全国の人口構成(年齢、性別、地域など)を考慮した上で、数千人規模の消費者を無作為に抽出し、試食会を実施します。
    2. データ収集: 試食後、アンケートで「この商品を購入したいですか?」と質問します。
    3. 推定の実施: 「購入したい」と回答した人の割合(標本比率 \(\hat{p}\))を計算します。そして、この \(\hat{p}\) を基に、全国の消費者における「購入意向率」(母比率 \(p\))の信頼区間を推定します。
    4. 意思決定: 例えば、購入意向率の95%信頼区間が [0.08, 0.12]、つまり8%から12%と推定されたとします。メーカーは、この推定結果と市場規模のデータ(例:スナック菓子市場は年間1000億円)を掛け合わせることで、新商品の潜在的な売上高を予測します(80億円から120億円)。この予測に基づいて、生産計画、広告予算の策定、そして最終的に商品を発売するかどうかの経営判断を下すのです。

8.3. 経済学:経済指標の推定

政府や中央銀行は、国の経済状態を正確に把握し、適切な経済政策や金融政策を立案する必要があります。そのために、失業率、消費者物価指数、GDP成長率など、様々な経済指標が毎月、あるいは四半期ごとに公表されます。これらの指標の多くは、全数調査ではなく、大規模な標本調査に基づいて作成されています。

  • 例:完全失業率総務省統計局が毎月実施している「労働力調査」は、全国から無作為に選ばれた約4万世帯を対象としています。この調査結果から、就業者数や完全失業者数が集計され、完全失業率(労働力人口に占める完全失業者の割合)が計算されます。公表される「3.0%」といった失業率の値は、標本調査から得られた点推定値です。しかし、この数値には必ず標本誤差が含まれているため、統計局は同時にその標準誤差(信頼区間の幅に関連する指標)も公表しています。これにより、専門家は「今月の失業率の変動が、単なる統計上の誤差の範囲内なのか、それとも経済の基調的な変化を示唆するものなのか」を、より深く分析することができるのです。

8.4. 環境科学:生物の個体数推定

ある湖に生息する特定の魚の総数を把握することは、生態系の健全性を評価し、漁獲量を管理する上で重要です。しかし、湖の魚をすべて捕まえて数えることはできません。

  • プロセス:ここで活躍するのが、セクション1.2で紹介した標識再捕獲法です。
    1. 標識: まず、湖で魚を \(M\) 匹捕獲し、標識をつけて放流します。
    2. 再捕獲: しばらくして、再び \(n\) 匹の魚を捕獲し、その中に含まれる標識魚の数 \(x\) を数えます。
    3. 推定: 全体の個体数 \(N\) を \(N \approx \frac{M \times n}{x}\) として点推定します。
    4. 区間推定への発展: さらに高度な統計モデルを用いることで、この推定値がどの程度の不確実性を持つのか、個体数 \(N\) の信頼区間を計算することも可能です。例えば「この湖の魚の個体数は、95%の信頼度で750匹から900匹の間である」といった、より情報量の多い結論を得ることができます。これにより、環境保護政策や漁業計画を、より科学的な根拠に基づいて立案することが可能になります。

これらの事例からわかるように、統計的推定は、見えない全体像を、手元にある一部の情報から科学的に描き出すための、現代社会に不可欠な「知の望遠鏡」のような役割を果たしているのです。

9. 世論調査の仕組み

新聞やテレビのニュースで、「内閣支持率、40%」「次の選挙でA党に投票する人、30%」といった世論調査の結果を目にしない日はないでしょう。これらの数字は、社会の動向を知る上で重要な指標となっていますが、その数字がどのようなプロセスを経て算出され、どの程度の信頼性を持つものなのかを正しく理解している人は意外と少ないかもしれません。世論調査は、まさにこれまで学んできた母比率の区間推定の理論が大規模に適用された、代表的な事例です。

9.1. 世論調査の目的と標本抽出

世論調査の目的は、選挙の有権者全体や、国民全体といった巨大な母集団の意見や態度の分布(例えば、支持率などの母比率)を、少数の標本を調査することによって正確に推測することです。

その成否を分ける最も重要なポイントが、標本の抽出方法です。もし、調査に協力してくれそうな人ばかりに電話をかけたり、特定の政治的志向を持つ人が集まる場所でアンケートを取ったりすれば、その結果は著しく偏ったものになってしまいます(系統誤差)。

そこで、科学的な世論調査では、系統誤差を排除し、標本が母集団の「縮図」となるように、**無作為抽出(ランダムサンプリング)**の原則が徹底されます。

  • RDD法 (Random Digit Dialing):コンピュータで電話番号をランダムに生成し、そこに電話をかけて調査対象者を選ぶ方法です。電話帳に載っていない番号にもかけることができるため、有権者全体を比較的偏りなくカバーできるとされ、多くの調査で採用されています。
  • 住民基本台帳からの抽出:より厳密な方法として、市区町村の住民基本台帳から調査対象者を無作為に選び出し、調査員が訪問して面接調査を行う方法もあります。これは非常にコストと時間がかかりますが、標本の代表性が高く、精度の高い調査が可能です。

重要なのは、母集団を構成するすべての人が「等しい確率で標本に選ばれる」機会を持つように設計することです。この大原則が守られて初めて、統計的推定の理論を適用し、結果の誤差を確率的に評価することが可能になるのです。

9.2. 調査方法(電話、インターネット等)とバイアス

無作為抽出の原則を守ろうとしても、調査方法によっては新たなバイアスが生じる可能性があります。

  • 電話調査:
    • カバレッジ・バイアス: 固定電話を持たない若年層や、日中電話に出られない勤労者層の意見が反映されにくい、という偏りが生じる可能性があります。近年では携帯電話へのRDDも行われるようになっています。
    • 無回答バイアス: 調査を依頼しても、断られたり、留守であったりする場合があります。この「回答してくれない層」が、回答者層と異なる意見を持つ傾向がある場合、結果にバイアスが生じます。
  • インターネット調査:
    • カバレッジ・バイアス: そもそもインターネットを利用しない高齢者などの意見が含まれません。
    • 自己選択バイアス: 調査会社のモニターに自ら登録している人が対象となることが多く、その層が国民全体の縮図とは言えない可能性があります。政治への関心が高い人や、特定の意見を持つ人が多く集まる傾向も指摘されています。

このように、どのような調査方法にも長所と短所があり、完璧な方法というものは存在しません。そのため、信頼できる報道機関や調査機関は、調査方法を明記するとともに、得られた回答者の属性(性別、年齢、地域など)が実際の人口構成比とずれている場合には、そのずれを補正する統計的処理(ウェイトバック集計など)を行って、結果の偏りをできるだけ小さくする努力をしています。

9.3. 「支持率〇〇%、信頼度95%、誤差±△%」の正しい読み方

世論調査の報道では、結果の数字と合わせて、その調査の信頼性を示す情報が付記されていることがあります。例えば、「今回の調査は、全国の有権者1050人から有効回答を得た。信頼度95%で、最大誤差は±3.0ポイントです」といった記述です。これはまさに、母比率の区間推定の結果そのものです。

この記述を正しく読み解いてみましょう。

  • 標本の大きさ: \(n = 1050\)
  • 信頼度: 95%
  • 最大誤差: ±3.0ポイント (0.03)

この「最大誤差」は、標本比率が50% (\(\hat{p}=0.5\)) のときに、信頼区間の幅の半分が最も大きくなることを利用して計算されています。

\[ \text{誤差} = z_{\alpha/2}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}} = 1.96 \times \sqrt{\frac{0.5 \times (1-0.5)}{1050}} \approx 0.030 \]

となり、計算が合致します。

もし、この調査で内閣支持率が40% (\(\hat{p}=0.4\)) という結果が出たとします。この場合の実際の誤差は、

\[ \text{誤差} = 1.96 \times \sqrt{\frac{0.4 \times (1-0.4)}{1050}} \approx 0.0297 \]

となり、約±3.0ポイントです。

ここから、内閣支持率の母比率 \(p\) に対する信頼度95%の信頼区間は、

\[ [0.4 – 0.03, \quad 0.4 + 0.03] = [0.37, \quad 0.43] \]

つまり、37%から43%の間にあると推定されます。

時系列での比較における注意点

先月の支持率が42%で、今月が40%だったとします。この2ポイントの減少は、本当に「支持率が下がった」と結論づけてよいのでしょうか。

  • 先月の信頼区間(仮): \([0.39, 0.45]\)
  • 今月の信頼区間: \([0.37, 0.43]\)この二つの信頼区間は、\(0.39\) から \(0.43\) の範囲で重なっています。これは、もしかすると真の支持率は先月も今月もずっと41%のままで、観測された42%と40%という値は、単なるサンプリングによる偶然の誤差の範囲内での変動かもしれない、という可能性を排除できないことを意味します。このように、二つの調査結果の差が、それぞれの調査の誤差の範囲を超えて初めて、「統計的に意味のある変動」と見なすことができるのです。

9.4. 無回答や虚偽回答がもたらす影響

統計理論は、回答がすべて真実であるという前提に立っています。しかし、現実の調査では、質問に答えてくれない「無回答」や、本心を隠して社会的に望ましいとされる回答をする「建て前回答」、あるいは意図的な「虚偽回答」が存在します。

特に、政治的な質問などデリケートな内容の場合、「支持政党なし」と答える層(無党派層)の動向や、特定の候補者を支持していることを表明しにくい「隠れ支持者」の存在が、調査結果と実際の選挙結果のズレを生む要因としてしばしば指摘されます。

これらの問題は、純粋な統計学だけでは解決が難しく、質問の仕方を工夫したり、他のデータと組み合わせて分析したりするなど、社会学や心理学的な知見も動員した高度な分析が必要となる領域です。

世論調査の結果に接する際には、ただ数字を鵜呑みにするのではなく、その背後にある調査方法、サンプルサイズ、誤差の大きさを確認し、どのようなバイアスの可能性があるかを批判的に吟ظرする姿勢、すなわち統計リテラシーが求められます。

10. 品質管理と統計

統計的推定が、産業界でその真価を最も発揮している分野の一つが「品質管理 (Quality Control, QC)」です。大量生産される工業製品の品質を、高いレベルで安定させ、維持・向上させていくためには、統計的なものの見方や手法が不可欠です。特に、製品の特性(重さ、長さ、強度、寿命など)の「ばらつき」を管理する上で、母平均や母分散の推定が中心的な役割を果たします。

10.1. 製造業における品質のばらつき

工場で同じ製品を何万個と生産しても、その品質が完全に均一になることはありえません。原材料のわずかな違い、機械の微細な振動、作業日の気温や湿度、作業者の熟練度の差など、無数の要因によって、製品の特性には必ず「ばらつき」が生じます。

このばらつきは、大きく二つの原因に分けられます。

  • 偶然原因によるばらつき:これは、管理された安定した製造工程においても、不可避的に生じるわずかなばらつきです。すべての条件を同じにしているつもりでも、制御しきれない無数の細かい要因が重なって生じるもので、統計的な法則に従うとされます。
  • 異常原因によるばらつき:これは、機械の故障、原材料のロットの変更、未熟な作業者のミスなど、特定の原因によって突発的に発生する大きなばらつきです。

品質管理の基本的な考え方は、まず製造工程が偶然原因によるばらつきしかない「安定した状態」にあるかどうかを監視し、もし異常原因によるばらつきが検出されたら、直ちにその原因を突き止めて取り除き、再び安定状態に戻す、というものです。

10.2. 管理図の考え方

この製造工程の監視に用いられる代表的なツールが管理図 (Control Chart) です。これは、統計的推定の考え方を応用したグラフです。

Xbar-R管理図の例:

これは、製品の平均値(X-bar)とばらつき(R: レンジ)を同時に監視するための管理図です。

  1. 定期的なサンプリング: 製造ラインから、一定時間ごとに少数のサンプル(例えば5個)を抜き取ります(これを「群」と呼びます)。
  2. 統計量の計算: 抜き取った群ごとに、平均値 \(\bar{x}\) と、最大値と最小値の差であるレンジ \(R\) を計算します。
  3. グラフへのプロット: 横軸を時間(または群の番号)、縦軸を \(\bar{x}\) とするグラフと、縦軸を \(R\) とするグラフに、計算した値を次々とプロットしていきます。
  4. 管理限界線の設定: グラフには、中心線 (CL) と、その上下に上方管理限界線 (UCL) と下方管理限界線 (LCL) という3本の線が引かれています。これらの線は、過去の安定した状態のデータから、母平均 \(\mu\) や母標準偏差 \(\sigma\) を推定し、「もし工程が安定していれば、99.7%(\(\mu \pm 3\sigma\) の範囲に相当)の確率でサンプル平均値はこの範囲に収まるはずだ」という統計的予測に基づいて設定されます。

管理図による判断:

  • プロットされた点がすべて管理限界線の内側にあり、特定のパターン(連続して上昇/下降するなど)が見られない場合、工程は**「安定状態」**にあると判断されます。観測されているばらつきは、偶然原因によるものと見なされます。
  • もし、点が管理限界線の外側に出てしまったり、特定のパターンを示したりした場合、それは偶然では起こりにくい非常に稀な事象が起きたことを意味します。したがって、工程に何らかの**「異常原因」**が発生したと判断し、直ちに調査を開始します。

このように、管理図は単なる実績のグラフではなく、統計的推定に基づいた「未来の予測区間」を基準線として持ち、そこから外れる事象を異常として検知する、科学的な監視システムなのです。

10.3. 抜取検査と統計的推定

出荷する製品が、規定された品質基準を満たしているかどうかを保証するために行われるのが品質検査です。すべての製品を一つ一つ検査する「全数検査」は、コストや時間がかかりすぎる上、製品によっては破壊検査(製品を壊して強度などを調べる)が必要なため、実施できない場合も多くあります。

そこで行われるのが抜取検査 (Sampling Inspection) です。これは、生産された製品のロット(まとまり)から、一部のサンプルを抜き取って検査し、その結果に基づいてロット全体の合格・不合格を判定する方法です。

この判定の背後にも、統計的推定の論理があります。

  • ロットの不良率(母比率 \(p\))の推定:ロットから \(n\) 個のサンプルを抜き取り、その中に含まれる不良品の数 \(x\) から、サンプルの不良率 \(\hat{p} = x/n\) を計算します。これは、ロット全体の真の不良率 \(p\) の点推定値です。
  • 合否判定基準の設定:抜取検査では、「サンプルを \(n\) 個抜き取ったとき、不良品が \(c\) 個以下なら、そのロットを合格とする」といったルール(判定基準)をあらかじめ設定します。この \(n\) と \(c\) の値は、「良い品質のロット(不良率が低い)が、間違って不合格にされてしまうリスク(生産者危険)」と、「悪い品質のロット(不良率が高い)が、間違って合格してしまうリスク(消費者危険)」の両方を、許容できる低い確率に抑えるように、確率計算(二項分布やポアソン分布など)に基づいて統計的に設計されます。

つまり抜取検査は、限られたサンプル情報からロット全体の品質(母比率)を推測し、あらかじめ設定した統計的リスク基準に基づいて合理的な意思決定を行う、推定理論の応用そのものなのです。

10.4. シックスシグマの概念紹介

品質管理のより発展的な考え方として、「シックスシグマ (Six Sigma)」という経営手法があります。これは、製品やサービスの品質のばらつきを極限まで小さく抑えることで、不良品の発生率を100万回あたり約3.4回(3.4 PPM)という、限りなくゼロに近い水準にすることを目指すものです。

「シグマ(\(\sigma\))」は、統計学における標準偏差を意味します。顧客の要求する品質規格の幅の中に、平均値から±6倍の標準偏差(\(\pm 6\sigma\))がすっぽりと収まるような、極めてばらつきの小さいプロセスを実現しようというのが、シックスシグマの名称の由来です。

この目標を達成するために、DMAIC(定義、測定、分析、改善、管理)と呼ばれる問題解決プロセスが用いられますが、そのすべての段階で、現状のプロセスの能力(平均や分散)をデータに基づいて推定し、改善策の効果を統計的に検証することが求められます。

品質管理の世界では、勘や経験だけに頼るのではなく、データに基づいた客観的な事実(統計的推定の結果)を共通言語として、問題解決に取り組む文化が根付いています。これは、他の多くの分野でも見習うべき、科学的なアプローチの好例と言えるでしょう。

Module 7:統計的な推測(3) 統計的な推定の総括:部分から全体を読み解く科学的視座

本モジュールを通じて、私たちは統計的推測の核心である「推定」の理論と実践を学びました。その根底に流れる哲学は、**「不完全な情報(標本)から、いかにして全体(母集団)の姿を、客観的な信頼性の保証とともに描き出すか」**という点に集約されます。

まず、一点を指し示す点推定の直感的な分かりやすさと、その推定値が持つ誤差の情報がないという本質的な限界を理解しました。そして、その限界を克服するために、誤差の大きさを「幅」として明示する区間推定がいかに重要であるかを学びました。

母平均、母比率、そして母分散の信頼区間を導出するプロセスでは、中心極限定理二項分布の正規近似といった、確率論の偉大な成果が、推定理論の数学的な土台を支えていることを見ました。正規分布、t分布、カイ二乗分布といった、それぞれ異なる文脈で現れる確率分布が、推定したい母数や与えられた条件に応じて、信頼区間という「網」の形を決定づけるのです。

特に、「信頼度95%」という言葉が持つ真の確率的な意味――それは、算出された区間そのものではなく、その区間を生み出す**「手続き」の長期的な成功率**を指す――を正しく理解することは、統計的な結論を誤解なく解釈するための試金石です。

さらに、推定の精度、すなわち信頼区間の幅が、信頼度、母集団のばらつき、そして標本の大きさという三つの要素の絶妙なバランスの上に成り立っていることを解き明かしました。特に、精度とコストのトレードオフを支配する**「平方根の逆数の法則」**は、あらゆる調査を設計する上での根源的な制約を示唆しています。

最後に、これらの理論が、新薬の開発、マーケティング、経済分析、世論調査、そして品質管理といった、現実世界の多様な領域で、いかに力強く応用され、私たちの社会における合理的な意思決定を支えているかを概観しました。

統計的推定は、私たちに、データと確率の言葉を用いて、未知の世界について語るための洗練された方法論を与えてくれます。それは、断片的な証拠から結論へと飛躍する際に、その推論の信頼性を自ら評価し、他者に明確に伝えるための、科学的な誠実さの作法とも言えるでしょう。このモジュールで得た「部分から全体を読み解く科学的視座」は、これから皆さんが様々な情報に接し、判断を下していく上で、確かな羅針盤となるはずです。

目次