【基礎 数学(数学Ⅰ)】Module 11:データの分析(1) 代表値と散らばり
本モジュールの目的と構成
これまでの10のモジュールを通じて、私たちは数学という、論理的に構築された厳密で決定論的な世界を探求してきました。一つの式からは一つのグラフが、一つの条件からは一つの解が、必然として導かれる世界です。本モジュールからは、その舞台を大きく転換し、現実世界に溢れる、不確実で、ばらつきのある**「データ」**の世界へと足を踏み入れます。
「データの分析」、すなわち統計学は、混沌として見える無数の数字の集まりの中から、意味のある情報、隠されたパターン、そして集団の「個性」を抽出し、物語を紡ぎ出すための科学であり、芸術です。それは、未来を予測し、賢明な意思決定を下すための、現代社会における必須の教養と言えるでしょう。この壮大なテーマを探求するにあたり、私たちはまず、最も基本的で、かつ最も強力な二つの問いから始めます。
- 「このデータの『中心』はどこにあるのか?」
- 「このデータは、どのくらい『散らばっている』のか?」
最初の問いに答えるのが、平均値、中央値、最頻値といった**「代表値」です。これらは、データ全体の「典型的な値」や「中心的な傾向」を、たった一つの数値で要約してくれる強力な指標です。二つ目の問いに答えるのが、分散や標準偏差、四分位数といった「散らばりの度合い(散布度)」**を示す指標です。これらは、データが中心の周りに密集しているのか、それとも広範囲に散らばっているのか、その「ばらつき」の大きさを定量的に表現します。
このモジュールは、生のデータという名の、磨かれていない原石を、意味のある情報という名の宝石へと加工するための、基本的な研磨技術を学ぶ場です。度数分布表とヒストグラムでデータの全体像を掴み、代表値でその中心を、散布度でその広がりを測る。この一連のプロセスを通じて、皆さんは、単に数値を眺めるだけでなく、その背後にある物語を読み解く「データ・リテラシー」の基礎を築き上げていくことになります。そのために、以下のステップを順に探求していきましょう。
- データの可視化(度数分布表とヒストグラム): 雑然とした生データを、階級に分けて整理する「度数分布表」と、それを棒グラフで視覚化する「ヒストグラム」を作成し、データの分布の全体像を把握する技術を学びます。
- 「重さ」の中心(平均値): データの「重心」として最も馴染み深い「平均値」を定義し、その計算方法と、外れ値に弱いという特性を理解します。
- 「順序」の中心(中央値): データを大きさの順に並べたときの「真ん中」の値である「中央値(メジアン)」を定義し、外れ値に強いという頑健な性質を学びます。
- 「人気」の中心(最頻値): データの中で最も頻繁に現れる値である「最頻値(モード)」を定義し、特に質的データ(カテゴリカルデータ)を分析する上での有用性を探ります。
- 最適な「中心」とは(各代表値の特性と適切な選択): 3つの代表値が、どのようなデータの特性(分布の形、外れ値の有無)に応じて、その「中心」を最もよく表現するのか、戦略的な選択の指針を学びます。
- 散らばりの第一歩(範囲と四分位数): データの散らばりを測る最も単純な指標「範囲(レンジ)」と、データを4等分する境界値である「四分位数」を定義し、より詳細な分布の構造を探ります。
- 「中央50%」の広がり(四分位範囲と四分位偏差): 四分位数を用いて、データの「中央部分」がどのくらいの範囲に広がっているかを示す「四分位範囲」を学び、外れ値の影響を受けにくい、頑健な散らばりの指標としての価値を理解します。
- 分布の要約図(箱ひげ図の作成と解釈): データの5つの基本情報(最小値、四分位数、最大値)を、一つの「箱ひげ図」に要約して視覚化する方法を学び、複数のデータ群の分布を比較する強力なツールとして活用します。
- 平均からの「ずれ」(偏差と分散): 各データが平均値からどれだけ離れているか(偏差)を考え、その「ずれ」の大きさの平均を表す「分散」を定義します。これは、散らばりをより精密に測るための、数学的に洗練された指標です。
- 典型的な「ずれ」の大きさ(標準偏差): 分散の正の平方根である「標準偏差」を定義し、それがデータの散らばりを、元のデータと同じ単位で直感的に解釈可能にする、最も広く使われる散布度の指標であることを学びます。
それでは、データという新たな素材を前に、その個性を解き明かす分析の旅を始めましょう。
1. 度数分布表とヒストグラム
大量の生データ(例えば、クラス40人全員の身長の測定結果)を渡されたとき、その数字の羅列をただ眺めているだけでは、クラス全体の身長に関する傾向や特徴を掴むことは困難です。データ分析の第一歩は、この雑然としたデータを、意味のある形に整理し、可視化することから始まります。
そのための最も基本的なツールが、**度数分布表(frequency distribution table)とヒストグラム(histogram)**です。これらは、データをいくつかの「区間」に分け、それぞれの区間にいくつのデータが含まれているかを数え上げることで、データ全体の「分布」の様子を明らかにしてくれます。
1.1. 度数分布表:データの整理術
定義:
- 階級(class): データを整理するために、データをいくつかの区間に分けたもの。
- 階級の幅(class width): 各階級の区間の大きさ。通常は等間隔にする。
- 度数(frequency): 各階級に含まれるデータの個数。
- 階級値(class value): 各階級の中央の値。(例:
160cm以上165cm未満
の階級値は(160+165)/2 = 162.5cm
) - 度数分布表: これらの情報を一覧表にまとめたもの。
度数分布表の作成プロセス:
- データの範囲を確認: データの最大値と最小値を見つけ、全体の範囲を把握する。
- 階級の幅と数を決める: データをいくつの区間に、どのくらいの幅で区切るかを決める。区間の数は、通常5〜15程度が適切とされる。
- 各階級の度数を数える: 各データが、どの階級に属するかを一つずつ確認し、度数を数え上げる(正の字を使って数えると間違いが少ない)。
- 表を作成する: 階級、階級値、度数を表にまとめる。相対度数(
度数/度数合計
)や累積度数などを加えることもある。
例: クラス40人の身長データ(一部抜粋:168, 172, 155, 163, 181, …)
これを、階級の幅を5cmとして度数分布表にまとめると、以下のようになります。
階級 (cm) | 階級値 (cm) | 度数 (人) |
150以上 155未満 | 152.5 | 2 |
155以上 160未満 | 157.5 | 5 |
160以上 165未満 | 162.5 | 8 |
165以上 170未満 | 167.5 | 11 |
170以上 175未満 | 172.5 | 7 |
175以上 180未満 | 177.5 | 4 |
180以上 185未満 | 182.5 | 3 |
合計 | 40 |
この表を見るだけで、どの身長の範囲に人が多いのか(165-170cm
)、全体の分布の様子が、数字の羅列よりも格段に分かりやすくなります。
1.2. ヒストグラム:データの可視化
度数分布表は、分布の様子を数値で示してくれますが、人間の目は、図形的な表現の方が、その特徴を瞬時に、そして直感的に捉えることができます。度数分布表の内容を、棒グラフの形で視覚化したものがヒストグラムです。
ヒストグラムの描き方:
- 横軸: 階級をとる。
- 縦軸: 度数をとる。
- 各階級を底辺とし、その度数を高さとする長方形を、隙間なく隣り合わせに並べて描く。
ヒストグラムから読み取れること:
- 分布の中心: グラフの山が、どのあたりにあるか。
- 分布の散らばり: グラフが、横に広く広がっているか、狭い範囲に集中しているか。
- 分布の形状:
- 対称な山形: 左右対称に近い、釣鐘型の分布。
- 右に裾が長い(右に歪んだ)分布: 山が左に寄っていて、右側に少数の高い値が長く伸びている分布。(例:所得分布)
- 左に裾が長い(左に歪んだ)分布: 山が右に寄っていて、左側に少数の低い値が長く伸びている分布。
- 二つの山がある(二峰性)分布: 異なる二つのグループが混在している可能性を示唆する。
ヒストグラムは、データ分析の出発点として、その後の分析方針を立てるための、極めて重要な「地図」の役割を果たします。まずデータを整理し、その姿をヒストグラムとして描いてみる。この習慣が、データと対話するための第一歩となるのです。
2. 平均値(算術平均)
データ全体の「中心」や「典型的な値」を表す指標、すなわち代表値(representative value)の中で、最も広く知られ、最も頻繁に使われるのが平均値(mean)、特に**算術平均(arithmetic mean)**です。
小学校以来、テストの平均点などで馴染み深いこの指標は、その計算のしやすさと、すべてのデータの情報を反映するという特性から、多くの統計的手法の基礎となっています。
2.1. 平均値の定義と計算方法
定義:n 個のデータ x_1, x_2, …, x_n があるとき、その平均値 \bar{x} は、すべてのデータの値を合計し、データの個数 n で割ることによって求められる。
\[ \bar{x} = \frac{x_1 + x_2 + \cdots + x_n}{n} = \frac{1}{n}\sum_{i=1}^{n}x_i \]
- 平均値は、変数の上に横棒(バー)をつけた
\bar{x}
(エックス・バー)で表すことが多いです。 \sum
(シグマ)は、総和を表す記号で、数学Bで詳しく学びます。
例: 5人の生徒のテストの点数が 60, 70, 80, 80, 100 点であった場合。
\bar{x} = \frac{60+70+80+80+100}{5} = \frac{390}{5} = 78
平均点は78点となります。
2.2. 平均値の物理的なイメージ:重心
平均値の本質を理解するための一つの強力なアナロジーは、**「重心(center of gravity)」**です。
数直線をシーソーの板とみなし、各データの値の位置に、1単位の重さの「おもり」を置いたとします。
このシーソーがちょうど釣り合う支点の位置、それがまさしく平均値なのです。
このイメージから、平均値の重要な特性が導かれます。
- すべてのデータが等しく影響: どのおもりの位置も、釣り合いの中心(平均値)に影響を与えます。一つのデータだけを無視することはできません。
- 外れ値に弱い: もし、一つだけ極端に離れた位置におもりを置いたら(例えば、100点の代わりに500点をとった生徒がいたら)、釣り合いの中心は、そのおもりの方に大きく引っ張られてしまいます。
2.3. 度数分布表からの平均値の計算
データが度数分布表にまとめられている場合、個々の正確なデータは失われています。このような場合には、各階級に含まれるデータは、すべてその階級の階級値をとるものと**仮定(近似)**して、平均値を計算します。
計算方法:
(平均値) = \frac{\sum (\text{階級値} \times \text{度数})}{\text{度数の合計}}
例: 前セクションの身長データの度数分布表から平均値を求める。
階級値 x | 度数 f | x \times f |
152.5 | 2 | 305.0 |
157.5 | 5 | 787.5 |
162.5 | 8 | 1300.0 |
167.5 | 11 | 1842.5 |
172.5 | 7 | 1207.5 |
177.5 | 4 | 710.0 |
182.5 | 3 | 547.5 |
合計 | 40 | 6700.0 |
\bar{x} = \frac{6700.0}{40} = 167.5
このクラスの身長の平均値は、およそ 167.5 cm であると推定できます。
2.4. 平均値の長所と短所
- 長所:
- すべてのデータの情報を余すところなく利用している。
- 数学的な取り扱いが容易で、分散や標準偏差など、他の多くの統計量の基礎となる。
- 短所:
- 外れ値(outlier)、すなわち他のデータから極端に離れた値の影響を非常に受けやすい。
例: 5人の年収が 400, 500, 600, 700, 800 万円の場合。
平均年収は (400+500+600+700+800)/5 = 600 万円。これは、この集団の「典型的な」年収として、非常にしっくりきます。
しかし、ここに年収 1億円 (10000万円) の人が一人加わったとします。
400, 500, 600, 700, 800, 10000
平均年収は (400+500+600+700+800+10000)/6 = 13000/6 \approx 2167 万円。
この 2167万円 という値は、6人中5人の実態とはかけ離れており、この集団の「典型的な」値とは言えません。
このように、平均値は強力な代表値ですが、その弱点も正しく理解し、データに外れ値が含まれる可能性がある場合には、次に学ぶ「中央値」のような、より頑健な指標と併用することが、賢明なデータ分析の作法となります。
3. 中央値(メジアン)
平均値が、データに存在する極端な値(外れ値)に大きく影響されてしまうという弱点を持つことを学びました。年収の例のように、分布が大きく歪んでいるデータに対して、より「普通」の感覚に近い、頑健な(robust)「中心」を提供してくれる代表値が**中央値(median)**です。
中央値は、その名の通り、データを大きさの順に並べたときに、ちょうど真ん中に位置する値を指します。計算は単純な足し算・割り算ではなく、「順序」に基づいています。
3.1. 中央値の定義と求め方
定義:データを大きさの順に並べたとき、その中央に位置する値。
中央値の求め方は、データの個数 n
が奇数か偶数かによって、少しだけ異なります。
ケース1:データの個数 n
が奇数の場合
真ん中の順位が、ただ一つに決まります。
中央値は、小さい方から数えて \frac{n+1}{2} 番目の値となります。
例: 5人の生徒の点数 60, 70, 80, 80, 100
- データを昇順に並べる:
60, 70, 80, 80, 100
(既に並んでいる) - 中央の順位を求める:
n=5
(奇数)なので、(5+1)/2 = 3
番目。 - 値を読み取る: 3番目の値は 80。したがって、中央値は 80点。
ケース2:データの個数 n
が偶数の場合
「真ん中」が、二つの値にまたがってしまいます。
この場合、中央に位置する2つの値の平均値を、中央値とします。
その2つの値は、小さい方から数えて \frac{n}{2} 番目と \frac{n}{2}+1 番目の値です。
例: 6人の生徒の年収 400, 500, 600, 700, 800, 10000
- データを昇順に並べる:
400, 500, 600, 700, 800, 10000
- 中央の順位を求める:
n=6
(偶数)なので、6/2 = 3
番目と、3+1=4
番目。 - 値を読み取り、平均を計算する:
- 3番目の値は
600
- 4番目の値は 700中央値 = (600+700)/2 = 650したがって、中央値は 650万円。
- 3番目の値は
この 650万円
という値は、平均値の 2167万円
と比べて、1億円の社長を除いた5人の一般社員の実態を、はるかに良く反映していると言えるでしょう。
3.2. 中央値の物理的なイメージ:真ん中の人
平均値が「重心」というイメージであったのに対し、中央値は、「データを大きさ順に一列に並べたときの、列のちょうど真ん中にいる人の値」というアナロジーで理解できます。
このイメージから、中央値の最も重要な特性が明らかになります。
- 外れ値に強い(頑健である):列の端に、とてつもなく背の高い人や低い人が一人加わっても、「真ん中」の人の身長は、ほとんど影響を受けません。年収の例で、1億円の社長の年収が10億円になったとしても、中央の3番目と4番目の人の年収は変わらないため、中央値 650万円 は全く変動しません。この性質を**頑健性(robustness)**と呼びます。
3.3. 度数分布表からの中央値
度数分布表から中央値を求める場合、個々のデータは失われているため、正確な値は求められませんが、**中央値が含まれる「階級」**を特定することはできます。
- データの総数
N
を確認する。 - 中央の順位
N/2
を計算する。 - 累積度数(最初の階級から度数を順に足し上げていく)を計算し、
N/2
番目のデータが、どの階級に初めて含まれるかを探す。
例: クラス40人の身長データの度数分布表
N=40 なので、中央値は 40/2=20 番目と 21 番目の人の身長の平均値。
| 階級 (cm) | 度数 | 累積度数 |
| :— | :— | :— |
| 150-155 | 2 | 2 |
| 155-160 | 5 | 7 (2+5) |
| 160-165 | 8 | 15 (7+8) |
| 165-170 | 11 | 26 (15+11)|
| 170-175 | 7 | 33 |
| … | … | … |
| 合計 | 40 | |
- 15番目までの人は、
165cm
未満。 - 16番目から26番目までの人は、
165cm以上170cm未満
の階級に含まれる。 - したがって、20番目と21番目の人も、この階級にいる。
- よって、中央値は 165cm以上170cm未満 の階級に含まれる、と結論づけることができます。(より詳細な推定法もありますが、高校数学ではここまでで十分です)
中央値は、データの分布に歪みがあったり、外れ値が疑われる場合に、そのデータの「中心」を、より安全に、そしてより直感に近く表現してくれる、極めて有用な代表値です。
4. 最頻値(モード)
代表値の最後の一つとして紹介するのが、最頻値(mode)、またはモードです。その名の通り、これは、データの中で最も頻繁に出現する値を指します。平均値や中央値が計算によって求められる「中心」であったのに対し、最頻値は、データの中で最も「人気のある」値、あるいは最も「典型的な」カテゴリを探す、というアプローチです。
4.1. 最頻値の定義と求め方
定義:データの中で、度数(出現回数)が最も大きい値。
例 1: 5人の生徒の点数 60, 70, 80, 80, 100
- 80点だけが2回出現しており、他の値は1回ずつ。
- したがって、最頻値は 80点。
例 2: 1, 2, 2, 3, 4, 4, 5
2
と4
が、ともに2回ずつ出現しており、これが最大の度数。- このように、最頻値は2つ以上存在する場合があります。この場合の最頻値は
2
と4
。
例 3: 1, 2, 3, 4, 5
- すべての値が1回ずつしか出現しない。
- この場合、最頻値は存在しない。
4.2. 最頻値が活躍する場面
平均値や中央値に比べて、最頻値は少し特殊な立ち位置にありますが、特定の状況下では、他のどの代表値よりも有用な情報を提供してくれます。
4.2.1. 質的データ(カテゴリカルデータ)の分析
最頻値の最大の強みは、**数値でないデータ(質的データ)**に対しても、唯一適用できる代表値である、という点です。
例: クラス20人に好きな果物を聞いた結果
リンゴ, バナナ, イチゴ, リンゴ, ミカン, イチゴ, リンゴ, …
このデータに対して、平均値や中央値を計算することは、全く意味がありません。
しかし、各果物の度数を数えることで、最頻値は求められます。
- リンゴ: 8票
- イチゴ: 5票
- バナナ: 4票
- ミカン: 3票この場合、最も度数が多いのは「リンゴ」なので、このデータの**最頻値は「リンゴ」**です。これは、このクラスで最も人気のある果物はリンゴである、という、非常に分かりやすく有用な情報を提供しています。
4.2.2. 分布の「山」を知りたいとき
ヒストグラムを描いたときに、最も度数が高い階級、すなわち「山の頂点」を知りたいときにも、最頻値の考え方が使われます。
度数分布表における最頻値は、最も度数が大きい階級の階級値と定義されます。
前述の身長の例では、165cm以上170cm未満 の階級の度数が11人で最大なので、最頻値(モード)は、その階級値である 167.5 cm となります。
4.3. 最頻値の長所と短所
- 長所:
- 質的データにも使える唯一の代表値。
- 計算が容易(数えるだけ)。
- 外れ値の影響を全く受けない。
- 短所:
- データの値が少し変わるだけで、大きく変動することがある(不安定)。
- 存在しない場合や、複数存在する場合があり、データ全体の中心を要約する力が弱いことがある。
- すべてのデータの情報を利用しているわけではない。
最頻値は、万能な代表値ではありませんが、「最も一般的なカテゴリは何か」という問いに答える際には、不可欠なツールです。洋服店が、どのサイズの服を最も多く仕入れるべきかを考えるとき、顧客の足のサイズの「平均値」や「中央値」よりも、「最頻値」を知ることの方が、はるかに実用的なのです。
5. 各代表値の特性と適切な選択
私たちは、データ全体の中心的な傾向を要約するための、3つの主要な代表値、平均値(mean)、中央値(median)、**最頻値(mode)**を学びました。これら3つの指標は、いずれもデータの「中心」を捉えようとするものですが、そのアプローチと特性は、それぞれ大きく異なります。
データ分析における成熟とは、単にこれらの値を計算できることではありません。与えられたデータの性質(分布の形状、外れ値の有無、データの種類など)を的確に把握し、その状況において、最も適切にデータの特徴を表現できる代表値はどれか、を戦略的に選択できる能力にあります。
誤った代表値の選択は、データの解釈を大きく歪め、誤った結論を導く可能性があります。これは、統計が時に「嘘をつく」と言われる所以の一つでもあります。
5.1. 3つの代表値の比較
特性 | 平均値 (Mean) | 中央値 (Median) | 最頻値 (Mode) |
計算方法 | 全データの合計 ÷ 個数 | データを並べた真ん中の値 | 最も頻繁に出現する値 |
利用する情報 | すべてのデータ値 | データの順序情報 | データの度数情報 |
外れ値の影響 | 非常に受けやすい | 受けにくい(頑健) | 全く受けない |
適したデータ | 数量データ | 数量データ | 数量データ, 質的データ |
存在と一意性 | 常に一つだけ存在する | 常に一つだけ存在する | 存在しない、または複数存在する場合がある |
アナロジー | 重心 | 真ん中の人 | 最も人気のあるカテゴリ |
5.2. 分布の形状と代表値の選択
代表値の選択において、最も重要な判断基準の一つが、データの分布の形状です。これは、ヒストグラムを描くことで視覚的に把握できます。
ケース1:左右対称な分布(釣鐘型など)
- データの分布が、山を中心に左右対称に近い形をしている場合。
- このとき、平均値、中央値、最頻値は、ほぼ同じ値になります。
- このようなデータでは、すべての情報を活用している平均値が、最も信頼性の高い代表値として、一般的に用いられます。
ケース2:右に裾が長い分布(左に歪んだ分布)
- 分布の山が左側に偏り、右側(値が大きい方)に少数の外れ値が長く伸びている場合。(例:所得、資産、テストの点数で一部高得点者がいる場合)
- 外れ値である大きい値に引っ張られて、平均値は中央値よりも大きくなります。
(最頻値) < (中央値) < (平均値)
という大小関係になる傾向があります。- このようなデータでは、平均値は「普通の人」の実感を反映しません。外れ値の影響を受けにくい中央値が、データの中心を示す代表値として、より適切です。
ケース3:左に裾が長い分布(右に歪んだ分布)
- 分布の山が右側に偏り、左側(値が小さい方)に少数の外れ値が長く伸びている場合。(例:テストの点数で一部極端な低得点者がいる場合)
- 外れ値である小さい値に引っ張られて、平均値は中央値よりも小さくなります。
(平均値) < (中央値) < (最頻値)
という大小関係になる傾向があります。- この場合も、中央値の方が、より頑健な代表値と言えます。
5.3. 戦略的選択の指針
- 問1:データは数量データか、質的データか?
- 質的データ(血液型、好きな食べ物など)→ 選択肢は最頻値のみ。
- 数量データ → 問2へ。
- 問2:データに外れ値があるか?分布は大きく歪んでいるか?
- (ヒストグラムを描いたり、データの最大・最小値を確認して判断)
- Yes(外れ値がある、または分布が歪んでいる)→ 中央値が最も推奨される。平均値も計算し、中央値との差を見ることで、歪みの度合いを評価するのも良い。
- No(外れ値がなく、分布がほぼ対称)→ 平均値が最も代表的な指標としてふさわしい。
結論として、代表値は一つだけを見て判断するのではなく、複数の代表値を計算し、それらの関係性を見ることで、データ全体の分布の形状をより深く理解することができるのです。
例えば、平均値と中央値が大きく乖離しているデータを見たら、その瞬間に「このデータは、おそらく外れ値を含むか、大きく歪んだ分布をしているな」と推測できるようになることが、データ分析における重要な一歩となります。
6. 範囲(レンジ)と四分位数
データ全体の「中心」を代表値で捉えたあと、次に私たちが知りたいのは、そのデータがどのくらい**「散らばっている」か、その散らばりの度合い(散布度)**です。
例えば、二つのクラスA, Bがあり、両方ともテストの平均点が70点だったとします。しかし、クラスAは全員が65点から75点の間に固まっているのに対し、クラスBは100点もいれば30点もいる、というように点数が大きく散らばっているかもしれません。この「散らばり」の違いは、平均値だけを見ていては、決して見えてきません。
このセクションでは、散らばりの度合いを測るための、最も基本的な指標である**範囲(レンジ)と、より詳細に分布を分析するための四分位数(quartile)**という概念を学びます。
6.1. 範囲(レンジ)
定義:データの最大値と最小値の差。
範囲 = (最大値) – (最小値)
範囲は、散らばりの度合いを測る指標の中で、最も計算が簡単で、直感的に分かりやすいものです。
例:
- クラスAの点数:
65, 68, 70, 72, 75
- 範囲 =
75 - 65 = 10
- 範囲 =
- クラスBの点数:
30, 60, 70, 90, 100
- 範囲 =
100 - 30 = 70
- 範囲 =
範囲を比較することで、クラスBの方が、クラスAよりも点数がはるかに大きく散らばっていることが、一目瞭然となります。
範囲の弱点:
範囲は、最大値と最小値という、たった二つのデータだけで計算されます。そのため、その中間のデータがどのように分布しているかを全く無視してしまいます。また、平均値と同様に、外れ値の影響を極端に受けやすいという、大きな弱点を持っています。
例えば、65, 68, 70, 72, 100 というデータでは、たった一つの外れ値 100 のために、範囲が 100-65=35 となってしまい、データ全体の散らばりを過大に評価してしまう可能性があります。
6.2. 四分位数:データを4等分する
範囲の弱点を克服し、より詳細にデータの分布を捉えるために導入されるのが、四分位数(quartile)です。
中央値が、データを大きさ順に並べて、ちょうど真ん中で2等分する値であったのに対し、四分位数は、データを4等分する位置にある値を指します。
定義:
データを大きさの順に並べ、
- 第2四分位数 (Q2): データ全体の中央値。これでデータは下位半分と上位半分に分けられる。
- 第1四分位数 (Q1): 下位半分のデータの中央値。全データの小さい方から25%の位置。
- 第3四分位数 (Q3): 上位半分のデータの中央値。全データの小さい方から75%の位置。
これら Q1, Q2, Q3 の3つの値が、四分位数です。
データの最小値を min、最大値を max とすると、min, Q1, Q2, Q3, max の5つの数値が、データ全体の分布の様子を要約する、**五数要約(five-number summary)**となります。
6.3. 四分位数の求め方
四分位数の正確な求め方は、データの個数 n
によって、いくつかの流儀がありますが、高校数学では以下の手順が一般的です。
ステップ 1: まず、第2四分位数 Q2(中央値)を求める。
ステップ 2: Q2 を境に、データを下位グループと上位グループに分ける。
n
が奇数の場合:Q2
の値は、どちらのグループにも含めない。- n が偶数の場合:Q2 は二つの値の平均なので、データはきれいに二分割される。ステップ 3: 下位グループの中央値として Q1 を、上位グループの中央値として Q3 を求める。
例 1: n=9(奇数)の場合
データ: 3, 5, 5, 8, 10, 12, 13, 15, 18
Q2
:(9+1)/2=5
番目の値。Q2 = 10
。- グループ分け:
Q2
の10
を除外する。- 下位グループ:
3, 5, 5, 8
- 上位グループ:
12, 13, 15, 18
- 下位グループ:
Q1
,Q3
の計算:Q1
: 下位グループ(4個)の中央値 =(5+5)/2 = 5
。Q1=5
。Q3
: 上位グループ(4個)の中央値 =(13+15)/2 = 14
。Q3=14
。
例 2: n=10(偶数)の場合
データ: 2, 5, 7, 8, 11, 13, 15, 18, 19, 20
Q2
:10/2=5
番目と6
番目の値の平均。(11+13)/2 = 12
。Q2=12
。- グループ分け:
- 下位グループ:
2, 5, 7, 8, 11
- 上位グループ:
13, 15, 18, 19, 20
- 下位グループ:
Q1
,Q3
の計算:Q1
: 下位グループ(5個)の中央値 =3
番目の7
。Q1=7
。Q3
: 上位グループ(5個)の中央値 =3
番目の18
。Q3=18
。
四分位数は、データをより細かく分割し、その内部構造を明らかにするための、強力な分析ツールです。次のセクションでは、この四分位数を用いて、範囲よりも優れた散らばりの指標を定義し、それを視覚化する方法を学びます。
7. 四分位範囲と四分位偏差
範囲(レンジ)が、外れ値の影響を極端に受けやすいという弱点を持つことを学びました。たった一つの異常なデータのために、データ全体の散らばり具合を誤って評価してしまうリスクがあります。
この弱点を克服し、より頑健な(外れ値に強い)散らばりの指標を提供してくれるのが、前セクションで学んだ四分位数を基に計算される、**四分位範囲(interquartile range, IQR)と四分位偏差(quartile deviation)**です。
7.1. 四分位範囲 (IQR)
定義:第3四分位数 Q3 と、第1四分位数 Q1 の差。
四分位範囲 (IQR) = Q3 – Q1
四分位範囲が示すもの:
Q1 がデータの下から25%点、Q3 が下から75%点でした。
したがって、Q3-Q1 は、データを大きさ順に並べたときの、ちょうど真ん中の中央50%のデータが、どのくらいの範囲に広がっているかを示しています。
なぜ頑健なのか?
四分位範囲は、データ全体の上位25%と下位25%の値を、計算から完全に無視します。外れ値は、通常この両端の25%の領域に現れるため、四分位範囲は、それらの外れ値の影響を一切受けません。
中央値が、外れ値に強い「中心」の指標であったのと同様に、四分位範囲は、外れ値に強い「散らばり」の指標なのです。この二つは、非常に相性の良いペアと言えます。
例:
n=10 のデータ: 2, 5, 7, 8, 11, 13, 15, 18, 19, 20
Q1=7
,Q3=18
- 四分位範囲 =
18 - 7 = 11
ここに、外れ値 100 を加えてみましょう。
データ: 2, 5, 7, 8, 11, 13, 15, 18, 19, 20, 100 (n=11)
Q2
: 6番目の13
。- 下位グループ:
2, 5, 7, 8, 11
→Q1
は3番目の7
。 - 上位グループ:
15, 18, 19, 20, 100
→Q3
は3番目の19
。 - 四分位範囲 = 19 – 7 = 12。範囲(レンジ)が 20-2=18 から 100-2=98 へと劇的に変化したのに対し、四分位範囲は 11 から 12 へと、ほとんど変化していません。これが、頑健性です。
7.2. 四分位偏差
定義:四分位範囲を2で割った値。
四分位偏差 = \frac{Q3-Q1}{2} = \frac{\text{IQR}}{2}
四分位偏差は、中央値 Q2 から、Q1 および Q3 までの、おおよその平均的な距離を示している、と解釈できます。
分布が対称であれば、Q2 – Q1 と Q3 – Q2 の値は近くなるため、四分位偏差は「中央値から四分位数までの典型的なずれ」の良い指標となります。
散らばりの指標としては、四分位範囲 IQR そのものが使われることの方が、より一般的です。
7.3. データの比較における活用
四分位範囲は、二つ以上のデータ群の散らばりを比較する際に、非常に有効です。
例:
- クラスAの点数の四分位範囲:
IQR_A = 15
点 - クラスBの点数の四分位範囲:
IQR_B = 30
点
この情報から、たとえ両クラスの平均点や中央値が同じであったとしても、「クラスBの方が、クラスAよりも、中位層の生徒の点数のばらつきが2倍大きい」と結論づけることができます。これは、クラスBの方が、学力的に不均一な集団である可能性を示唆しています。
四分位範囲は、データの「メインストリーム」、すなわち大多数を占める中央部分の動向に焦点を当てることで、外れ値というノイズに惑わされることなく、データの散らばりの本質的な大きさを捉えることを可能にする、洗練された分析ツールなのです。
8. 箱ひげ図の作成と解釈
私たちは、データの分布を要約するための5つの重要な数値、すなわち**五数要約(最小値, 第1四分位数 Q1
, 中央値 Q2
, 第3四分位数 Q3
, 最大値)**を学びました。
これらの数値を個別に眺めるだけでも、データの分布に関する多くの情報が得られますが、人間の脳は、やはり視覚的な情報を最も効率的に処理します。この五数要約を、一つの図で、コンパクトに、そして視覚的に表現するツールが、**箱ひげ図(box-and-whisker plot)**です。
箱ひげ図は、その見た目のシンプルさとは裏腹に、データの中心、散らばり、そして歪みに関する豊富な情報を凝縮しており、特に複数のデータ群の分布を並べて比較する際に、絶大な威力を発揮します。
8.1. 箱ひげ図の構成要素と作成方法
箱ひげ図は、その名の通り、「箱(box)」と「ひげ(whisker)」と呼ばれる二つの部分から構成されます。
- 箱 (Box):
- 箱の左端: 第1四分位数
Q1
- 箱の右端: 第3四分位数
Q3
- したがって、箱の長さは、
Q3-Q1
、すなわち四分位範囲 (IQR) を表す。 - 箱の中には、中央値 (
Q2
) の位置に、一本の縦線が引かれる。
- 箱の左端: 第1四分位数
- ひげ (Whisker):
- 箱の左端
Q1
から、最小値まで、左向きに線が伸びる。 - 箱の右端
Q3
から、最大値まで、右向きに線が伸びる。
- 箱の左端
作成手順:
- データから、五数要約(最小値,
Q1
,Q2
,Q3
, 最大値)を計算する。 - データの値に対応する数直線を、横軸(または縦軸)に描く。
- 数直線の上に、
Q1
とQ3
を両端とする長方形(箱)を描く。 - 箱の中に、
Q2
(中央値)の位置に縦線を引く。 - 箱の左端から最小値の位置まで、箱の右端から最大値の位置まで、それぞれ直線(ひげ)を伸ばす。
8.2. 箱ひげ図の解釈:何が読み取れるか
一つの箱ひげ図からは、以下のようなデータの分布に関する情報を読み取ることができます。
- 中心の位置:
- 箱の中の線(中央値
Q2
)が、データ全体の中心的な傾向を示す。
- 箱の中の線(中央値
- 散らばりの大きさ:
- ひげの全体の長さ(最大値と最小値の距離)が、**範囲(レンジ)**を表し、データ全体の散らばりを示す。
- **箱の長さ(IQR)**が、中央50%のデータの散らばりを示す。箱が長ければ、中位層のばらつきが大きい。
- 分布の歪み(対称性):
- 箱の中の中央線の位置: もし中央線が箱の真ん中あたりにあれば、中央50%のデータは比較的対称に分布している。中央線が左に寄っていれば、
Q1
からQ2
までが詰まっており、Q2
からQ3
までが広がっていることを示す。 - 左右のひげの長さ: もし右のひげが左のひげより長ければ、データは右側に、より広く散らばっている(右に裾が長い分布)ことを示唆する。
- 箱の中の中央線の位置: もし中央線が箱の真ん中あたりにあれば、中央50%のデータは比較的対称に分布している。中央線が左に寄っていれば、
8.3. 複数のデータ群の比較
箱ひげ図の真価は、複数のデータ群の箱ひげ図を、同じ数直線上に並べて描くことで発揮されます。
例: クラスAとクラスBのテストの点数の箱ひげ図を比較する。
- 中心の比較:
- クラスAの中央値が、クラスBの中央値よりも右にあれば、「クラスAの方が、全体的に点数が高い傾向にある」と言える。
- 散らばりの比較:
- クラスBの箱の長さ(IQR)が、クラスAの箱の長さよりも長ければ、「クラスBの方が、中位層の生徒の学力が不均一である」と推測できる。
- クラスBのひげの全体の長さ(範囲)が長ければ、「クラスBには、極端な高得点者や低得点者が含まれている可能性が高い」と言える。
- 分布の形状の比較:
- クラスAは箱もひげも左右対称に近いが、クラスBは中央値が箱の左に寄っており、右のひげが長い。これは、「クラスBには、一部の優秀な生徒が高得点側に分布を引っ張っている、右に裾の長い分布である」ことを示唆している。
このように、箱ひげ図は、複数のデータ群の複雑な分布特性を、視覚的に、そして直感的に比較・検討するための、極めて強力な分析ツールなのです。
9. 偏差と分散
これまで学んできた散らばりの指標(範囲、四分位範囲)は、データの順序情報や最大・最小値に基づいていました。これらは外れ値に強いという長所を持つ一方で、すべてのデータの情報を完全には活用していません。
このセクションでは、散らばりを測るための、より数学的に洗練された、そして今後の統計分析の基礎となる、平均値を基準としたアプローチを学びます。その中心となる概念が、**偏差(deviation)と分散(variance)**です。
基本的なアイデアは、「データが、その中心である平均値から、全体として平均してどれくらい離れているか」を、一つの数値で表現することです。
9.1. 偏差:平均からの「ずれ」
定義:個々のデータの値から、データ全体の平均値を引いた値。
偏差 = (データの値 x_i) – (平均値 \bar{x})
偏差は、それぞれのデータが、平均値と比べて、どれだけ大きいか(正の偏差)、あるいは小さいか(負の偏差)を示しています。
例: 5人の点数 60, 70, 80, 80, 100
。平均値は \bar{x}=78
。
- 60点の人の偏差:
60 - 78 = -18
- 70点の人の偏差:
70 - 78 = -8
- 80点の人の偏差:
80 - 78 = +2
(2人とも) - 100点の人の偏差:
100 - 78 = +22
偏差の性質:偏差の合計は、常に 0 になる。
(-18) + (-8) + (+2) + (+2) + (+22) = 0
これは、平均値がデータの「重心」であることから、必然的に導かれる性質です。平均値からのプラスのずれとマイナスのずれは、常に相殺し合います。
9.2. 分散:偏差の2乗の平均
偏差の合計が 0 になってしまうため、そのままでは散らばりの指標として使えません。プラスとマイナスのずれが打ち消し合わないように、すべての偏差を正の値にする必要があります。
そのための最も自然な数学的操作が、偏差を2乗することです。
(絶対値をとる方法もありますが、2乗する方が後の数学的な展開において都合が良いのです)
こうして得られた偏差の2乗の、データ全体での平均値を、分散と定義します。
定義:分散(variance)とは、偏差の2乗の平均値である。
分散 s^2 または V(x) は、
\[ s^2 = \frac{1}{n}\sum_{i=1}^{n}(x_i – \bar{x})^2 \]
言葉による定義:
分散 = \frac{(\text{偏差1})^2 + (\text{偏差2})^2 + \cdots + (\text{偏差n})^2}{\text{データの個数}}
分散は、**「データが、平均値から、2乗距離で平均してどれくらい離れているか」**を示す指標です。
- 分散が大きい
\iff
データが平均値から遠く離れて散らばっている。 - 分散が小さい
\iff
データが平均値の周りに密集している。
例(続き): 点数 60, 70, 80, 80, 100
の分散を求める。
- 偏差:
-18, -8, 2, 2, 22
- 偏差の2乗:(-18)^2 = 324(-8)^2 = 64(2)^2 = 4(2)^2 = 4(22)^2 = 484
- 偏差の2乗の合計:
324+64+4+4+484 = 880
- 分散
s^2 = 880 / 5 = 176
9.3. 分散の計算を簡略化する公式
分散の定義式のまま計算するのは、特に平均値が整数でない場合に、偏差の計算が面倒になります。そこで、計算を簡単にするための、以下の同値な公式が広く用いられます。
分散の別公式:
s^2 = (\text{データの2乗の平均}) – (\text{データの平均})^2
\[ s^2 = \frac{1}{n}\sum_{i=1}^{n}x_i^2 – (\bar{x})^2 \]
証明の概要:
定義式 s^2 = \frac{1}{n}\sum(x_i – \bar{x})^2 を展開すると、
s^2 = \frac{1}{n}\sum(x_i^2 – 2x_i\bar{x} + \bar{x}^2)
= \frac{1}{n}(\sum x_i^2 – \sum 2x_i\bar{x} + \sum \bar{x}^2)
= \frac{1}{n}\sum x_i^2 – \frac{1}{n}(2\bar{x}\sum x_i) + \frac{1}{n}(n\bar{x}^2)
\bar{x} = (\sum x_i)/n より \sum x_i = n\bar{x} なので、
= \frac{1}{n}\sum x_i^2 – \frac{1}{n}(2\bar{x} \cdot n\bar{x}) + \bar{x}^2
= \frac{1}{n}\sum x_i^2 – 2\bar{x}^2 + \bar{x}^2 = \frac{1}{n}\sum x_i^2 – \bar{x}^2
例(再訪): 点数 60, 70, 80, 80, 100
- データの2乗:
3600, 4900, 6400, 6400, 10000
- データの2乗の合計:
3600+4900+6400+6400+10000 = 31300
- データの2乗の平均:
31300 / 5 = 6260
- データの平均
\bar{x}
は78
。(\bar{x})^2 = 78^2 = 6084
。 - 分散 s^2 = 6260 – 6084 = 176定義通りの計算と、同じ結果が得られました。
分散は、すべてのデータと平均値との関係性を考慮した、非常に優れた散らばりの指標です。しかし、一つだけ解釈上の難点があります。それは、単位が元のデータと異なる(偏差を2乗したため、点数なら「点²」というような、直感的に分かりにくい単位になる)ことです。この問題を解決するのが、次の標準偏差です。
10. 標準偏差
分散は、データの散らばりを数学的にエレガントに表現する指標ですが、「偏差を2乗」しているために、その単位が元のデータと異なってしまう(例:身長(cm)の分散の単位は cm²)、という解釈上の問題がありました。
この問題を解決し、散らばりの度合いを、元のデータと同じ単位で、より直感的に理解できるようにした指標が、**標準偏差(standard deviation)**です。統計学において、最も広く用いられる散布度の指標と言っても過言ではありません。
10.1. 標準偏差の定義
定義:分散の、正の平方根。
標準偏差 s は、
\[ s = \sqrt{\text{分散}} = \sqrt{\frac{1}{n}\sum_{i=1}^{n}(x_i – \bar{x})^2} \]
- 分散が
s^2
と書かれることが多いのは、その平方根である標準偏差をs
と書くためです。
例: 前セクションの点数データ 60, 70, 80, 80, 100
- 分散
s^2
は176
でした。 - 標準偏差
s
は\sqrt{176} = \sqrt{16 \times 11} = 4\sqrt{11}
。 \sqrt{11} \approx 3.32
なので、s \approx 4 \times 3.32 = 13.28
。- 標準偏差は、約
13.28
点となります。単位が「点」に戻っていることに注目してください。
10.2. 標準偏差が意味するもの
標準偏差は、一体何を物語っているのでしょうか。
その最も直感的な解釈は、「データが、平均値から、だいたい平均してどれくらい離れているか」という、「典型的な偏差の大きさ」です。
- 標準偏差が大きい: データが平均値から広く散らばっている。
- 標準偏差が小さい: データが平均値の周りに密集している。
先の例で、平均値は78点、標準偏差は約13.3点でした。これは、この5人の生徒の点数は、「78点を中心として、だいたいプラスマイナス13.3点くらいの範囲に散らばっている」という、大まかなイメージを与えてくれます。
実際に、ほとんどのデータ (60, 70, 80, 80) は、78 \pm 13.3 の範囲(約 64.7 点から 91.3 点)に収まっています。
10.3. 正規分布との関係(発展)
データの分布が、左右対称の美しい釣鐘型、すなわち**正規分布(normal distribution)**に従う場合、標準偏差 s
は、さらに強力な意味を持ちます。
正規分布に従うデータでは、
(\bar{x}-s)
から(\bar{x}+s)
の範囲(平均±1標準偏差)に、データ全体の約 68% が含まれる。(\bar{x}-2s)
から(\bar{x}+2s)
の範囲(平均±2標準偏差)に、データ全体の約 95% が含まれる。(\bar{x}-3s)
から(\bar{x}+3s)
の範囲(平均±3標準偏差)に、データ全体の約 99.7% が含まれる。
この経験則は、標準偏差という一つの数値から、データ全体の分布の様子を、かなり正確に推測できることを示しています。例えば、ある集団のテストの平均点が60点、標準偏差が10点であったとすれば、受験者の約95%は、60 \pm 2 \times 10
、すなわち40点から80点の間にいる、と大まかに予測できるのです。
10.4. 散らばりの指標の使い分け
私たちは、データの散らばりを測るための、いくつかの指標を学びました。
- 範囲(レンジ): 最も単純だが、外れ値に弱い。
- 四分位範囲(IQR): 外れ値に強い(頑健)。分布の歪みがある場合に有効。
- 標準偏差(
s
): すべてのデータを利用し、数学的に扱いやすい。分布が比較的対称な場合に、最も広く使われる。
どの指標を使うべきかは、代表値の選択と同様に、データの性質や分析の目的によって決まります。
- 外れ値が多い、分布が歪んでいる: 四分位範囲と中央値のペアが、データをより正直に表現する。
- 外れ値が少なく、分布が対称に近い: 標準偏差と平均値のペアが、最も多くの情報を含み、後の高度な分析にも繋がりやすい。
標準偏差は、データの「ばらつき」という、目に見えない性質を、一つの具体的な数値として捉えることを可能にする、データ分析における最も重要な概念の一つです。
Module 11:データの分析(1) 代表値と散らばり の総括:データの「個性」を読み解く二つの視点
本モジュールを通じて、私たちは、数字の羅列という混沌とした情報の海から、意味のある秩序を汲み上げるための、データ分析という新たな航海術を学び始めました。その航海の指針となったのは、**「中心はどこか?」と「散らばりはどうか?」**という、データという未知の大陸の「個性」を捉えるための、二つの根源的な問いでした。
最初の問いに対して、私たちは「代表値」という名の、3種類の測量器具を手に入れました。平均値は、データの「重心」を精密に測定する、数学的に洗練された器具でしたが、時に「外れ値」という嵐に流されやすい、という弱点も持っていました。中央値は、データを順序の鎖として捉え、その「真ん中」を指し示す、嵐の中でも揺るがない頑健な羅針盤でした。そして最頻値は、数値化できない大陸の産物(質的データ)に対しても、その「最も人気のある場所」を教えてくれる、ユニークな探査機でした。重要なのは、一つの器具に頼るのではなく、これらの器具が示す値を比較することで、大陸の地形(分布の歪み)を推測する、複眼的な視点を獲得したことです。
二つ目の問いに対して、私たちは「散布度」という、大陸の広がりを測るための、より高度な測量術を習得しました。範囲という最も素朴な地図から、四分位数と箱ひげ図という、大陸を4つの地域に分け、その要約図を描く、より詳細な地図作成術へと進みました。そして最終的に、平均値という中心点からの「典型的な距離」を測る標準偏差という、最も強力で普遍的な測量基準を確立しました。
このモジュールで私たちが手に入れたのは、単なる計算のレシピではありません。それは、データという、これまでとは質の異なる対象と向き合い、その要約された「個性」(中心と散らばり)を、客観的な数値と言葉で語るための、全く新しい言語と思考のフレームワークです。この基礎の上に、次なるモジュールでは、二つの異なるデータ群の関係性を探る「相関」という、さらにダイナミックな分析の世界へと、航海を進めていくことになります。