【基礎 数学(数学Ⅰ)】Module 12:データの分析(2) 相関とデータの活用

当ページのリンクには広告が含まれています。

本モジュールの目的と構成

前回のモジュールで、私たちはデータ分析の第一歩として、一つの変数(データ群)の「個性」を、その中心(代表値)と散らばり(散布度)という二つの側面から読み解く技術を習得しました。しかし、現実世界の現象は、単一の要因だけで動いているわけではありません。多くの場合、複数の要因が複雑に絡み合い、互いに影響を与え合っています。「身長が高い人ほど、体重も重い傾向があるだろうか?」「勉強時間とテストの点数の間には、どのような関係があるのだろうか?」

本モジュールでは、データ分析の探求を、一つの変数の記述から、二つの変数の間の「関係性」の分析へと、その次元を一つ引き上げます。その中心的なテーマは**「相関(correlation)」です。相関とは、一方の変数が増加したとき、もう一方の変数も増加(または減少)する傾向がある、という二つの変数間の連動性を捉える概念です。私たちは、この関係性を視覚化するための散布図と、その関係の強さと向きを一つの数値で要約する相関係数**という、二つの強力なツールを手に入れます。

しかし、この強力なツールは、諸刃の剣でもあります。二つの事象が連動して動くという「相関関係」を発見したとき、私たちは、そこに「一方がもう一方の原因である」という**「因果関係」を、安易に見てしまいがちです。この「相関は、必ずしも因果を意味しない」**という、統計的思考における最も重要で、最も陥りやすい落とし穴を深く理解し、批判的な視点を持ってデータを解釈する能力を養うことこそが、本モジュールの究極的な目標です。

このモジュールを完遂する時、皆さんは、単に相関係数を計算できるだけでなく、データが語る関係性の奥に潜む、真の構造を洞察するための、より成熟したデータ・リテラシーを身につけているでしょう。そのために、以下のステップを順に探求していきます。

  1. 分散計算の高速化(分散の計算を簡略化する公式): Module 11で学んだ分散の計算を、より効率的に行うための便利な公式を再確認し、その導出を理解します。
  2. データの一括変換(データの変換が与える影響): データ全体に同じ操作(定数を足す、定数を掛ける)を行ったとき、平均値や標準偏差がどのように変化するのか、その法則性を学びます。
  3. 共通の物差し(標準化と偏差値): 平均や散らばりが異なるデータ群を、共通の基準で比較するための「標準化」という操作と、その応用である「偏差値」の概念を理解します。
  4. 関係性の可視化(散布図と相関関係): 二つの量的データの関係性を、座標平面上の点の集合である「散布図」として視覚化し、「正の相関」「負の相関」「無相関」という関係性のパターンを直感的に読み取る方法を学びます。
  5. 関係性の数値化(共分散と相関係数): 散布図で見られる関係性の「向き」と「強さ」を、それぞれ「共分散」と「相関係数」という客観的な数値で定量化する手法を習得します。
  6. 相関係数の個性(相関係数の性質): 相関係数が常に -1 から 1 までの値をとる理由や、その値が 1 や -1に近いほど、どのような意味を持つのか、その性質を深く探求します。
  7. 統計学最大の教訓(相関関係と因果関係の区別): 二つの変数に相関が見られても、それが因果関係を意味するとは限らない理由を、第三の変数の存在(見せかけの相関)などの例を通じて学び、データ解釈における批判的思考を養います。
  8. グループ間の比較(複数のデータ群の箱ひげ図による比較): Module 11で学んだ箱ひげ図を複数並べることで、異なるグループ間のデータの分布(中心、散らばり、歪み)を、視覚的に比較・検討する手法を再確認します。
  9. 偶然か、必然か(仮説検定の考え方への導入): データに見られる差や関係性が、単なる偶然の産物なのか、それとも統計的に意味のある(有意な)ものなのかを判断するための「仮説検定」という、推測統計学の基本的な考え方に触れます。
  10. 現代の分析手法(コンピュータを用いた統計処理): 実際のデータ分析において、コンピュータ(表計算ソフトなど)が、面倒な計算をいかに効率化し、分析者がより本質的な解釈や思考に集中することを可能にするか、その役割を理解します。

それでは、二つの変数が織りなす、相関という名のダンスを解き明かす旅へ出発しましょう。


目次

1. 分散の計算を簡略化する公式

Module 11で、私たちはデータの散らばりを測るための重要な指標として分散を学びました。その定義は「偏差(データ値 – 平均値)の2乗の平均」であり、散らばりの概念を直接的に表現した、非常に美しい形でした。

s^2 = \frac{1}{n}\sum_{i=1}^{n}(x_i – \bar{x})^2

しかし、この定義式のまま計算しようとすると、

  1. まず平均値 \bar{x} を計算し、
  2. 次に各データ x_i から \bar{x} を引いて偏差を求め、
  3. その偏差を2乗し、
  4. 最後にそれらを合計して n で割るという、多段階のプロセスが必要となります。特に、平均値 \bar{x} が小数や分数になると、偏差の計算が非常に煩雑になり、計算ミスを誘発しやすくなります。

この計算の手間を大幅に削減し、より機械的に分散を算出するために、以下の簡略化された公式が広く用いられます。

1.1. 分散の別公式

分散の計算を簡略化する公式:

分散 s^2 は、「データの2乗の平均値」から「データの平均値の2乗」を引いたものに等しい。

\[ s^2 = \overline{x^2} – (\bar{x})^2 \]

(ただし、\overline{x^2} は x_i^2 の平均値 \frac{1}{n}\sum_{i=1}^{n}x_i^2 を、\bar{x} は x_i の平均値 \frac{1}{n}\sum_{i=1}^{n}x_i を表す)

この公式の最大の利点は、偏差を一度も計算する必要がないことです。必要なのは、「各データを2乗したものの合計」と「各データの合計」の二つだけであり、これらは電卓などを使えば比較的容易に計算できます。

1.2. 公式の証明

この公式は、定義式を展開し、整理することで、代数的に簡単に導出できます。

s^2 = \frac{1}{n}\sum(x_i – \bar{x})^2

= \frac{1}{n}\sum(x_i^2 – 2x_i\bar{x} + \bar{x}^2)

ここで、\sum の性質を使って、各項に分解します。

= \frac{1}{n} \left( \sum x_i^2 – \sum 2x_i\bar{x} + \sum \bar{x}^2 \right)

\bar{x} は i に依存しない定数なので、\sum の外に出すことができます。

= \frac{1}{n} \left( \sum x_i^2 – 2\bar{x}\sum x_i + \sum \bar{x}^2 \right)

\sum_{i=1}^{n} \bar{x}^2 は、\bar{x}^2 を n 回足すことなので n\bar{x}^2 となります。

= \frac{1}{n}\sum x_i^2 – \frac{2\bar{x}}{n}\sum x_i + \frac{1}{n}(n\bar{x}^2)

ここで、平均値の定義 \bar{x} = \frac{1}{n}\sum x_i を用いると、

= \overline{x^2} – 2\bar{x}(\bar{x}) + \bar{x}^2

= \overline{x^2} – 2(\bar{x})^2 + (\bar{x})^2

= \overline{x^2} – (\bar{x})^2

となり、公式が証明されました。

1.3. 実践例

例題: 5個のデータ 3, 5, 6, 7, 9 の分散を、二つの方法で計算せよ。

  • 平均値の計算\bar{x} = (3+5+6+7+9)/5 = 30/5 = 6

方法1:定義による計算

  • 偏差3-6=-35-6=-16-6=07-6=19-6=3
  • 偏差の2乗9, 1, 0, 1, 9
  • 偏差の2乗の和9+1+0+1+9 = 20
  • 分散s^2 = 20/5 = 4

方法2:簡略公式による計算

  • データの2乗3^2=95^2=256^2=367^2=499^2=81
  • データの2乗の和9+25+36+49+81 = 200
  • データの2乗の平均\overline{x^2} = 200/5 = 40
  • 平均の2乗(\bar{x})^2 = 6^2 = 36
  • 分散s^2 = \overline{x^2} - (\bar{x})^2 = 40 - 36 = 4

平均値がきれいな整数であるこの例では、どちらの方法でも手間はあまり変わりませんが、平均値が複雑な小数になるほど、簡略公式のありがたみが増します。この公式は、分散のもう一つの「顔」として、その定義と合わせて理解しておきましょう。


2. データの変換が与える影響

データ分析を行っていると、元のデータをより扱いやすく、あるいは比較しやすくするために、データ全体に同じルールで**変換(transformation)**を施したい場合があります。最も基本的な変換は、**線形変換(linear transformation)**と呼ばれるものです。

線形変換:

元のデータ x_1, x_2, …, x_n のそれぞれに対して、

y_i = ax_i + b

(a, b は定数)

という計算を行い、新しいデータ y_1, y_2, …, y_n を作る。

例えば、摂氏(℃)で測定された温度データ x を、華氏(℉)y に変換する y = 1.8x + 32 は、この線形変換の一例です。

では、このような変換を施すと、データの基本的な統計量である平均値標準偏差(および分散)は、どのように変化するのでしょうか。この法則性を理解することは、データのスケール(尺度)を自在に操るための基礎となります。

2.1. 平均値への影響

結論:

元のデータ x の平均値を \bar{x} とすると、変換後のデータ y=ax+b の平均値 \bar{y} は、

\bar{y} = a\bar{x} + b

となる。

つまり、平均値は、元のデータと全く同じ線形変換を受ける、ということです。これは非常に直感的で分かりやすい結果です。

全員の点数を a 倍して、さらに全員に b 点を加点すれば、平均点も a 倍されて b 点加算される、という当たり前の事実を、数式で表現したものです。

証明の概要:

\bar{y} = \frac{1}{n}\sum y_i = \frac{1}{n}\sum (ax_i+b) = \frac{1}{n}(a\sum x_i + \sum b) = a(\frac{1}{n}\sum x_i) + \frac{1}{n}(nb) = a\bar{x} + b

2.2. 分散と標準偏差への影響

散らばりの度合いは、どう変化するでしょうか。

結論:

元のデータ x の分散を s_x^2、標準偏差を s_x とすると、変換後のデータ y=ax+b の分散 s_y^2、標準偏差 s_y は、

  • 分散: s_y^2 = a^2 s_x^2
  • 標準偏差: s_y = |a|s_xとなる。

この結果は、非常に重要な示唆に富んでいます。

  • +b の影響は 0(加算は、散らばりに影響しない):データ全体を平行移動させても(全員に b 点を加点しても)、データの「中心」の位置は変わりますが、データの「散らばり具合」そのものは一切変化しません。したがって、分散や標準偏差の計算において、b は全く影響を与えません。
  • a 倍の影響:データ全体を a 倍すると、散らばりも a 倍に広がります。標準偏差は、元のデータと同じ単位を持つため、直感的に**a 倍**(ただし、aが負でも広がりは正なので絶対値 |a| 倍)となります。分散は、標準偏差の2乗なので、a^2 倍となります。

証明の概要(標準偏差):

y_i = ax_i+b, \bar{y} = a\bar{x}+b

偏差 y_i – \bar{y} = (ax_i+b) – (a\bar{x}+b) = a(x_i – \bar{x})

分散 s_y^2 = \frac{1}{n}\sum(y_i-\bar{y})^2 = \frac{1}{n}\sum \{a(x_i-\bar{x})\}^2 = \frac{a^2}{n}\sum(x_i-\bar{x})^2 = a^2 s_x^2

よって、標準偏差 s_y = \sqrt{a^2 s_x^2} = |a|s_x

2.3. 実践例

例題: 10人の生徒の小テストの点数 x の平均値が \bar{x}=6、分散が s_x^2=9 であった。しかし、採点ミスがあり、全員の点数を y = 2x+1 の式で修正することになった。修正後の点数 y の平均値 \bar{y} と標準偏差 s_y を求めよ。

  1. [修正後の平均値]平均値は、同じ変換を受けます。\bar{y} = 2\bar{x} + 1 = 2(6)+1 = 13修正後の平均点は 13点。
  2. [修正後の分散・標準偏差]
    • 元の標準偏差 s_x は、分散の平方根なので s_x = \sqrt{9}=3
    • 変換の式 y=2x+1 において、a=2, b=1
    • 標準偏差への影響は、b=1 の加算は無視され、a=2 の乗算だけが影響します。
    • s_y = |a|s_x = |2| \cdot 3 = 6
    • 修正後の標準偏差は 6点
    • (参考:修正後の分散は s_y^2 = 6^2 = 36。または a^2 s_x^2 = 2^2 \cdot 9 = 36

このデータの変換の法則は、一見すると地味なものですが、次のセクションで学ぶ「標準化」という、データ分析における極めて重要な操作の、理論的な土台となっています。


3. 標準化と偏差値

私たちは、異なるテストを受けた二人の生徒、AさんとBさんの成績を比較したい、という状況を考えます。

  • Aさん:数学のテストで80点(平均点60点、標準偏差10点)
  • Bさん:英語のテストで75点(平均点50点、標準偏差15点)

単純に点数だけを比較すると、Aさんの方が優秀に見えます。しかし、二つのテストは平均点も、点数の散らばり具合(標準偏差)も異なります。このような、平均も散らばりも異なる、いわば「物差し」の違うデータ群を、公平に比較するための、強力な手法が**標準化(standardization)**です。

3.1. 標準化のプロセス:Z値の算出

標準化とは、データに対して、特殊な線形変換を施すことで、平均が 0、標準偏差が 1 となるような、共通の物差しのデータに変換する操作です。この変換後の値を標準化変量または**Z値(Z-score)**と呼びます。

標準化の公式:

元のデータ x の平均を \bar{x}、標準偏差を s とするとき、そのデータのZ値は、

\[ z = \frac{x – \bar{x}}{s} \]

で計算される。

Z値が意味するもの:

Z値は、「そのデータが、平均値から、標準偏差の何個分だけ離れているか」を示しています。

  • z=1.5: 平均値よりも、標準偏差の1.5個分だけ大きい。
  • z=0: 平均値と全く同じ値。
  • z=-2.0: 平均値よりも、標準偏差の2個分だけ小さい。

なぜ、この変換で平均が0、標準偏差が1になるのか?

これは、前セクションで学んだデータ変換の法則から説明できます。

z = \frac{x-\bar{x}}{s} = \frac{1}{s}x – \frac{\bar{x}}{s}

これは、y=ax+b の形で a=1/s, b=-\bar{x}/s とした線形変換です。

  • 変換後の平均:\bar{z} = a\bar{x}+b = \frac{1}{s}\bar{x} – \frac{\bar{x}}{s} = 0
  • 変換後の標準偏差:s_z = |a|s_x = |\frac{1}{s}|s = \frac{1}{s}s = 1 (sは常に正なので |1/s|=1/s)

3.2. 偏差値への応用

Z値は、異なるデータを比較するための普遍的な指標ですが、値が 0 を中心に、マイナスの値もとるため、日常的な感覚とは少し合いません。

そこで、このZ値を、より分かりやすいスケールに再変換したものが、私たちが模擬試験などでよく目にする**偏差値(deviation score)**です。

偏差値は、平均が50、標準偏差が10となるように、Z値を線形変換したものです。

偏差値の公式:

Z値 z に対して、偏差値 T は、

T = 10z + 50

偏差値が意味するもの:

  • 偏差値50: Z値が 0、すなわち、ちょうど平均点
  • 偏差値60: Z値が +1、すなわち、平均点よりも標準偏差1個分だけ上
  • 偏差値40: Z値が -1、すなわち、平均点よりも標準偏差1個分だけ下
  • 偏差値70: Z値が +2、すなわち、平均点よりも標準偏差2個分だけ上。これは、正規分布を仮定すれば、上位約2.5%以内に入る、非常に優秀な成績であることを示唆します。

3.3. 実践例:成績の比較

冒頭のAさんとBさんの成績を、Z値と偏差値で比較してみましょう。

  • Aさん(数学)x=80, \bar{x}=60, s=10
    • Z値z_A = (80-60)/10 = 20/10 = 2.0
    • 偏差値T_A = 10(2.0)+50 = 70
  • Bさん(英語)x=75, \bar{x}=50, s=15
    • Z値z_B = (75-50)/15 = 25/15 \approx 1.67
    • 偏差値T_B = 10(1.67)+50 = 16.7+50 = 66.7

結論:

Z値(および偏差値)を比較すると、Aさん(z=2.0)の方が、Bさん(z \approx 1.67)よりも、それぞれのテストの集団内での相対的な位置づけが高い、と結論づけることができます。単純な点数ではAさんがBさんより5点高いだけでしたが、その「5点」の価値が、それぞれのテストの難易度(平均点)やばらつき(標準偏差)を考慮することで、より客観的に評価されたのです。

標準化は、異なる基準で測定されたデータを、公平な土俵で比較するための、不可欠なデータ分析技術です。


4. 散布図と相関関係(正・負・無相関)

これまでの分析は、単一の変数(身長、テストの点数など)の分布を記述するものでした。しかし、科学的な探求の多くは、二つの異なる変数の間に、何らかの関係性があるかどうかを探ることから始まります。

例:

  • 身長と体重の関係
  • 勉強時間と成績の関係
  • 気温とアイスクリームの売上の関係

このように、対になった2種類の量的データ(2変量データ)の関係性を、視覚的に捉えるための最も基本的なグラフが、**散布図(scatter plot)**です。

4.1. 散布図の作成

定義:散布図とは、2種類の量的データ (x, y) の組を、横軸に x、縦軸に y をとった座標平面上に、点としてプロットしたグラフのことである。

例: 10人の生徒の、数学の点数 x と英語の点数 y のデータ

生徒ABCDEFGHIJ
数学 x65705090856075558095
英語 y70655585957080607590

このデータを散布図にプロットすると、10個の点が座標平面上に配置されます。

4.2. 散布図から読み取る相関関係

散布図を描く目的は、点の集まり全体が示す大局的なパターン傾向を読み取ることです。この二つの変数の間に見られる、直線的な関係性のことを**相関関係(correlation)**と呼びます。相関関係は、大きく分けて3つのパターンに分類されます。

1. 正の相関 (Positive Correlation)

  • 特徴: 散布図の点が、全体として右上がりの傾向を示す。
  • 意味一方の変数が増加すると、もう一方の変数も増加する傾向がある。
  • : 身長と体重、勉強時間と成績、広告費と売上。
  • 上記の数学と英語の点数のデータは、右上がりの傾向を示しており、正の相関があると言えます。

2. 負の相関 (Negative Correlation)

  • 特徴: 散布図の点が、全体として右下がりの傾向を示す。
  • 意味一方の変数が増加すると、もう一方の変数は減少する傾向がある。
  • : 標高と気温、スマートフォンの使用時間と睡眠時間。

3. 相関がない(無相関, No Correlation)

  • 特徴: 点の分布に、明確な右上がりや右下がりの傾向が見られず、全体として円形や無秩序に散らばっている。
  • 意味二つの変数の間に、明確な直線的な関係は見られない。
  • : 血液型とテストの成績、靴のサイズと知能指数。

相関の強さ:

点のばらつきが少なく、より明確な直線に近い形で点が分布しているほど、「相関が強い」と言います。

逆に、点のばらつきが大きく、傾向がぼんやりしているほど、「相関が弱い」と言います。

散布図は、複雑な2変量データの中に隠された関係性を、一目で直感的に把握させてくれる、極めて強力な可視化ツールです。次のセクションでは、この視覚的な印象を、客観的な数値で表現する方法を学びます。


5. 共分散と相関係数

散布図は、二つの変数の間の相関関係を視覚的に、そして直感的に示してくれます。しかし、「Aの相関は、Bの相関より強い」といった、より客観的で定量的な比較を行うためには、この関係性の**「向き」「強さ」を、一つの数値**で表現する指標が必要となります。その役割を担うのが、**共分散(covariance)相関係数(correlation coefficient)**です。

5.1. 共分散:関係の「向き」を示す

相関の有無を考える上で、基準となるのは、それぞれのデータの平均値です。散布図を、xの平均値 \bar{x} で縦に、yの平均値 \bar{y} で横に、4つの象限に分割してみます。

  • 右上 (第1象限)xyも平均より大きい (x_i-\bar{x}>0y_i-\bar{y}>0)
  • 左下 (第3象限)xyも平均より小さい (x_i-\bar{x}<0y_i-\bar{y}<0)
  • 左上 (第2象限)xは平均より小さく、yは大きい
  • 右下 (第4象限)xは平均より大きく、yは小さい

正の相関がある場合、多くの点は右上と左下の領域に分布します。

負の相関がある場合、多くの点は左上と右下の領域に分布します。

この特徴を数値化するために、各データ点 (x_i, y_i) の、中心 (\bar{x}, \bar{y}) からの偏差の積 (x_i-\bar{x})(y_i-\bar{y}) を考えます。

  • 右上と左下の点では、この積は (正)\times(正) または (負)\times(負) となり、になります。
  • 左上と右下の点では、この積は (負)\times(正) または (正)\times(負) となり、になります。

したがって、この偏差の積の平均値をとれば、全体の傾向が数値として要約できるはずです。これを共分散と呼びます。

定義:共分散 s_{xy} または Cov(x,y) は、xの偏差とyの偏差の積の平均値である。

\[ s_{xy} = \frac{1}{n}\sum_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y}) \]

  • s_{xy} > 0 \iff 正の相関がある傾向
  • s_{xy} < 0 \iff 負の相関がある傾向
  • s_{xy} \approx 0 \iff 相関がない傾向

共分散の弱点:

共分散は、関係の「向き」は示してくれますが、「強さ」を測る指標としては不完全です。なぜなら、共分散の値は、データの単位(cmかmか、など)に依存して、いくらでも大きくなったり小さくなったりしてしまうからです。

5.2. 相関係数:関係の「強さ」を示す

共分散の単位依存の問題を解決し、-1 から 1 までの範囲に正規化された、普遍的な「強さ」の指標を提供するのが、ピアソンの積率相関係数(Pearson’s product-moment correlation coefficient)、通常は単に相関係数と呼ばれます。

定義:相関係数 r は、共分散 s_{xy} を、それぞれの変数の標準偏差 s_x, s_y の積で割ったものである。

\[ r = \frac{s_{xy}}{s_x s_y} \]

この「標準偏差で割る」という操作は、標準化と同じ考え方です。共分散を、それぞれのデータの散らばり具合を基準にして「標準化」することで、単位に依存しない、純粋な関係の強さを表す指標 r が得られるのです。

5.3. 相関係数の計算

例題: 3つのデータ点 (1, 2), (2, 5), (3, 2) の相関係数を求めよ。

  1. 平均値:\bar{x} = (1+2+3)/3 = 2\bar{y} = (2+5+2)/3 = 3
  2. 偏差:x-\bar{x}: -1, 0, 1y-\bar{y}: -1, 2, -1
  3. 偏差の積:(-1)(-1)=1, (0)(2)=0, (1)(-1)=-1
  4. 共分散 s_{xy}:s_{xy} = (1+0+(-1))/3 = 0
  5. 相関係数 r:共分散が 0 なので、r = 0/(s_x s_y) = 0。このデータには(直線的な)相関がないことが分かる。散布図を描くと、山のような形になり、右上がりでも右下がりでもない。

計算の簡略化:

共分散にも、分散と同様の簡略公式があります。

s_{xy} = \overline{xy} – \bar{x}\bar{y} (xyの平均 – xの平均 \times yの平均)

相関係数は、散布図で捉えた視覚的な印象を、-1 から 1 までの間の、客観的で普遍的な数値へと翻訳してくれる、データ分析における最も重要なツールの一つです。


6. 相関係数の性質

相関係数 r は、単に計算される数値ではなく、その値自体が、二つの変数の関係性に関する豊かな物語を語ってくれます。その物語を正しく読み解くためには、r が持つ、いくつかの重要な数学的な性質を理解しておく必要があります。

6.1. 相関係数の値の範囲

性質1:相関係数 r は、常に -1 以上 1 以下の値をとる。

\[ -1 \le r \le 1 \]

この性質は、シュワルツの不等式として知られる、より一般的な数学的不等式の帰結ですが、その直感的な意味は、「標準化された共分散は、完全な直線関係(r=\pm 1)を超えることはない」ということです。

この性質により、私たちは、どんなデータであっても、r の値を同じ土俵で比較することができます。

6.2. r の値の解釈

r の値は、**関係の「向き」「強さ」**の両方を同時に示します。

  • r の符号関係の「向き」
    • r > 0正の相関(一方が増えれば、もう一方も増える傾向)
    • r < 0負の相関(一方が増えれば、もう一方は減る傾向)
  • r の絶対値 |r|関係の「強さ」
    • |r| が 1 に近いほど、強い直線的な相関がある。
      • r = 1完全な正の相関。すべての点が、右上がりの一直線上に完全に並ぶ。
      • r = -1完全な負の相関。すべての点が、右下がりの一直線上に完全に並ぶ。
    • |r| が 0 に近いほど、直線的な相関は弱い
      • r = 0無相関。直線的な関係が全く見られない。

相関の強さの目安(慣例的なもの):

  • |r| \ge 0.7: 強い相関
  • 0.4 \le |r| < 0.7: 中程度の相関
  • 0.2 \le |r| < 0.4: 弱い相関
  • |r| < 0.2: ほとんど相関なし

6.3. 相関係数の限界:直線関係しか捉えられない

性質2:相関係数は、あくまで「直線的な」関係の強さを測る指標である。

これは、相関係数を解釈する上で、最も重要な注意点です。

r=0 であっても、それは「二つの変数の間にいかなる関係もない」ことを意味するわけではありません。「直線的な関係がない」ことを意味するに過ぎないのです。

例えば、

  • データが、美しい放物線(U字型)を描いて分布している場合、x と y の間には明確な非線形な関係が存在しますが、右上がりでも右下がりでもないため、相関係数は r \approx 0 となります。
  • データが、円形に分布している場合も、r \approx 0 となります。

相関係数が低いからといって、二つの変数が無関係であると結論づけるのは早計です。必ず散布図を描いて、その目で点の分布パターンを確認することが、この誤りを避けるための、データ分析の鉄則です。

6.4. 外れ値の影響

性質3:相関係数は、外れ値の影響を受けやすい。

平均値や標準偏差を計算の基礎としているため、相関係数もまた、平均値などと同様に、極端な外れ値が一つ存在するだけで、その値が大きく歪められてしまう可能性があります。

散布図を描いて、不自然な外れ値がないかを確認することも、重要な分析プロセスの一部です。

相関係数 r は、二つの変数間の関係を、たった一つの数値で要約してくれる、驚くほど強力なツールです。しかし、その力を正しく使うためには、その限界(直線関係しか測れない、外れ値に弱い)を常に意識し、必ず散布図という「地図」と併用する、という賢明さが求められます。


7. 相関関係と因果関係の区別

データ分析の旅は、いよいよその核心であり、最も知的な挑戦を伴う領域へと入ります。それは、**相関関係(correlation)因果関係(causation)**という、似て非なる二つの概念を、明確に区別するという課題です。

私たちは、散布図と相関係数を用いて、二つの変数 X と Y が連動して動く傾向(相関関係)を発見できるようになりました。このとき、人間の脳は、自然と「X が原因で Y が起こった」あるいは「Y が原因で X が起こった」という、因果関係の物語を紡ぎ出そうとします。

しかし、この直感的な飛躍こそが、統計的な誤謬(ごびゅう)の中で最も一般的で、最も危険な落とし穴なのです。このセクションの目的は、この落とし穴を回避し、データから健全な結論を導き出すための、批判的な思考のフレームワークを身につけることです。

統計学の黄金律:

「相関は、因果を意味しない (Correlation does not imply causation)」

7.1. 相関が見られる場合の3つの可能性

二つの変数 X と Y の間に、強い相関関係が見られたとします。このとき、その背後にある真の関係性としては、少なくとも以下の3つの可能性が考えられます。

可能性1: X → Y (XがYの原因である)

  • 例:勉強時間(X)とテストの成績(Y)。勉強時間を増やすことが、成績を向上させる原因である、と考えるのは合理的です。

可能性2: Y → X (YがXの原因である)

  • これは、因果の方向を取り違える誤りです。
  • 例:ある地域で、警官の数(X)と犯罪発生件数(Y)の間に、強い正の相関が見られた。「警官が多いから犯罪が増えるのだ!」と結論づけるのは、おそらく誤りでしょう。実際には、犯罪が多い(Yが原因)から、その対策として警官を多く配置している(Xが結果)という、逆の因果関係である可能性の方が高いです。

可能性3: Z → X かつ Z → Y (第三の変数が、両方の原因である)

  • これが、相関と因果を混同する、最も一般的な原因です。
  • XとYは、直接的には何の関係もないかもしれません。しかし、観測されていない第三の変数 Z潜在変数交絡因子とも呼ばれる)が存在し、そのZがXとYの両方を変動させているために、結果としてXとYの間に、あたかも関係があるかのように見えてしまうのです。
  • このようにして生じる見せかけの相関を、疑似相関(spurious correlation)または見せかけの相関と呼びます。

7.2. 疑似相関の古典的な例

例:アイスクリームの売上と、水難事故の発生件数

  • データを見ると、夏の間、アイスクリームの売上(X)と、海や川での水難事故の件数(Y)の間には、非常に強い正の相関が見られます。
  • ここで、「アイスクリームを食べると、体が冷えて溺れやすくなるのだ」という因果関係を推測するのは、滑稽な誤りです。
  • 真の原因は、**第三の変数 Z「気温の上昇」**です。
    • 気温が上がる (Z) → アイスが食べたくなる (X)
    • 気温が上がる (Z) → 海や川で泳ぐ人が増える (Y)
  • XとYの間には直接の因果関係はなく、共通の原因Zによって、両者が連動して動いているに過ぎないのです。

7.3. 因果関係を推論するためには

では、私たちは相関関係から、決して因果関係を推論できないのでしょうか。

厳密な因果関係を証明することは、非常に困難な課題ですが、科学の世界では、以下のような手続きを踏むことで、因果関係の確からしさを高めていきます。

  • ランダム化比較試験 (RCT):研究の対象者をランダムに二つのグループに分け、一方には介入(例:新薬の投与)を行い、もう一方には行わない(例:偽薬の投与)ことで、介入(X)が結果(Y)に与える因果的な効果を、他の要因(Z)の影響を排除して評価しようとする、最も信頼性の高い方法。
  • 時間的な前後関係:原因は、結果よりも必ず時間的に先に生じなければならない。
  • 理論的な妥当性:その因果関係を説明できる、科学的なメカニズムや理論が存在するか。

高校数学の「データの分析」の範囲では、私たちが扱うのは、あくまで記述統計、すなわち「データがどのような関係性を示しているか」を記述することまでです。その関係性が「なぜ生じているのか」という因果関係の領域に踏み込む際には、最大限の慎重さと、批判的な思考が求められる、ということを、肝に銘じておきましょう。


8. 複数のデータ群の箱ひげ図による比較

Module 11で、私たちは箱ひげ図が、一つのデータ群の分布を「五数要約」によって視覚化する、優れたツールであることを学びました。しかし、箱ひげ図の真価が最も発揮されるのは、複数の異なるデータ群の分布を、並べて比較する場面です。

散布図が「二つの量的変数の関係」を分析するのに適しているのに対し、複数の箱ひげ図の比較は、「一つの量的変数が、**グループ(質的変数)**によってどのように異なるか」を分析するのに、最適なツールです。

例:

  • 量的変数:テストの点数
  • グループ(質的変数):クラスA, クラスB, クラスC
  • 問い:「テストの点数の分布は、クラスによって違いがあるか?」

この問いに答えるために、各クラスの点数のデータから箱ひげ図を作成し、それらを同じ数直線(スケール)上に並べて描きます。

8.1. 比較のポイント

複数の箱ひげ図を比較する際には、主に以下の4つの観点に着目します。

  1. 中心(代表値)の比較:
    • **中央値(箱の中の線)**の位置を比較します。
    • あるグループの箱ひげ図全体が、他のグループよりも右側に位置していれば、そのグループの方が、全体的に値が大きい傾向にある、と読み取れます。
  2. 散らばり(散布度)の比較:
    • **箱の長さ(四分位範囲, IQR)**を比較します。箱が長いグループは、データの中央50%のばらつきが大きい、すなわち中位層が不均一であることを示します。
    • **ひげを含めた全体の長さ(範囲, レンジ)**を比較します。全体の長さが長いグループは、最大値と最小値の差が大きく、外れ値を含む、より多様なデータで構成されている可能性を示唆します。
  3. 分布の形状(歪み)の比較:
    • 箱の中の中央線の位置を比較します。中央線が箱の中央にあれば対称、左に寄っていれば右に裾が長い(値が大きい方にデータが広がっている)分布、右に寄っていれば左に裾が長い分布の傾向があります。
    • 左右のひげの長さを比較します。右のひげが極端に長ければ、少数の高い値を持つ外れ値が存在することを示唆します。
  4. 重なりの度合い:
    • 二つの箱ひげ図の「箱」の部分が、どの程度重なっているかを見ます。
    • もし、二つの箱が全く重なっていなければ、二つのグループの間には、かなり明確な差がある、と推測できます。
    • 逆に、箱の大部分が重なっていれば、二つのグループの間に、顕著な差はない可能性が高いです。

8.2. 実践例による解釈

シナリオ: ある学校の1組、2組、3組の生徒の、数学のテストの点数について、箱ひげ図を作成した。

解釈:

  • 中心について:
    • 3組の中央値が最も高く、次いで1組、2組の順となっている。3組は全体的に成績が良い傾向にある。
  • 散らばりについて:
    • 2組は、箱の長さ(IQR)が最も長い。これは、2組の中位層の生徒の学力が、他のクラスに比べて、より不均一であることを示している。
    • 1組は、ひげを含めた全体の長さ(範囲)が最も長い。これは、1組には、非常に高得点の生徒と、非常に低得点の生徒の両方が含まれていることを示唆している。3組は全体の長さが最も短く、生徒の点数が比較的狭い範囲に固まっている、均質な集団である可能性が高い。
  • 形状について:
    • 2組は、中央値が箱の左側に寄っており、右のひげが長い。これは、一部の優秀な生徒が点数を引き上げている、右に裾の長い分布であることを示している。

箱ひげ図による比較は、平均値などの単一の代表値だけでは見えてこない、データ群の分布の「個性」や「物語」を、視覚的に、そして豊かに描き出してくれる、データ分析における必須のテクニックです。


9. 仮説検定の考え方への導入

これまでのデータ分析(記述統計)では、私たちは手元にあるデータそのものの特徴(平均はいくつか、散らばりはどうか)を、要約し、記述することに焦点を当ててきました。しかし、データ分析のより大きな目標は、しばしば、手元のデータ(標本)から、その背後にある、より大きな集団(母集団)の性質を推測することにあります。

この「標本から母集団を推測する」統計学の分野を、**推測統計学(inferential statistics)**と呼びます。その中心的な論法の一つが、**仮説検定(hypothesis testing)**です。

高校数学Iの範囲を少し超えますが、その基本的な考え方は、論理的な思考の重要な一形態であり、ここで触れておく価値があります。

9.1. 仮説検定の基本的なロジック

仮説検定は、ある「主張」が正しいと言えるかどうかを、データに基づいて、確率的な観点から客観的に判断するための、形式的な手続きです。その論法は、Module 3で学んだ背理法に、非常によく似ています。

基本的なロジック(背理法とのアナロジー):

  1. [主張の設定] まず、検証したい主張とは逆の主張を立てる。これを**帰無仮説(null hypothesis, H_0)**と呼ぶ。「差はない」「効果はない」といった、消極的な主張であることが多い。
    • (例:H_0:「このコインは公平である(表の出る確率は1/2だ)」)
  2. [証拠の収集] 実際にデータを集める(実験や観測を行う)。
    • (例:コインを100回投げたら、表が70回出た)
  3. [確率的な評価] 「もし、帰無仮説が正しいとしたら、今回観測されたような(あるいは、それ以上に極端な)データが得られる確率は、どれくらい小さいか?」を計算する。この確率を**p値(p-value)**と呼ぶ。
    • (例:「もしコインが公平なら、100回投げて表が70回以上出る確率は、非常に小さい(例えば0.00004)だろう」)
  4. [結論]
    • もし、p値が、あらかじめ決めておいた基準(有意水準、通常は5%や1%)よりも十分に小さいならば、「こんなに珍しいことは、偶然では起こりにくい。きっと、最初の仮定(帰無仮説)の方が間違っていたのだろう」と判断する。
    • そして、帰無仮説を棄却(reject)し、もともと主張したかった方の対立仮説(alternative hypothesis, H_1(例:「このコインは公平ではない」)を採択する。
    • もし、p値が有意水準より大きいならば、「観測されたデータは、偶然の範囲で十分に起こりうることだ」と判断し、帰無仮説を棄却しない(結論を保留する)。

9.2. 例:新薬の効果の検証

  • 主張: 「この新薬には、病気を治す効果がある」
  • 帰無仮説 H_0: 「この新薬には、効果がない(偽薬と変わらない)」
  • 対立仮説 H_1: 「この新薬には、効果がある」
  • 実験: 患者をランダムに2群に分け、一方に新薬、もう一方に偽薬を投与し、回復率を比較する。
  • データ: 新薬群の回復率が、偽薬群よりも有意に高かった(その差が、偶然では起こりにくいp値を示した)。
  • 結論: 帰無仮説「効果がない」を棄却し、対立仮説「効果がある」を採択する。

9.3. 統計的思考の重要性

仮説検定は、私たちの直感や主観を排し、「その差は、本当に意味のある差なのか、それとも単なる偶然の揺らぎなのか」を、客観的な確率の言葉で議論するための、科学的な手続きです。

この考え方は、医学、心理学、経済学、工学など、データに基づいて意思決定が行われる、あらゆる分野で用いられています。

この「確率的な背理法」とも言える仮説検定の考え方は、不確実な世界の中で、データからいかにして賢明な結論を導き出すか、という、統計的思考の神髄を示しています。


10. コンピュータを用いた統計処理

本モジュール、そして前モジュールを通じて、私たちはデータ分析の基本的な手法を、手計算を前提として学んできました。平均値、標準偏差、相関係数、これらはすべて、定義に従って、電卓と紙とペンがあれば計算できるものです。

しかし、現代社会におけるデータ分析の現実は、この手計算の世界とは大きく異なっています。私たちが日常的に接するデータは、もはや数十個のレベルではなく、数千、数百万、あるいはそれ以上の規模に達することが珍しくありません。このような大規模なデータを、手計算で分析することは、物理的に不可能です。

このセクションの目的は、現代のデータ分析が、コンピュータの力を借りることを前提として成り立っているという事実を認識し、これまで学んできた理論的な知識が、その実践の中でどのように活かされているのかを理解することです。

10.1. コンピュータの役割

統計処理におけるコンピュータの役割は、大きく分けて二つあります。

  1. 計算の自動化と高速化:
    • 面倒な計算の代行: 平均値、分散、標準偏差、相関係数といった、これまで学んできたすべての統計量の計算は、コンピュータ(特に表計算ソフト)を使えば、一瞬で完了します。
    • 大規模データの処理: 人間には不可能な、数百万行のデータに対する集計や計算を、エラーなく、かつ高速に実行します。
  2. 高度な可視化と分析:
    • グラフ作成の容易化: ヒストグラム、散布図、箱ひげ図といった、データ理解に不可欠なグラフを、簡単な操作で、美しく、そしてインタラクティブに作成することができます。
    • 高度な統計モデルの実行: 仮説検定や、より高度な回帰分析、機械学習といった統計モデルの計算は、専用の統計解析ソフトウェアや、プログラミング言語RPythonなど)を用いて行われます。

10.2. なぜ理論を学ぶ必要があるのか?

「すべての計算をコンピュータがやってくれるなら、なぜ私たちは、分散の定義や相関係数の計算方法を、手計算で学ぶ必要があるのだろうか?」

これは、非常に重要な問いです。その答えは、以下の点にあります。

  • 「どの道具を使うか」を決めるのは人間:コンピュータは、命令された計算を高速に実行する、非常に優秀な奴隷です。しかし、目の前のデータに対して、「平均値と中央値のどちらを見るべきか」「相関係数を計算する前に、まず散布図を描いて外れ値を確認すべきではないか」といった、戦略的な判断を下すことはできません。その判断の根拠となるのが、私たちが学んできた、各統計手法の**理論的な特性(長所と短所)**に関する知識です。
  • 結果を「正しく解釈する」のは人間:コンピュータは、相関係数 r=0.8 という結果を、一瞬で弾き出してくれるでしょう。しかし、その 0.8 という数字が何を意味するのか、そして最も重要なことに、「その相関関係の裏に、因果関係を仮定してよいのか」という、批判的な解釈を下すのは、分析者の役割です。その解釈のためには、相関と因果の違いといった、統計的思考の基本原則が不可欠です。
  • 「ゴミを入れれば、ゴミが出てくる」 (Garbage In, Garbage Out):コンピュータは、与えられたデータや命令が、そもそも意味のあるものかどうかを判断しません。分析の前提が間違っていれば、そこから導かれる結論もまた、無意味なものになります。適切なデータを選択し、分析の目的を明確に設定する、という上流工程は、人間の知性が担うべき最も重要な部分です。

10.3. これからの学びに向けて

この「データの分析」の単元で学んだことは、皆さんが将来、どのような分野に進むにせよ、必ず役立つ思考のOSです。

コンピュータという強力な計算機を使いこなし、データという現代の石油から、意味のある洞察を汲み上げるための、知的基盤を、私たちはこの2つのモジュールを通じて築き上げてきました。

大切なのは、計算の奴隷になるのではなく、理論と原則を理解し、コンピュータを自在に操る「主人」となることです。

Module 12:データの分析(2) 相関とデータの活用 の総括:データ間の「関係」を読み解き、その先へ

「データの分析」を巡る私たちの探求は、このモジュールで、一つの変数の内的な個性を記述することから、二つの変数が織りなす外的な「関係性」を読み解く、よりダイナミックなステージへと進化しました。その中心にあったのは、散布図という名の地図と、相関係数という名のコンパスを手に、データ間の相関という名の航路を発見する、という知的冒険でした。

私たちは、データ変換の法則を学ぶことで、異なる尺度で測られたデータを「標準化」し、偏差値という共通の土俵で比較するための、公平な視点を手に入れました。共分散と相関係数は、点の雲として現れる曖昧な関係性を、「向き」と「強さ」を持つ、客観的な一つの数値へと結晶させる、強力な抽象化のツールでした。

しかし、このモジュールにおける最も重要な学びは、発見した航路が、必ずしも「A地点からB地点へ」という因果の道筋を意味するわけではない、という統計的思考の根幹に触れたことでした。**「相関は因果を意味しない」**という大原則は、データという名の魅惑的な歌声に惑わされ、安易な結論へと飛び込んでしまうことの危険性を戒める、知性の灯台です。私たちは、見せかけの相関を生む第三の変数の存在を常に意識し、データが語る「何が」と、私たちが知りたい「なぜ」との間にある、深い溝を認識する、批判的な思考力を養いました。

そして最後に、仮説検定の考え方やコンピュータの活用に触れることで、私たちの視線は、高校数学の枠を超え、現代の科学や社会が、いかにしてデータという不確実な情報と向き合い、そこから意味のある結論を導き出しているのか、その広大な地平へと向けられました。

この二つのモジュールを通じて、皆さんは、データを整理し、その中心と散らばりを測り、変数間の関係性を定量化し、そしてその解釈に潜む罠を見抜くという、データ・リテラシーの基本的なスキルセットを完成させました。この能力は、数学という学問の枠を超え、情報に満ちた現代社会を賢明に生き抜くための、生涯にわたる知的財産となるでしょう。

目次