数字は嘘をつかないが、嘘つきは数字を使う|シンプソンのパラドックス
既婚者は未婚者より長生き?
それは事実だけど、事実じゃない
あなたが毎日目にするデータには、もう一つの真実が隠れている
データは正しい
「既婚者は未婚者より平均して2〜3年長生きする」という研究結果は実際に存在します。無数の論文がそれを裏付けています。でも、そのデータが示す「真実」は、あなたが思っているものとは違うかもしれません。
でも、真実は別のところにある
データを細かく見ていくと、全く違う景色が見えてきます。全体で見ると一つの傾向を示すデータが、グループごとに分けると正反対の結果を示す。これが「シンプソンのパラドックス」です。
あなたは、データに騙されていませんか?
ニュース、SNS、広告、プレゼン資料。私たちの周りには「データで裏付けられた事実」があふれています。でも、そのデータは本当に信頼できるのでしょうか?
クイズ:あなたは正しく答えられますか?
データの見方を問う4つの実例クイズ。正解できるかどうか、試してみましょう。
問題1:既婚者と未婚者、どちらが長生き?
統計データが示す「事実」が、必ずしも真実とは限らない。その典型例を見ていきます。
あなたの答えは?
このデータを見て、「結婚すれば長生きできる」と結論づけますか?
多くの人がそう考えます。でも、それは間違っている可能性があります。
答えと解説
このデータには大きな見落としがあります。それは「若くして亡くなった方は全員『未婚』に分類される」という点です。
考えてみてください
20歳で事故で亡くなった人 → 未婚
30歳で病気で亡くなった人 → 未婚率が高い
健康で長生きした人 → 結婚する機会も多い
つまり
「結婚したから長生きした」のではなく、「長生きできる人が結婚する機会を得やすい」という可能性があります。
研究者たちはこれを「選択バイアス」と呼んでいます。
参考: RAND - Health, Marriage, and Longer Life for Men | PMC - Marital status and longevity
問題2:UCバークレーは女性を差別していた?
1973年の有名な事例。全体の数字と個別の数字が全く逆の結論を示すパラドックスの真実。
1973年、UCバークレー大学院の入試データ
男性応募者
44.5%
合格率
応募者2,691人 / 合格者1,198人
女性応募者
30.4%
合格率
応募者1,835人 / 合格者557人
全体の合格率
一見すると明らかな差別
男性の合格率が14ポイントも高い(44.5% vs 30.4%)。これは統計的に非常に有意な差(p ≈ 10⁻²⁶)です。大学の副学部長は訴訟を恐れ、統計学者Peter Bickelに調査を依頼しました。(注:実際には訴訟は起こされていませんが、当時の大学側は性差別の疑いを深刻に受け止めていました)
学部ごとに分けてみると...
学部別の合格率(パラドックスの真実)
驚くべき結果
6つの主要学部のうち、4つで女性の合格率が高かったのです。つまり、学部レベルでは女性に有利なバイアスがあったことになります。
では、なぜ全体では男性有利に見えたのか?
男性の出願パターン
易しい学部(A、B):1,385人(51%)
難しい学部(C〜F):1,306人(49%)
女性の出願パターン
易しい学部(A、B):133人(7%)
難しい学部(C〜F):1,702人(93%)
出願パターンの違い(易しい学部 vs 難しい学部)
学部別の出願者数の分布
学部 | 男性応募 | 男性合格 | 男性合格率 | 女性応募 | 女性合格 | 女性合格率 | 結果 |
---|---|---|---|---|---|---|---|
A(工学系) | 825 | 512 | 62% | 108 | 89 | 82% | 女性有利 |
B(理工系) | 560 | 353 | 63% | 25 | 17 | 68% | 女性有利 |
C(文系) | 325 | 120 | 37% | 593 | 202 | 34% | 男性有利 |
D(文系) | 417 | 138 | 33% | 375 | 131 | 35% | 女性有利 |
E(人文系) | 191 | 53 | 28% | 393 | 94 | 24% | 男性有利 |
F(人文系) | 373 | 22 | 6% | 341 | 24 | 7% | 女性有利 |
合計 | 2,691 | 1,198 | 44.5% | 1,835 | 557 | 30.4% | - |
結論:男性の半数以上が合格率の高い学部(工学系)に出願した一方、女性の93%が合格率の低い学部(人文系)に出願しました。この出願パターンの違いが、全体の合格率の差を生み出しました。
参考: Wikipedia - Simpson's Paradox | Statistics LibreTexts - Berkeley Case
問題3:ワクチン接種者の方が多く死んでいる?
コロナ禍で実際に起きた誤解。データの背後にある「見えない要因」を探ります。
COVID-19パンデミック中の実際のデータ
ある国で、ワクチン接種者の死亡率が未接種者より高いという報告がありました。これを見て「ワクチンは危険だ」と主張する人々が現れました。
このデータは事実です
実際に、ワクチン接種者の中から多くの死者が出ていました。では、ワクチンは本当に危険なのでしょうか?
年齢で分けてみると...
この「パラドックス」の答えは年齢にありました。
ワクチン接種者の特徴
高齢者が優先的に接種
基礎疾患のある人が優先
つまり、元々リスクが高い人々
年齢調整後の結果
同年齢で比較すると逆転
接種者の死亡リスクが大幅に低い
ワクチンの保護効果が明確に
問題4:デレク・ジーターvsデビッド・ジャスティス
メジャーリーグの打率で見る、シンプソンのパラドックスの興味深い実例。
メジャーリーグの打率データ
野球ファンの間で有名な例です。1995年と1996年、デビッド・ジャスティスは両年ともデレク・ジーターより高い打率を記録しました。
選手 | 1995年 | 1996年 | 2年間合計 |
---|---|---|---|
ジーター | 12/48 (.250) | 183/582 (.314) | 195/630 (.310) |
ジャスティス | 104/411 (.253) | 45/140 (.321) | 149/551 (.270) |
パラドックス
ジャスティスは両年とも高い打率なのに、2年間の合計ではジーターが上回っています。どうしてこんなことが起こるのでしょうか?
答え:打席数の違い
ジーターは1996年(好調な年)に圧倒的に多く打席に立ちました(582打席)。一方、ジャスティスは1995年に多く打席に立ちましたが、1996年は怪我で出場が少なかった(140打席)のです。
つまり、各選手の「好調な年」の打席数の重みが異なるため、このような逆転が起こります。
シンプソンのパラドックスとは何か
この記事の主題となる統計の落とし穴。その定義と歴史的背景を解説します。
シンプソンのパラドックス(Simpson's Paradox)とは、データ全体で見られる傾向が、データをグループ分けすると消失したり、逆転したりする現象のことです。
この現象は、イギリスの統計学者エドワード・H・シンプソンが1951年に論文で詳しく説明したことから、この名前がつきました。ただし、同様の現象は1899年のカール・ピアソンや1903年のユドニー・ユールの研究でも言及されていました。
数学的には、次のような不等式で表されます:
a₁/b₁ < c₁/d₁ かつ a₂/b₂ < c₂/d₂
でも
(a₁+a₂)/(b₁+b₂) > (c₁+c₂)/(d₁+d₂)
参考: Stanford Encyclopedia of Philosophy - Simpson's Paradox | Wikipedia - Simpson's Paradox
「数字は嘘をつかないが、嘘つきは数字を使う」
データは客観的でも、その使い方次第で真実を歪められる。誤用と悪用の実例を見ていきます。
この有名な言葉は、データの本質的な問題を突いています。データそのものは客観的な事実です。しかし、データの見せ方、集計の仕方、解釈の仕方によって、全く異なるストーリーを語ることができるのです。
悪意のある使い方
都合の良いデータだけを見せる
全体のデータではなく、有利な部分だけを切り取る交絡因子を無視する
結果に影響を与える重要な要因を意図的に隠す因果関係を誤解させる
相関関係を因果関係であるかのように示す
無意識の誤り
集計の単位を考えない
どのレベルで分析すべきか考えずに集計選択バイアスに気づかない
データの収集方法自体に偏りがあることを見落とす直感に頼りすぎる
「データが示すから正しい」と思い込む
データを見るときの心構え
常に「なぜ?」と問う
この数字が示す理由は何か?他に影響している要因はないか?データの背景を考えましょう。
分解して見る
全体のデータだけでなく、グループごと、時期ごと、条件ごとに分けて確認しましょう。
出典を確認する
誰が、どのように、どんな目的で集めたデータなのか。必ず確認しましょう。
反対の視点も考える
同じデータから逆の結論を導けないか?バイアスはないか?客観的に検討しましょう。
ビジネスの現場で:データは必要、でも十分ではない
データ駆動の意思決定は重要。しかし、それだけに頼ると危険な理由を解説します。
現代のビジネスにおいて、データに基づく意思決定は不可欠です。「なんとなく」や「勘」だけでは、他者を説得することも、正しい判断を下すこともできません。
データが必要な理由
客観的な判断基準
感情や偏見を排除し、事実に基づいて判断できる説得力のある提案
数字で示すことで、ステークホルダーの理解を得やすい改善の追跡
施策の効果を測定し、PDCAを回すことができるリスクの軽減
データに基づくことで、失敗の確率を下げられる
しかし、注意が必要
バイアスは至る所に
データの収集方法、集計方法、解釈に偏りが入り込む都合の良いデータだけ
意識的・無意識的に、自分の主張を支持するデータだけを選んでいないか交絡因子の見落とし
シンプソンのパラドックスのように、重要な要因を見逃していないか因果関係の誤認
相関があるだけで、因果関係があると決めつけていないか
プレゼンテーションでデータを使うとき
あなたがデータを使ってプレゼンテーションをするとき、自分に問いかけてください:
このデータは本当に主張を裏付けているか?
別の見方をしたら、逆の結論が導けないか?
隠れた要因を見落としていないか?
都合の良いデータだけを選んでいないか?
このデータは本当に信頼できるソースから来ているか?
データは強力な武器です。しかし、その使い方を誤れば、自分自身を、そして他者を誤った方向に導いてしまいます。データを使う責任を常に意識しましょう。
歴史:シンプソンのパラドックスの発見
1899年から現代まで、この統計パラドックスがどのように発見され理解されてきたか。
カール・ピアソンの観察
統計学の父と呼ばれるカール・ピアソンが、データの集計方法によって結果が逆転する現象を最初に記録しました。ただし、当時は体系的な分析には至りませんでした。
ユドニー・ユールの研究
統計学者ユドニー・ユールが、データの関連性が部分群と全体で逆転する現象について論じました。この段階でも、まだ「パラドックス」という名前はついていません。
エドワード・H・シンプソンの論文
イギリスの統計学者エドワード・H・シンプソンが、「The interpretation of interaction in contingency tables」という論文でこの現象を詳しく分析しました。この論文が契機となり、後にこの現象は「シンプソンのパラドックス」と呼ばれるようになります。
「シンプソンのパラドックス」命名
統計学者コリン・R・ブライスが、この現象を「シンプソンのパラドックス」と命名しました。以降、この名前が広く使われるようになります。
UCバークレー事件
UCバークレー大学院の入試データが、シンプソンのパラドックスの最も有名な実例となりました。この事例により、パラドックスは学術界を超えて広く知られるようになります。
医学・社会科学・AI分野で重要に
シンプソンのパラドックスは、因果推論、機械学習、疫学研究など、多くの分野で重要な概念として認識されています。特にビッグデータ時代において、その重要性は増しています。
参考: Stanford Encyclopedia of Philosophy - Simpson's Paradox History
補足:ソフトウェアエンジニアから見たデータの世界
筆者の経験から語る、データとの向き合い方。A/Bテストやパフォーマンス改善の実例。
筆者の専門分野から
私はソフトウェアエンジニアとして働いています。この仕事では、データと日々向き合い、数字で物事を判断することが求められます。だからこそ、データの「怖さ」も「限界」も、身をもって感じてきました。
エンジニアの日常:A/Bテストの罠
ウェブサービスの開発では、「A/Bテスト」という手法をよく使います。例えば、ボタンの色を変えたら、クリック率が上がるか?を数字で検証します。
ある日、こんなことがありました。全体のデータでは「赤いボタン」の方がクリック率が高い。でも、ユーザーの年齢層で分けてみると、実は「青いボタン」の方が良い結果だったのです。
何が起きたか? たまたま、赤いボタンを見たユーザーに「既にサービスを使い慣れた人」が多かっただけでした。新規ユーザーにとっては、青いボタンの方が分かりやすかったのです。
全体のデータだけを見て「赤いボタンが正解」と決めていたら、新規ユーザーの離脱を招いていたでしょう。
パフォーマンス改善の誤解
システムのパフォーマンス改善でも、似たような罠があります。「平均応答時間」だけを見て改善したつもりでも、実際にはユーザー体験が悪化することがあります。
例えば、平均応答時間は0.5秒から0.4秒に改善された。素晴らしい成果に見えます。しかし、詳しく見ると、90%のユーザーの応答時間は0.3秒から0.35秒に悪化し、残り10%のヘビーユーザーだけが劇的に改善(5秒→0.5秒)されていました。
「平均」という集計の魔法で、大多数のユーザーの不満が隠されてしまったのです。
データとともに生きる者として
ソフトウェアエンジニアという職業柄、私は一般の方よりもデータを重視する習慣が身についています。コードのパフォーマンスも、機能の利用状況も、エラー発生率も、すべて数字で測定します。
でも、それだけに、データでは測れないもの、測りたくないものの大切さも痛感しています。
誰かを好きになる気持ち
困っている人に手を差し伸べる優しさ
美しい景色を見て感動する心
大切な人との何気ない会話
これらは数字では表せません。でも、だからこそ美しく、だからこそ人間的で、だからこそ大切にしたいものです。データは強力なツールです。でも、それが全てではない。この心構えを、私たちは忘れてはいけないと思います。
「何かそういうデータあるんですか?」という言葉について
データを求めることの大切さと、データに頼りすぎることの危険性。バランスを考えます。
インターネット上でよく見かける、某著名人の「何かそういうデータあるんですか?」「それってあなたの感想ですよね」という言葉。
この言葉は、一部では正しいと思います。根拠のない主張や、単なる印象論だけで物事を語るのは危険です。データに基づいた議論は重要です。
しかし、私たちが忘れてはいけないことがあります。
データの背後には
いつも
人間
がいる
データを作るのは人間
誰がデータを集めたのか
どんな目的で集めたのか
どんな方法で集めたのか
何を測り、何を測らなかったのか
データを使うのも人間
どう集計するかを決めるのは人間
どう解釈するかを決めるのは人間
何を強調するかを決めるのは人間
最終的な意思決定をするのも人間
本当に大切なこと
表面的に「データがある」だけでは不十分です。そのデータの背景、文脈、明示されていない前提まで読み取ることが重要なのです。
シンプソンのパラドックスが教えてくれるのは、まさにこの点です。同じデータでも、見方を変えれば全く違う結論が導かれる。だからこそ、私たちは:
データの出典を確認する
データの収集方法を理解する
データの背景を考える
隠れた要因がないか探す
反対の視点からも検証する
「データで表せないもの」の大切さ
最後に、もう一度強調したいことがあります。
データは確かに重要です。しかし、データで測れないもの、数字にできないものこそ、最も人間的で、最も大切なものだということを、忘れないでほしいのです。
誰かを好きになる気持ち。困っている人に手を差し伸べる優しさ。美しいものを美しいと感じる心。これらは数字にできません。でも、だからこそ美しく、だからこそ守りたいものです。データとバランスよく付き合いながら、人間らしさを大切にしていきましょう。
実践:データを正しく読むための具体的なステップ
今日から使える5つのチェックリスト。データの罠を見抜くための実践的なガイド。
ここまで学んだことを実践に移すために、具体的なチェックリストを用意しました。
ステップ1:データの出典を確認する
誰が調査・収集したデータか?(政府、大学、企業、個人?)
いつ収集されたデータか?(古すぎないか?)
サンプルサイズは十分か?(n=10とn=10,000では信頼性が違う)
査読付き論文など、信頼できるソースか?
ステップ2:データの背景を理解する
どんな目的で収集されたデータか?
どんな質問・調査方法だったか?
対象者の選び方にバイアスはないか?
測定できていないもの(欠損値)はないか?
ステップ3:グループ分けして見る
年齢層で分けたら、傾向は変わらないか?
性別で分けたら、傾向は変わらないか?
地域で分けたら、傾向は変わらないか?
時期で分けたら、傾向は変わらないか?
ステップ4:因果関係を疑う
相関があるだけで、因果関係があるとは限らない
逆の因果関係(AがBの原因ではなく、BがAの原因)かも?
第三の要因(交絡因子)が両方に影響していないか?
単なる偶然の一致ではないか?
ステップ5:反対の視点から検証する
このデータから逆の結論を導けないか?
都合の良いデータだけが選ばれていないか?
別の研究では違う結果が出ていないか?
誰が利益を得る結論なのか?(利益相反はないか)
さらに学ぶために:参考文献とリソース
この記事で引用した学術論文や信頼できる情報源のリスト。深く学びたい方へ。
学術論文・権威ある情報源
1. Stanford Encyclopedia of Philosophy - Simpson's Paradox - 哲学的・理論的な視点からの詳細な解説
2. Wikipedia - Simpson's Paradox - 包括的な概要と豊富な実例
3. Statistics By Jim - Simpson's Paradox Explained - 実践的な統計解説
4. PMC - Life expectancy by marital status - 婚姻状態と平均余命の研究
5. Berkeley 1973 Admissions Dataset - UCバークレーの実際のデータセット
6. Statistics LibreTexts - Berkeley Case Study - 教育的な詳細解説
7. Brookings Institution - Simpson's Paradox in Education - 教育分野での応用
8. RAND - Marriage and Longevity - 結婚と健康に関する研究
9. PMC - Marital status and longevity in the United States - アメリカにおける大規模研究
10. Analytics Vidhya - Simpson's Paradox Guide - データサイエンス視点での解説
作成日: 2025年10月 | 全データは査読済み学術論文および信頼できる学術情報源に基づく
データを疑い、データを信じる
シンプソンのパラドックスが教えてくれるのは、「データは万能ではない」ということ。でも同時に、「だからこそデータを深く理解する必要がある」ということでもあります。
表面だけを見るのではなく、その奥にある真実を探す。
これが、データと正しく付き合う第一歩です。
まだコメントはありません。最初のコメントを残しませんか?