3 分で読むことができます。

【統計解説】勘違いしやすい統計問題まとめ

執筆者 yosshi 更新日時 2025年3月6日

Topics: 統計学

目次

はじめに


こんにちは。yosshiです。

 

自身の過去の体験談を元に、統計学でつまずきやすいポイントを分かりやすさ重視で解説するシリーズ、第三弾です。 (前回の内容はこちら)

今回は統計検定3級に出てくる範囲で勘違いしやすい問題をまとめてみました。
目次を見て気になったセクションだけでも見てみて下さい!

 

この記事の対象者

  • これから統計学を学びたいと思ってる方
  • 過去に統計学を学んでいたが、内容を忘れた又は苦手意識が抜けない方
  • 統計3級を今後受験する方

レベルとしては統計検定3級程度の内容を扱います

 

1. 相関係数が1ってどういう状態?


皆さんは「相関係数が1のデータ」と言われて、どんなデータを思い浮かべますか?

恐らく殆どの人がこんな感じのデータを思い浮かべると思います。

Figure_1

確かにこのデータの相関係数は1です。


では、↓のデータの相関係数はいくつでしょうか?(一直線上には並んでるが、傾きは0.1)


Figure_2

 

 

▼ 答え

実はこれも相関係数は1になります!

相関係数が1になる条件


実はデータが一直線上に並んだ時点で、相関係数は必ず1か-1になります。
一直線上にデータがあり、かつグラフの傾きがすこしでも正なら1, 負なら-1になります。

相関係数は直線の傾き具合を表すわけではないことに注意しましょう。

 

 

 

2. 確率の公式は万能じゃない


殆どの教科書には、Aという事象が起こる確率P(A)は以下のように説明されていると思います。

image (4)-Feb-21-2025-07-22-10-0195-AM

しかしこの公式、本当に正しいのでしょうか?

 

突然ですが問題です。

私(yosshi)が今後の人生で歌手デビューをして、紅白歌合戦に出場できる確率は何%でしょう?

今のところは 残念ながら確率は0%です。

しかし、先ほどの公式に当てはめて考えてみるとどうでしょう。

全ての場合の数は「出場できるかできないか」で2、事象が起こる数は「出場できる」で1なので、なんと1/2の確率で紅白歌合戦に出場できることになってしまいました。

「同様に確からしい」の罠


先ほどの確率の公式には、非常に大事な前提があります。

それは全ての事象の起こる可能性が平等であるという前提です。
(これを同様に確からしいといいます)

つまり今回の例でいえば、「紅白歌合戦に出場できる」と「出場できない」の起こる可能性が同じでないことが問題だったのです。

 

この例では流石におかしいことにすぐ気づけますが、次のような問題の場合はどうでしょう。
(どこかが間違っています)

コインを2枚なげて「片方が表で片方が裏」の確率は、
場合の数が{二枚とも表}{片方が表で片方が裏}{二枚とも表}の3つだから1/3である。

 

 

▼ 答え

これも{二枚とも表}{片方が表で片方が裏}では同様に確からしくないため、計算は間違いです。
(後者の方が可能性が高い)

2枚のコインにA, Bという名前を付けて、 {A: 表, B: 表}{A: 表, B: 裏}{A: 裏, B: 表}{A: 裏, B: 裏} という風に考えれば、これらは同様に確からしいので確率は2/4=1/2と計算できます。

確率の問題の解説を見るとコインやサイコロにA,Bと名前を割り振ることがよくありますが、これは各事象を同様に確からしくするためのテクニックなのです。

 

📔 コラム  同様に確からしくない確率の計算

ここまでの説明で、確率の公式は同様に確からしい事象にしか使えないことを説明してきました。
では、同様に確からしくない確率の計算はどのようにするのでしょうか。

これを計算するには、確率分布関数広義積分など発展的な数学の知識が必要となります。同様に確からしくない確率を計算するのは非常に難しいのです。

確率に限らず、覚えた公式がいつ、どういう条件で使えるのかをしっかり把握することを意識づけると理解が深まると思います。

 

 

 

3. 信頼区間の意味

 

区間推定を行う時、基本的には95%信頼区間を作成します。

(区間推定とは何か簡単に言うと、データから真値(母平均や母分散など)を推定するときに、その値が含まれる可能性の高い範囲を示す方法です。)

しかし95%信頼区間の説明は、大抵以下のように書かれています。

95%信頼区間とは、「その区間の中に95%の確率で真値が含まれる」という意味ではなく、「信頼区間を求める作業を100回行うと95回はその区間の中に真値が含まれる」という意味である。

Figure_3

図で考えてみる

 

ここで言いたいのは、変化するのは真値ではなく信頼区間であるということです。

つまり…

画像2こうではなく...

画像3こうです!!

 

考えてみれば当たり前ですが、真の値はただ一つに決まっていて、信頼は区間は集められたデータによって変化します。

言葉をそのまま覚えるよりは、この図を覚えた方が理解しやすいと思います。



 

まとめ

  • 相関係数は直線の傾き具合を表さない
  • 確率の公式は同様に確からしい時しか使えない
  • 信頼区間はデータによって区間が変化する


今回は統計で勘違いしやすい内容についてまとめてみました。
少しでも皆さんの理解が深まれば幸いです。

最後までお読みくださり、ありがとうございました!

 

 

BIツールを体験してみませんか?

INSIGHT LABでは、BIツールの無料紹介セミナー(動画)を配信しています。初めてBIツールをご利用される方を対象に、BIツールの概要や、複数あるBIツールの違いについて分かりやすくご説明いたします。

セミナー一覧はこちら

yosshi

執筆者 yosshi

 

最新記事

3 分で読むことができます。

【統計解説】勘違いしやすい統計問題まとめ

5 分で読むことができます。

【次世代型BIツール】LookerとLooker Studioのご紹介

4 分で読むことができます。

【統計解説】あれ、標準化と正規化って何だっけ?