こんにちは。yosshiです。
自身の過去の体験談を元に、統計学でつまずきやすいポイントを分かりやすさ重視で解説するシリーズ、第三弾です。 (前回の内容はこちら)
今回は統計検定3級に出てくる範囲で勘違いしやすい問題をまとめてみました。
目次を見て気になったセクションだけでも見てみて下さい!
※レベルとしては統計検定3級程度の内容を扱います
皆さんは「相関係数が1のデータ」と言われて、どんなデータを思い浮かべますか?
恐らく殆どの人がこんな感じのデータを思い浮かべると思います。
確かにこのデータの相関係数は1です。
では、↓のデータの相関係数はいくつでしょうか?(一直線上には並んでるが、傾きは0.1)
▼ 答え
実はこれも相関係数は1になります!
実はデータが一直線上に並んだ時点で、相関係数は必ず1か-1になります。
一直線上にデータがあり、かつグラフの傾きがすこしでも正なら1, 負なら-1になります。
相関係数は直線の傾き具合を表すわけではないことに注意しましょう。
殆どの教科書には、Aという事象が起こる確率P(A)は以下のように説明されていると思います。
しかしこの公式、本当に正しいのでしょうか?
突然ですが問題です。
私(yosshi)が今後の人生で歌手デビューをして、紅白歌合戦に出場できる確率は何%でしょう?
今のところは 残念ながら確率は0%です。
しかし、先ほどの公式に当てはめて考えてみるとどうでしょう。
全ての場合の数は「出場できるかできないか」で2、事象が起こる数は「出場できる」で1なので、なんと1/2の確率で紅白歌合戦に出場できることになってしまいました。
先ほどの確率の公式には、非常に大事な前提があります。
それは全ての事象の起こる可能性が平等であるという前提です。
(これを同様に確からしいといいます)
つまり今回の例でいえば、「紅白歌合戦に出場できる」と「出場できない」の起こる可能性が同じでないことが問題だったのです。
この例では流石におかしいことにすぐ気づけますが、次のような問題の場合はどうでしょう。
(どこかが間違っています)
コインを2枚なげて「片方が表で片方が裏」の確率は、
場合の数が{二枚とも表}、{片方が表で片方が裏}、{二枚とも表}の3つだから1/3である。
▼ 答え
これも{二枚とも表}と{片方が表で片方が裏}では同様に確からしくないため、計算は間違いです。
(後者の方が可能性が高い)
2枚のコインにA, Bという名前を付けて、 {A: 表, B: 表}、{A: 表, B: 裏}、{A: 裏, B: 表}、{A: 裏, B: 裏} という風に考えれば、これらは同様に確からしいので確率は2/4=1/2と計算できます。
確率の問題の解説を見るとコインやサイコロにA,Bと名前を割り振ることがよくありますが、これは各事象を同様に確からしくするためのテクニックなのです。
ここまでの説明で、確率の公式は同様に確からしい事象にしか使えないことを説明してきました。
では、同様に確からしくない確率の計算はどのようにするのでしょうか。これを計算するには、確率分布関数や広義積分など発展的な数学の知識が必要となります。同様に確からしくない確率を計算するのは非常に難しいのです。
確率に限らず、覚えた公式がいつ、どういう条件で使えるのかをしっかり把握することを意識づけると理解が深まると思います。
区間推定を行う時、基本的には95%信頼区間を作成します。
(区間推定とは何か簡単に言うと、データから真値(母平均や母分散など)を推定するときに、その値が含まれる可能性の高い範囲を示す方法です。)
しかし95%信頼区間の説明は、大抵以下のように書かれています。
95%信頼区間とは、「その区間の中に95%の確率で真値が含まれる」という意味ではなく、「信頼区間を求める作業を100回行うと95回はその区間の中に真値が含まれる」という意味である。
ここで言いたいのは、変化するのは真値ではなく信頼区間であるということです。
つまり…
考えてみれば当たり前ですが、真の値はただ一つに決まっていて、信頼は区間は集められたデータによって変化します。
言葉をそのまま覚えるよりは、この図を覚えた方が理解しやすいと思います。
今回は統計で勘違いしやすい内容についてまとめてみました。
少しでも皆さんの理解が深まれば幸いです。
最後までお読みくださり、ありがとうございました!