目次
はじめに
こんにちは、yosshiです。
皆さん、統計学に苦手意識はありませんか?
統計学は数学と関係が深い分野なので、なんとなく苦手意識がある人も少なくないと思います。
かくいう私もこれまで統計学を学んでいて「教科書の説明は分かりづらい!」「これをもっと先に教えてほしかった!」と思ったポイントがいくつもありました。
これから統計学を学ぶ皆さんにはそんな思いをして欲しくないので、このシリーズでは統計学で最初つまずきやすいポイントを分かりやすさ重視で解説していきます。
この記事の対象者
- これから統計学を学びたいと思ってる方
- 過去に統計学を学んでいたが、内容を忘れた又は苦手意識が抜けない方
※レベルとしては統計検定3級程度の内容を扱います
問題
解説1. 実は統計学は2種類ある
これは全統計本の1ページ目に書くべき内容だとずっと思っているのですが...
そもそも統計学という学問は大きく二つの分野に分けられます。
それが、記述統計と推測統計です。
記述統計
与えられたデータに対して、そのデータの特徴をより分かりやすく表現する学問
特徴:計算は簡単だが、欲しいデータが全て無いと正しい結果が得られない。
例:平均値、中央値、標準偏差、箱ひげ図など
推測統計
限られたデータ(標本)から、データ全体(母集団)の特徴を推測する学問
特徴:計算は複雑だが、欲しいデータが全て無くても中身を確率的に推測できる。
例:期待値、正規分布、区間推定、仮設検定など
データサイエンスの業務で言うなら、記述統計はBIツールによるデータの可視化で、推測統計はAIによる未来予測のイメージです。
推測統計の使い時
例えばさいころを投げて出る目のデータを考える場合、得られるデータには限界がないため母集団は無限になります。
この場合、記述統計だけでサイコロの性質を完全に理解するのは不可能(必ず目の偏りが生じる)なため、推測統計が必要になるのです。
またデータが有限であっても、データを全て入手することが困難な場合はよくあります。 そんな時も推測統計の出番です。
少々複雑になってきましたが、大事なのは記述統計と推測統計は同じ統計学ではあるものの、前提や目的が全く違うということです。
解説2. 平均値と期待値の違い
解説1では、記述統計と推測統計の違いについて説明しました。
そして、平均値と期待値はそれぞれ記述統計と推測統計の言葉です。
つまり…
平均値:既にあるデータの中間的な値
期待値:将来的に表れるデータの中間的な値。
ということです!
どちらもデータの中心を意味する言葉ではあるものの、前提がそれぞれ違うため計算方法も変わるのです。
サイコロの例で計算
1の目が出る確率が1/2, それ以外の目が出る確率がそれぞれ1/10のイカサマサイコロがあります。
このサイコロを5回振った結果は[1, 4, 2, 1, 5]でした。
このとき平均値と期待値はそれぞれいくつ?
平均値の計算
平均値はサイコロの性質については考えず、得られたデータにのみ着目します。今回で言えばサイコロを5回振った結果です。
これを公式に当てはめると、平均値は2.6になります。
(1 + 4 + 2 + 1 + 5) / 5 = 2.6
期待値の計算
期待値は出た目については考えず、サイコロの性質にのみ着目します。今回で言えば目によって出る確率が違う点です。
これを公式に当てはめると、期待値は2.5になります
(1/2)x1 + (1/10)x2 + (1/10)x3 + (1/10)x4 + (1/10)x5 + (1/10)x6 = 2.5
余談ですが、平均値はデータの数を増やすと段々期待値に近づいていきます。 これを対数の法則といいます。
📔 コラム 推測統計と確率について
期待値の計算に確率が出てくることに違和感を持つ人もいるのではないでしょうか。
しかし推測統計の分野では確率を扱うことが多くあります。 やっていることはあくまで推測なので、「90%の確率で正しい」「95%の確率でこの範囲にある」という結論しか言えないのです。
そのため推測統計の計算が苦手な方は、その土台である確率の計算を勉強してみるといいかもしれません。
まとめ
- 統計学は記述統計と推測統計に分かれ、これらは前提や目的が全く違う
- 平均値とは既にあるデータから計算された中間的な値を指し、期待値は将来的に表れるデータの中間的な値のことを指す
平均値や期待値に限らず、問題を解く際に「問われてる内容が記述統計か推測統計か」を把握するのはとても大事です。
特に推測統計の分野はなんとなくで解いていると「自分が今何の計算をしているのか」が分からなくなりがちなので、しっかり前提や目的を把握してから問題に取り掛かることを意識してみてください。
最後までお読みくださり、ありがとうございました!