こんにちは,shun(@datasciencemore)です!!
いよいよ確率統計講座が本格的にスタートします.
当講座は①確率⇒②統計の順番で進んでいきます.(前回の記事参照)
まずは確率の基礎を固めましょう!
っといいたいところですが,さっそく脱線します笑
確率の話をする前にそもそも確率と統計ってどんな関係があるのかってところを最初に説明したいと思います.
確率と統計の関係
まずはそれぞれの関係について簡単に説明です.
確率:データが出る前の話
統計:データが出た後の話
これだけだとわけわかりませんね笑
例え話をしてイメージを膨らませましょう.
あなたはギャンブラーです.
さいころを振って偶数なら出た目の数×1万円をもらえ,奇数なら出た目の数×1万円を支払うというゲームを考えます.(ちなみに簡単に考えるため参加費は無料です.)
普通に考えたらあなたにめっちゃ有利なゲームですよね.
だってさいころはどの目も等しい確率で出るんだから,偶数も奇数も同じ確率ででるのに対し,偶数のほうが多めにお金をもらえますから.
さて,そんな勝ちがほぼ見えてる勝負であなたはさいころを5回振りました.
すると出た結果は,
1,3,5,2,3
でした...
偶数は1回,奇数は4回で,収支を計算すると+2 -(1+3+5+3) = -10万円というまさかの大赤字!
あなたは自分の運のなさにはらわたが煮えくり返りました.
絶対有利なのだからこんなに負けるわけにはいかない,もう一回勝負だ!
と冷静に考えられない状況の中,今度はさいころを10回振ることにしました.
結果は,
1,5,3,5,3,2,3,3,5,1
でした...
この出現した目を見て,こんなことがあなたの頭によぎります.
普通のさいころならこんなに4と6が出ないなんてありえないんじゃないか?
もしかしたらこれは4と6が絶対にでないイカサマさいころなんじゃないか?
しかし,もう時すでに遅し.
あなたはお金を払うことができずに地下労働施設に強制送還されてしまいましたとさ..
賢明な読者の方はもうこのからくりに気づきましたね.
そう,実はこのゲームに使用されたさいころはイカサマさいころだったのです!
通常はさいころの目は1,2,3,4,5,6ですが,このイカサマさいころは1,2,3,3,5,5が出るものでした.
ノーマルさいころとイカサマさいころの確率を表と図にしてみると次のようになります.
さて,5回引いたときのさいころの目は
1,3,5,2,3
でしたね.
これをまとめ,それぞれの目が何回出たかとその割合を算出すると次のようになります.
この時点ではイカサマに気づくのは難しいでしょう.
だって,5回降っただけだと4と6が1回もでないこともそんなに珍しくないですからね.
次に10回引いた時のさいころの目は,
1,5,3,5,3,2,3,3,5,1
でした.
先ほどと同様に出た目の回数と割合を表にしてみましょう.
これくらいやると徐々にイカサマの片鱗が垣間見えます.
10回もやって4と6が1回も出ないのはちょっと怪しいですもんね笑
ただまだイカサマだ!と自信を持っていうことはできません.
すごく運が悪いとそういうこともなくはなさそうですから.
ということで最後のダメ押しでこのイカサマさいころを10万回降ってみましょう.
10万回自分で振るのはだるいし時間の無駄なのでそこはRさんにやってもらいましょう.
以下のプログラムは,10万回振った時の出る目の回数と割合をデータフレームで出力してくれます.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 |
# イカサマさいころの定義 dice_prob_cheat= c(1/6, 1/6, 2/6, 0, 2/6, 0) # イカサマさいころを振ったときの出た目と割合を出力する関数 get_prop = function(m, prob){ result = sample(1:6, m, replace = TRUE, prob = prob) tibble( dice_eyes = factor(result, levels = 1:6) ) %>% count(dice_eyes, .drop = FALSE) %>% mutate(prop = n / m) } # 関数実行 get_prop(100000, dice_prob_cheat) |
1 2 3 4 5 6 7 8 9 |
# A tibble: 6 x 3 dice_eyes n prop <fct> <int> <dbl> 1 1 16668 0.167 2 2 16616 0.166 3 3 33329 0.333 4 4 0 0 5 5 33387 0.334 6 6 0 0 |
この出力は確定的ではないので,同じコードを実施しても上と同じ出力になるとは限りません.(というか,ほぼ間違いなく違う出力になります笑)
なので,違う出力がでてもご安心ください.
ここまでやれば一目瞭然ですね,ノーマルさいころであれば10万回やって4と6が1回も出ていないなんてありえないですから笑
このように試行回数を増やしていくと,さいころの出る目がどのようなメカニズムで出現しているかがわかってくることが実感できたと思います.
今までの流れをまとめると次のようになります.
①4と6が出ず,3と5が出やすいイカサマさいころがある.
②イカサマさいころを何回か振る.
③イカサマさいころを振った数だけデータが出現する.
④出現したデータから,さいころの出る目がどのようなメカニズムか予想できる.
データが多い(イカサマさいころを振った回数が多い)ほうがより正確なメカニズムを予想できる.
ここまで理解できたでしょうか?
実はこの説明は,確率の話と統計の話が絡み合っているのです.
冒頭で確率と統計について以下のように説明したのを覚えているでしょうか?
確率:データが出る前の話
統計:データが出た後の話
この説明と先ほどの図を比較してどこが確率の話でどこが統計の話か関連付けてみましょう.
データが出る前の話は,①と②でデータが出た後の話は③と④ですね.
ですから①と②が確率の話で,③と④が統計の話になるのです.
統計学では,出現するデータは,何かしらのメカニズムに従って出現していると考えます.
※先ほどの例え話では,イカサマさいころの出目の確率がメカニズムに該当しています.
それを踏まえ,確率と統計の説明をもう少し詳細にすると
確率:このメカニズムから生成されるデータはどんな性質があるのだろうか??(データが出る前の話)
統計:観測されたデータはどのようなメカニズムから生成されたのだろうか??(データが出た後の話)
となります.
それぞれ時制(データが出る前と出た後)と興味が違うんですね!!
この違いはめっちゃ大事です!!!
実際に私たちが直面する様々な問題が,確率の話なのか統計の話なのか,常に意識してみてください.
今までの話から当講座が①確率⇒②統計の順番で進める理由がなんとなくわかったと思います.
実際,現実の問題としては統計の問題のほうが多いです.
(データをみてそこから何か考えるのって統計の話ですもんね,データが出た後の話ですから)
しかし,統計でデータがどのようなメカニズムから生成されたのかを考えるときに,確率がわかっていないとしっかり考えることができないのです.
よって当講座では多少遠回りになってしまうかもしれないですが,①確率⇒②統計の順番でしっかりと基礎固めをしていきます.
急がば回れですよ!!
まとめ
今回は,確率と統計の関係についてやりました.
それぞれについてまとめると
確率:このメカニズムから生成されるデータはどんな性質があるのだろうか??(データが出る前の話)
統計:観測されたデータはどのようなメカニズムから生成されたのだろうか??(データが出た後の話)
となります.
最初はややこしいかもしれませんが,両者の違いを意識することで少しずつ理解が深まると思います.
焦らずじっくり理解してくださいね!
今回もお疲れ様でした!