デレステのレアアイドルは等確率で出現するか
公開:
更新:
復習のために以下の面白そうな題材でχ二乗検定をやってみました。
【デレステ】レアアイドルは本当に均等に出現するのか15901人調べてみた - Qiita
アイドルマスター シンデレラガールズ スターライトステージ9周年おめでとうございます。https://x.com/imascg_stage/status/1830621726352572503…
「キャラクターくじの出目は等確率であるか」という内容です。
期待度数への当てはまりを調べたいので、適合度の検定を行います。
目次
帰無仮説
帰無仮説は「すべてのキャラクターは等確率で出現する」とします。
期待度数
全 103 キャラクターの出現回数をすべて合計すると
$$ N = 12422 $$等確率であれば、各キャラクターの期待度数は
$$ E = \frac{N}{k} = \frac{12422}{103} \approx 120.6019417 $$χ二乗統計量の計算
$$ \chi^2 = \sum_{i=1}^{k} \frac{(O_i - E)^2}{E} $$各キャラクターについて、$ \frac{(O_i - E)^2}{E} $ を計算し、その合計を求めます。$O_i$ はそのキャラクターの観測した度数です。
キャラクター | 度数 | $ {(O_i - E)^2} \div E $ |
---|---|---|
クラリス | 146 | 5.348681403 |
梅木音葉 | 145 | 4.935784929 |
西園寺琴歌 | 143 | 4.159742424 |
森久保乃々 | 143 | 4.159742424 |
望月聖 | 142 | 3.796596393 |
柳瀬美由紀 | 140 | 3.120054773 |
速水奏 | 140 | 3.120054773 |
土屋亜子 | 140 | 3.120054773 |
南条光 | 140 | 3.120054773 |
工藤忍 | 138 | 2.509847077 |
高峯のあ | 136 | 1.965973304 |
市原仁奈 | 136 | 1.965973304 |
神崎蘭子 | 136 | 1.965973304 |
間中美里 | 135 | 1.71891164 |
仙崎恵磨 | 134 | 1.488433456 |
木場真奈美 | 132 | 1.077227531 |
アナスタシア | 132 | 1.077227531 |
柳清良 | 132 | 1.077227531 |
遊佐こずえ | 131 | 0.89649979 |
藤居朋 | 130 | 0.73235553 |
島村卯月 | 130 | 0.73235553 |
城ヶ崎莉嘉 | 130 | 0.73235553 |
宮本フレデリカ | 130 | 0.73235553 |
古澤頼子 | 129 | 0.58479475 |
栗原ネネ | 128 | 0.453817452 |
海老原菜帆 | 128 | 0.453817452 |
日野茜 | 127 | 0.339423635 |
槙原志保 | 126 | 0.241613298 |
双葉杏 | 126 | 0.241613298 |
輿水幸子 | 125 | 0.160386442 |
篠原礼 | 125 | 0.160386442 |
ライラ | 125 | 0.160386442 |
桐生つかさ | 124 | 0.095743068 |
結城晴 | 124 | 0.095743068 |
榊原里美 | 124 | 0.095743068 |
西島櫂 | 124 | 0.095743068 |
メアリー・コクラン | 124 | 0.095743068 |
白坂小梅 | 123 | 0.047683174 |
早坂美玲 | 123 | 0.047683174 |
十時愛梨 | 123 | 0.047683174 |
西川保奈美 | 123 | 0.047683174 |
二宮飛鳥 | 123 | 0.047683174 |
若林智香 | 122 | 0.016206761 |
難波絵美 | 122 | 0.016206761 |
水野翠 | 121 | 0.001313829 |
大和亜季 | 121 | 0.001313829 |
道明寺歌鈴 | 121 | 0.001313829 |
大沼くるみ | 121 | 0.001313829 |
伊集院恵 | 121 | 0.001313829 |
白菊ほたる | 120 | 0.003004378 |
池袋晶葉 | 120 | 0.003004378 |
脇山珠美 | 120 | 0.003004378 |
綾瀬穂乃香 | 120 | 0.003004378 |
有浦柑奈 | 120 | 0.003004378 |
楊菲菲 | 119 | 0.021278408 |
浅野風香 | 119 | 0.021278408 |
佐城雪美 | 119 | 0.021278408 |
大石泉 | 119 | 0.021278408 |
佐藤心 | 118 | 0.056135919 |
ケイト | 118 | 0.056135919 |
向井拓海 | 118 | 0.056135919 |
桃井あずき | 117 | 0.107576911 |
江藤美紗希 | 117 | 0.107576911 |
小室千奈美 | 117 | 0.107576911 |
並木芽衣子 | 116 | 0.175601384 |
岡崎泰葉 | 116 | 0.175601384 |
渋谷凛 | 116 | 0.175601384 |
城ヶ崎美嘉 | 116 | 0.175601384 |
月宮雅 | 116 | 0.175601384 |
大西由里子 | 115 | 0.260209337 |
涼宮星花 | 115 | 0.260209337 |
野々村そら | 114 | 0.361400772 |
服部瞳子 | 114 | 0.361400772 |
財前時子 | 114 | 0.361400772 |
浜口あやめ | 114 | 0.361400772 |
キャシー・グラハム | 113 | 0.479175687 |
前川みく | 113 | 0.479175687 |
原田美世 | 113 | 0.479175687 |
小関麗奈 | 113 | 0.479175687 |
安部菜々 | 112 | 0.613534084 |
瀬名詩織 | 112 | 0.613534084 |
井村雪菜 | 112 | 0.613534084 |
本田未央 | 112 | 0.613534084 |
高橋礼子 | 111 | 0.764475961 |
松原早耶 | 111 | 0.764475961 |
相原雪乃 | 110 | 0.932001319 |
小松伊吹 | 110 | 0.932001319 |
赤西瑛梨華 | 109 | 1.116110158 |
八神マキノ | 109 | 1.116110158 |
和久井留美 | 109 | 1.116110158 |
諸星きらり | 108 | 1.316802479 |
兵藤レナ | 108 | 1.316802479 |
ナターリア | 107 | 1.53407828 |
三好紗南 | 106 | 1.767937561 |
村松さくら | 106 | 1.767937561 |
喜多日菜子 | 104 | 2.285406568 |
松永涼 | 104 | 2.285406568 |
高垣楓 | 102 | 2.869209498 |
小早川紗枝 | 102 | 2.869209498 |
北条加蓮 | 102 | 2.869209498 |
北川真尋 | 99 | 3.869290001 |
村上巴 | 99 | 3.869290001 |
佐久間まゆ | 95 | 5.434899403 |
計 | 12422 | 105.7087426 |
自由度と有意水準
自由度
$$ \nu = k - 1 = 103 - 1 = 102 $$有意水準
有意水準は 5% とします。
結論
自由度 1001 のχ二乗分布表を参照すると、有意水準 5% の臨界値はおおよそ 124.34 です。
$$ \chi^2 = 105.71 < 124.34 $$χ二乗統計量が臨界値より小さいため、帰無仮説(等確率である)は棄却されません。
したがって、このキャラクターくじの出目は、等確率でないとは特にいえないと結論づけられます。
SciPy で計算する
>>> import scipy.stats
>>> counts = [146, 145, 143, ..., 99, 99, 95]
>>> scipy.stats.chisquare(counts)
Power_divergenceResult(statistic=105.70874255353404, pvalue=0.3808915266945857)
SciPy の scipy.stats
モジュールにある chisquare
関数を使うと同様に統計量と P 値を簡単に算出できます。シグネチャは chisquare(f_obs, f_exp=None, ddof=0, axis=0)
となっており、期待値はカテゴリー毎で均等、自由度はカテゴリー数から 1 引いた数となるようにデフォルト設定されているので、今回の場合そのまま使えます。
P 値も出してくれるので非常に楽かなと思います。
ちょうど 102 の行があるような表はそのへんに転がっていませんでした。 ↩︎