名古屋出身ソフトウェアエンジニアのブログ

デレステのレアアイドルは等確率で出現するか

公開:
更新:

復習のために以下の面白そうな題材でχ二乗検定をやってみました。

【デレステ】レアアイドルは本当に均等に出現するのか15901人調べてみた - Qiita
アイドルマスター シンデレラガールズ スターライトステージ9周年おめでとうございます。https://x.com/imascg_stage/status/1830621726352572503…

「キャラクターくじの出目は等確率であるか」という内容です。

期待度数への当てはまりを調べたいので、適合度の検定を行います。

帰無仮説

帰無仮説は「すべてのキャラクターは等確率で出現する」とします。

期待度数

全 103 キャラクターの出現回数をすべて合計すると

$$ N = 12422 $$

等確率であれば、各キャラクターの期待度数は

$$ E = \frac{N}{k} = \frac{12422}{103} \approx 120.6019417 $$

χ二乗統計量の計算

$$ \chi^2 = \sum_{i=1}^{k} \frac{(O_i - E)^2}{E} $$

各キャラクターについて、$ \frac{(O_i - E)^2}{E} $ を計算し、その合計を求めます。$O_i$ はそのキャラクターの観測した度数です。

キャラクター度数$ {(O_i - E)^2} \div E $
クラリス1465.348681403
梅木音葉1454.935784929
西園寺琴歌1434.159742424
森久保乃々1434.159742424
望月聖1423.796596393
柳瀬美由紀1403.120054773
速水奏1403.120054773
土屋亜子1403.120054773
南条光1403.120054773
工藤忍1382.509847077
高峯のあ1361.965973304
市原仁奈1361.965973304
神崎蘭子1361.965973304
間中美里1351.71891164
仙崎恵磨1341.488433456
木場真奈美1321.077227531
アナスタシア1321.077227531
柳清良1321.077227531
遊佐こずえ1310.89649979
藤居朋1300.73235553
島村卯月1300.73235553
城ヶ崎莉嘉1300.73235553
宮本フレデリカ1300.73235553
古澤頼子1290.58479475
栗原ネネ1280.453817452
海老原菜帆1280.453817452
日野茜1270.339423635
槙原志保1260.241613298
双葉杏1260.241613298
輿水幸子1250.160386442
篠原礼1250.160386442
ライラ1250.160386442
桐生つかさ1240.095743068
結城晴1240.095743068
榊原里美1240.095743068
西島櫂1240.095743068
メアリー・コクラン1240.095743068
白坂小梅1230.047683174
早坂美玲1230.047683174
十時愛梨1230.047683174
西川保奈美1230.047683174
二宮飛鳥1230.047683174
若林智香1220.016206761
難波絵美1220.016206761
水野翠1210.001313829
大和亜季1210.001313829
道明寺歌鈴1210.001313829
大沼くるみ1210.001313829
伊集院恵1210.001313829
白菊ほたる1200.003004378
池袋晶葉1200.003004378
脇山珠美1200.003004378
綾瀬穂乃香1200.003004378
有浦柑奈1200.003004378
楊菲菲1190.021278408
浅野風香1190.021278408
佐城雪美1190.021278408
大石泉1190.021278408
佐藤心1180.056135919
ケイト1180.056135919
向井拓海1180.056135919
桃井あずき1170.107576911
江藤美紗希1170.107576911
小室千奈美1170.107576911
並木芽衣子1160.175601384
岡崎泰葉1160.175601384
渋谷凛1160.175601384
城ヶ崎美嘉1160.175601384
月宮雅1160.175601384
大西由里子1150.260209337
涼宮星花1150.260209337
野々村そら1140.361400772
服部瞳子1140.361400772
財前時子1140.361400772
浜口あやめ1140.361400772
キャシー・グラハム1130.479175687
前川みく1130.479175687
原田美世1130.479175687
小関麗奈1130.479175687
安部菜々1120.613534084
瀬名詩織1120.613534084
井村雪菜1120.613534084
本田未央1120.613534084
高橋礼子1110.764475961
松原早耶1110.764475961
相原雪乃1100.932001319
小松伊吹1100.932001319
赤西瑛梨華1091.116110158
八神マキノ1091.116110158
和久井留美1091.116110158
諸星きらり1081.316802479
兵藤レナ1081.316802479
ナターリア1071.53407828
三好紗南1061.767937561
村松さくら1061.767937561
喜多日菜子1042.285406568
松永涼1042.285406568
高垣楓1022.869209498
小早川紗枝1022.869209498
北条加蓮1022.869209498
北川真尋993.869290001
村上巴993.869290001
佐久間まゆ955.434899403
12422105.7087426

自由度と有意水準

自由度

$$ \nu = k - 1 = 103 - 1 = 102 $$

有意水準

有意水準は 5% とします。

結論

自由度 1001 のχ二乗分布表を参照すると、有意水準 5% の臨界値はおおよそ 124.34 です。

$$ \chi^2 = 105.71 < 124.34 $$

χ二乗統計量が臨界値より小さいため、帰無仮説(等確率である)は棄却されません。

したがって、このキャラクターくじの出目は、等確率でないとは特にいえないと結論づけられます。

SciPy で計算する

>>> import scipy.stats
>>> counts = [146, 145, 143, ..., 99, 99, 95]
>>> scipy.stats.chisquare(counts)
Power_divergenceResult(statistic=105.70874255353404, pvalue=0.3808915266945857)

SciPy の scipy.stats モジュールにある chisquare 関数を使うと同様に統計量と P 値を簡単に算出できます。シグネチャは chisquare(f_obs, f_exp=None, ddof=0, axis=0) となっており、期待値はカテゴリー毎で均等、自由度はカテゴリー数から 1 引いた数となるようにデフォルト設定されているので、今回の場合そのまま使えます。

P 値も出してくれるので非常に楽かなと思います。


  1. ちょうど 102 の行があるような表はそのへんに転がっていませんでした。 ↩︎