2群間比較の繰り返しはダメ【3群以上の群間比較】

A-C群の統計解析で，A vs.B, B vs. C, C vs. Aをやったら怒られた…どうして？

本記事は，このような「なぜ？どうして？」にお答えします．

こんにちは．

博士号を取得後，派遣社員として基礎研究に従事しているフールです．

3群以上の統計解析で，t検定やマン・ホイットニーのU検定の繰り返しで群間比較をやっている人はいますか？

実はそれ，間違った方法なんです．

なぜなら，本当は差が無いのに有意差があると判定してしまう確率が高くなるからです．

この記事では，3群以上の統計解析で2群間の比較の繰り返しがダメな理由をまとめました．

本記事を読み終えると，t検定やマン・ホイットニーのU検定の繰り返しがダメなことだと分かりますよ！

サマリー・3群以上ある場合，群間比較をしたい時は多重比較をしなければなりません．

2群間の比較の繰り返しを行う者がいる理由
2群間の比較の繰り返しはダメな理由
1. 2群間の比較の場合
2. 3群間の比較の場合
もっと勉強したい方へ

2群間の比較の繰り返しを行う者がいる理由

A群，B群，C群の3群における統計解析で，A vs.B，B vs. C，C vs. A と2群間の比較を繰り返す人は多いです．

原因は，研究室や部署で行われている統計解析を，指導教官や上司に言われるがまま実施するという悪しき伝統があるからでしょう．

私が博士課程の学生だったころも，指導教員や先輩は皆，2群間の比較を繰り返しを「善し」としていました*．

残念ながら，私以外の学生は，指導教官や先輩に言われるがまま実施する「生徒」でした．

幸か不幸か，私は空気が読めない人です（笑）．

指導教官や先輩に「それを違います！」と抵抗し続けた日々が，今では懐かしい．

*この背景には，以下の理由が考えられると思います．

・多重比較では有意差がでにくい
・全ての実験デザインを2群比較に変えると予算・時間・労働力の全てが足りない

前者は，2群間の比較を繰り返しがダメだと知っている者の発想ですので質が悪いです．

後者は，実験計画を立てる段階で統計検定のことを考慮しなかったことが原因です（悪しき伝統のせいで，統計検定のことを考慮した実験計画法を指導できる人自体が少ないのですが…）．

2群間の比較の繰り返しはダメな理由

なぜ，2群間の比較の繰り返しはダメなのでしょうか？

その理由は，有意水準の考え方にあります．

よく使われる「有意水準」または「危険率」には，以下のような意味があります．

同じ実験を繰り返したとき，有意差が無いのに有意差があると判定される確率

つまり，α = 0.05とは，「同じ実験を20回繰り返したとき，1回は有意差が無いのに有意差があると判定される」ことを意味します．

これを2群の群間比較と3群の群間比較で考えてみましょう！

2群間の比較の場合

1回

2回

3回

4回

5回

6回

7回

8回

9回

10回

11回

12回

13回

14回

15回

16回

17回

18回

19回

20回

A群

A₁

A₂

A₃

A₄

A₅

A₆

A₇

A₈

A₉

A₁₀

A₁₁

A₁₂

A₁₃

A₁₄

A₁₅

A₁₆

A₁₇

A₁₈

A₁₉

A₂₀

B群

B₁

B₂

B₃

B₄

B₅

B₆

B₇

B₈

B₉

B₁₀

B₁₁

B₁₂

B₁₃

B₁₄

B₁₅

B₁₆

B₁₇

B₁₈

B₁₉

B₂₀

有意差

有り

各群における各回の平均値をA₁-A₂₀またはB₁-B₂₀とします．

理論上は，「有意差が無いのに有意差があると判定される」のは1回です．

今回は，それが12回目でした．

3群間の比較の場合

1回

2回

3回

4回

5回

6回

7回

8回

9回

10回

11回

12回

13回

14回

15回

16回

17回

18回

19回

20回

A群

A₁

A₂

A₃

A₄

A₅

A₆

A₇

A₈

A₉

A₁₀

A₁₁

A₁₂

A₁₃

A₁₄

A₁₅

A₁₆

A₁₇

A₁₈

A₁₉

A₂₀

B群

B₁

B₂

B₃

B₄

B₅

B₆

B₇

B₈

B₉

B₁₀

B₁₁

B₁₂

B₁₃

B₁₄

B₁₅

B₁₆

B₁₇

B₁₈

B₁₉

B₂₀

C群

C₁

C₂

C₃

C₄

C₅

C₆

C₇

C₈

C₉

C₁₀

C₁₁

C₁₂

C₁₃

C₁₄

C₁₅

C₁₆

C₁₇

C₁₈

C₁₉

C₂₀

有意差

有り

各群における各回の平均値をA₁-A₂₀，B₁-B₂₀またはC₁-C₂₀とします．

そして，

A vs. B
B vs. C
C vs. A

と2群間の比較を繰り返すとします．

理論上は，「有意差が無いのに有意差があると判定される」1回は，3回も出現することになります．

今回は，それが2回目・8回目・18回目でした．

この場合の有意水準は，1 -（1 – 0.05）×（1 – 0.05）×（1 – 0.05）≒ 0.14です．

つまり，「同じ実験を7回繰り返したとき，1回は有意差が無いのに有意差があると判定される」のと同じです．

もうお分かりですね！

2群間の比較を繰り返すと，有意水準が上昇し，「有意差が無いのに有意差があると判定される」確率が上がってしまうのです．

この傾向は，比較する群数が増えれば増えるとほど顕著になりますよ～

p値とは？

p値には，以下のような意味があります．

観察された群間の差が偶然生じる可能性の尺度

つまり，p = 0.05とは，「観察された群間の差が偶然生じる可能性は，20回に1回である」ことを意味します．

だから，α = 0.05のときのp < 0.05とは，「観察された群間の差が偶然生じる可能性は20回に1回未満であり，これが偶然生じた可能性は低い」ことを意味します．

もっと勉強したい方へ

以下の書籍はオススメです！

・標準偏差（SD）と標準誤差（SE）の使い分けから，検定法の理解に必要な基本知識までを学べます．

リンク

・2群の比較，3群以上の比較，分散分析の基礎を学べます．

リンク

以上，2群間比較の繰り返しはダメな理由でした．

最後までお付き合いいただきありがとうございました．

次回もよろしくお願いいたします．

2020年4月21日　フール