統計解析を考えてから実験デザインを考える【p-hackingはダメ】

p-hacking
この記事は約7分で読めます。

実験結果が出たから,色々な統計解析を試して,p値が最も低い方法を採用したんだよね.

そしたら,先生に怒られた…なんで?

本記事は,このような「なぜ?どうして?」にお答えします.

 

こんにちは.

博士号を取得後,派遣社員として基礎研究に従事しているフールです.

皆さんは,統計解析のことをいつ考えますか?

冒頭の男の子のように,実験が終了してデータがそろってから検定方法を考える人は多いと思います.

実は,そのやり方は間違っています!

なぜなら,色々な統計解析を試し,その中から研究者にとって望ましい解析方法を採用するやり方は,p-hackingと呼ばれている禁止行為だからです.

この記事では,統計解析を考えてから実験デザインを考えることの重要性についてまとめました.

本記事を読み終えると,適切な統計解析を考えてから実験デザインを考える癖が身に付きますよ!

サマリー・「有意差なし」が「有意差あり」になるような統計解析を選択することはp-hackingです.

・「有意差なし」が「有意差あり」になるまでデータ収集を続けることもp-hackingです.

・p-hackingを避けるために,統計解析を考えてから実験デザインを考えることが大切です.

p-hackingとは?

教育・経験・先入観など,何らかの影響を受けて偏ってしまうことを「バイアスがかかる」と言います.

そして,p-hackingはバイアスの1つです.

具体的には,研究者が複数の統計解析を試し,有意な結果が得られたものを選択的に報告する行為を指します.

加えて,研究者が複数のデータを吟味し,有意な結果が得られるものを選択的に採択する行為もp-hackingとされています.

研究者の主観によってデータや解析方法が選択されるので,p-hackingを “selective reporting” と言う人もいます.

例えば,以下のような経験はありませんか?

  • 群分けを解析後に再考する.
  • 外れ値を含めるかどうかの判断を解析途中で行う.
  • 「有意差あり」なった時点で,データ収集を止める.
  • 実験期間の途中でデータ収集を続けるかどうかを判断する.
  • 沢山の観察項目を記録し,解析後どれを報告するかどうかを決める.

これらは,全てp-hackingまたはその原因となる行為です.

捏造行為にも該当するものも一部含まれていますね(笑).

p-hackingを避ける方法

p-hackingの最大の原因は,実験が終了してデータがそろってから検定方法を考えることです.

別の記事で, 実験に必要なサンプル数についてまとめましたが,実験が終了から検定方法を考えると,適切なサンプル数を考える機会をスキップしてしまいます.

すると,本来なら有意差が得られたかもしれない実験でも「有意差なし」という結論になることがあります.

そして,研究者は「有意差なし」が「有意差あり」になるまでデータ収集を続けるという悪循環にハマっていくのです(笑).

だから,p-hackingを避ける方法は,統計解析を考えてから実験デザインを考えることなんです!

スポンサーリンク

統計解析を考えてから実験デザインを考える

最後に「統計解析を考えてから実験デザインを考える」ついて,具体的に考えてみましょう!

私は,群間の平均値に差があるかどうかを検定することが多いので,その観点からまとめます.

私の経験上,実験前に考えるのは以下の4つです.

  1. あなたは,何と何と比較したいのですか?
  2. 適切なサンプル数はどのくらいですか?
  3. 外れ値の扱いはどうしますか?
  4. 検定方法は?

何と何と比較したいのか?

コントロール群と処置群の2群で,平均値に差があるかどうかを検定したいのか?

それとも,コントロール群・A群・B群・・・N群のように3群以上で,平均値に差があるかどうかを検定したいのか?

統計解析では,2群と3群以上では大きな違いがあります.

なぜなら,統計検定は2群の方が3群以上よりも有意差が出やすいからです.

だから,コントロール群・A群・B群の3群の実験よりも,コントロール群とA群の実験・コントロール群とB群の実験の2つの実験に分けた方が都合は良いのです!

でも,デメリットもありますよ!

用意するコントロール群が多くなりますから,実験にかかる費用・時間・労力などのコストが増えます.

統計検定上のメリットを取るのか,コスト面のメリットを取るのか,実験を始める前にしっかり考えましょう!

この前提を無視して勢いで3群以上の実験を行うと…

 

統計解析で有意差が出ない

統計解析の方法やデータの採択を見直す

または

「有意差なし」が「有意差あり」になるまでデータ収集を続ける

 

というp-hackingループに陥ります.

適切なサンプル数はどのくらいか?

詳細は,以下の記事にまとめました.

実験に必要なサンプル数の考え方【n=3とは?】
実験に必要なサンプル数の "n=3" を説明できますか?1つのサンプルを3つに分けることを "n=3" と勘違いしている人は多いですね.本記事は,統計解析に必要なサンプル数の考え方をまとめています.

外れ値の扱いはどうするの?

外れ値を含めるのか,それとも除外するのか?

この違いは統計検定に大きな影響を与えます.

外れ値を除外する場合は「どういった基準で除外するのか?」を事前に決めておきましょう!

個人的には,実験操作での異常*が発生しない限りは,外れ値を除外しない方が良いと思いますが.

*これまで私が経験した実験操作の異常は以下の通りです.

  • サンプルを間違ったウェルにアプライした.
  • 実験中に地震が発生し,プレートがひっくり返った.
  • CO2インキュベーターに異常が発生し,緩衝系が維持されなかったという懸念があった.

検定方法は?

パラメトリック検定をするのか?

それともノンパラメトリック検定をするのか?

これらの詳細を事前に決めておきます.

私は,コントロール群と処置群の2群で平均値に差があるかどうかを検定したい時,以下のことを事前に決めておきます

  • 正規分布するかどうかを歪度と尖度で判定する.
  • 正規分布するならt検定で,正規分布しないならMann–Whitney U検定を行う.

または

  • 正規分布のするかどうかに関係なく,Mann–Whitney U検定を行う.

もっと勉強したい方へ

  • 統計解析を考慮した実験計画立案の基礎が学べます.

  • MOTULSKY, Harvey J. Common misconceptions about data analysis and statistics. Journal of Pharmacology and Experimental Therapeutics, 2014, 351.1: 200-205.
  • HEAD, Megan L., et al. The extent and consequences of p-hacking in science. PLoS Biol, 2015, 13.3: e1002106.

以上,統計解析を考えてから実験デザインを考えることの重要性についてまとめました.

最後までお付き合いいただきありがとうございました.

次回もよろしくお願いいたします.

2020年10月11日 フール

error: Content is protected !!
タイトルとURLをコピーしました