エラーバーの種類と使い分け【標準偏差(SD)/標準誤差(SE)/信頼区間(95% CI)】

「エラーバー」って1種類ではないんですね.
何種類あるんですか?使い分けはあるんですか?
本記事は,このような「なぜ?どうして?」にお答えします.

こんにちは.
博士号を取得後,派遣社員として基礎研究に従事している元研究者のフールです.
皆さんは,エラーバーって聞いて何を思い浮かべますか?
- 標準偏差(SD)
- 標準誤差(SE)
- 95%信頼区間(95% CI)
実は,これらは全部「エラーバー」なんですよ!

最近,SDまたはSEだけをエラーバーだと思っている人は多いと気付きました.
だぶん,それを見る機会が最も多いからだと思います.
でも,「SDまたはSEだけをエラーバー」って思いこむのはダメですよ!
なぜなら,どのエラーバーを使うかによって,グラフが示す意味は変わるからです!

データにエラーバーを付与する時は,それによって「何を示したいのか?」を常に意識するようにしましょう!
この記事では,エラーバーの種類と使い分けをまとめました.
本記事を読み終えると,グラフを描くときのエラーバーの選び方が変わりますよ!
サマリー・エラーバーには3種類あります.
・データのバラつきを示す時は,平均値±SDで表現しましょう.
・母集団の平均値を推定する時は,平均値±SEで表現しましょう.
・母集団の平均値が存在する範囲を示したい時は,平均値±95% CIで表現しましょう.
エラーバーの種類
冒頭でも書きましたが,エラーバーには3種類あります.
- 標準偏差(Standard deviation [SD])
- 標準誤差(Stanard error [SE])
- 95%信頼区間(95% Confidence interval [CI])
この内,SDとSEに関しては別の記事でまとめていますので,そちらをご覧ください.
SEと点推定
SE(正確にはSEM)は,標本平均のばらつきを表す値でしたね.
母集団から無作為に抽出した標本の平均値がどれだけばらつくかを示す指標で,母集団の平均値を推定する際の誤差の大きさを表しています.
そして,平均値±SEで,母集団の平均値を推定することができます.
これを点推定と言いますよ.
95%信頼区間(95% CI)と区間推定
点推定は母集団の一部(標本)からの推測なので,母集団の平均値とはズレている可能性もあります.
そこで,母集団の平均値が含まれる範囲を推定する方法があります.
それを区間推定って呼び,その区間(範囲)が95% CIです.
“95%” の意味
95%信頼区間とは,同じ条件で100回サンプリングを繰り返した場合,そのうち95個の信頼区間に母平均が含まれるという意味です.
つまり,
- 母集団から標本を無作為に抽出する
- その平均値とSEから95% CIを求める
- 1と2を100回繰り返す
- 100個の平均値と100個の95% CIが得られる
この時,100個の95% CIの内95個はその区間の中に母平均を含むって意味です.
時々「区間が母平均を含む確率が95%」って説明する人がいますが,違いますよ(笑).
母平均を含む区間(範囲)が得られる確率が95%ってことです.

ややこしいなぁ.

こればかりは仕方ありません.
覚えてください(笑).
エラーバーの意味
それでは,それぞれエラーバーをどう使い分けるのでしょうか?
これから1つずつまとめていきますね!
平均値±SD
母集団から抽出した標本(サンプル)データのバラつきを示したい時に使います.
サンプルデータが正規分布に従っている場合,平均値±SDはデータの約67%(2/3)がその範囲にあることを意味します.
平均値±SE
標本(サンプル)データから母集団の平均値を推定する時に使いますよ.
平均値±SEの範囲が狭いほど,標本のばらつきが小さく,母集団平均の推定がより精密であることを意味します.
平均値±95% CI
標本(サンプル)データから母集団の平均値が存在する範囲を推定する時に使います.
平均値±95% CIの範囲が狭いほど,母集団平均の推定がより精度が高いと言えますね.
エラーバーと有意差の有無

エラーバーが重ならないから,この群間には有意差があるぞ!
時々,このようなことを言う先生(上司)を見かけます.
実はこれは,正しくもあり,間違いでもあります.
どういう意味かというと…
エラーバーが95% CIの時(平均値±95% CIで表現されている時)は「有意差がある」って言えますが,エラーバーがSDまたはSEの時は「有意差がある」とはいえません!
だからこそ,そのグラフのエラーバーが何を示してるのかをしっかり書く(説明する)必要があります!
それでも統計的検定は必要

エラーバー「平均値±95% CI」で表現されているときは,検定がいらないってことですよね?

それは違いますね!ごめんなさい.ちょっと誤解を与える言い方をしちゃいましたね.
エラーバーが95% CIで,異なる群間のエラーバーが重ならない場合,統計的に有意な差があります(その可能性が高いです).
ただ,正式に有意差の有無を確認するためには,t検定やANOVAなどの統計的検定を行う必要がありますよ.
エラーバーの存在は大切
ちなみに,雑誌の投稿規定やガイドラインではエラーバーについて言及している場合があります.
例えば,以下は Nature のものです.
Clear labelling
• Error bars are present on all graphs, where applicable.
• All error bars are clearly labelled.
できる限りエラーバー書くこととそのエラーバーが何を示しているのか明記することが書かれていますね!
Nature に限らず,その他の雑誌でも指定しているのではないでしょうか?
たとえ書かれていなかったとしても,エラーバーの表記とエラーバーの名称を記述することは科学的に重要ですし,読者にとっても親切です.
必ず書きましょうね!
もっと勉強したい方へ
Nature Statistical checklist
http://image.sciencenet.cn/olddata/kexue.com.cn/upload/blog/file/2010/12/2010128212513557501.pdf

最後までお付き合いいただきありがとうございました.
次回もよろしくお願いいたします.
2020年2月1日 フール