ボックスプロットの見方と使い方【箱ヒゲ図の見方と使い方】
ボックスプロット(箱ヒゲ図)の見方と棒グラフとの使い分けがわかりません.
本記事は,このような「なぜ?どうして?」にお答えします.
こんにちは.
博士号を取得後,派遣社員として基礎研究に従事しているフールです.
皆さんは,ボックスプロット(箱ヒゲ図)を使っていますか?
平均値を示す図としては棒グラフや折れ線グラフを使うことが多いので,見たことはあっても使ったことは無いって人もいるでしょう.
でも実は,データによってはボックスプロット(箱ヒゲ図)の方が良いこともあるんですよ!
この記事では,ボックスプロットの見方と使い方をまとめました.
本記事を読み終えると,あなたが実験データをまとめる時にボックスプロットを使いたくなりますよ!
サマリー・ボックスプロットは,データのばらつきを表現するためのグラフです.
・外れ値を含むデータの分布を示すことができます.
・正規分布が仮定できないデータの場合に使うと説明がしやすく便利です.
ボックスプロット(箱ヒゲ図)とその見方
ボックスプロット(箱ヒゲ図)は,箱の上下にエラーバーみたいなヒゲが付いた図です.
箱の一番上が第3四分位点(75%点),箱の中のラインが第2四分位点(中央値または50%点),箱の一番下が第1四分位点(25%点)です.
第3四分位点(75%点)と第1四分位点(25%点)の差を四分位範囲(Inter quarter range [IQR])と呼びます.
そして,第3四分位点(75%点)からIQRの1.5倍の長さの範囲に存在する最大値がヒゲの上端になり,第1四分位点からIQRの1.5倍の長さの範囲に存在する最小値がヒゲの下端になります*.
ボックスプロットではヒゲの外側に位置するデータを外れ値として示すこともできます.
また,中央値とは別にデータの平均値を示すことも可能です.
中央値が箱の真ん中にあり(平均値と中央値がほとんど同じ),ヒゲの上端・下端や外れ値の位置もおおむね左右対称の場合,そのデータは正規分布していると仮定できますね!
上の図では,Group AおよびBともに概ね正規分布していると言えるでしょう.
一方で,中央値が箱のどちらかに偏っていたり,ヒゲの上端・下端や外れ値の位置が左右非対称の場合,そのデータは正規分布していると仮定できません!
ボックスプロットは,平均値・中央値・四分位範囲からデータのばらつき具合を確認することができるので,意外と情報量が多いグラフなんですよ!
*ヒゲの位置の決め方はいくつかの流派(?)があり,データの最大値を上端・最小値を下端にする方法もあります.
ボックスプロット(箱ヒゲ図)の使い方
データが正規分布している場合は,棒グラフや折れ線グラフでも良いかもしれません.
ただ,データの分布が歪んでいるような場合にはボックスプロット(箱ヒゲ図)で表現することをオススメします.
なぜなら,棒グラフや折れ線グラフのエラーバーは「正規分布している場合」に使用するからです.
以下は,牛の中和抗体価の図です.
抗体価のように実験データの値が倍に増える(極端な増加・減少がある)場合は,正規分布を仮定できないことが多いです.
上の図も,中央値は箱の下側に偏り平均値と離れています.
加えて,外れ値の分布も左右対称ではありません.
このようなデータを平均値を示す棒グラフや折れ線グラフで表現すると読者に誤解を与える原因となります.
ゼロを含むから?
棒グラフとボックスプロットの使い分けに関して,実験データが “0” を含むかどうかで判別する人がいます.
つまり,棒グラフだと最小値が “0” に見えるということですね.
言われてみるとそんな気がしますし,そのような解釈もできると思います.
ただ,そういう理由が棒グラフとボックスプロットの使い分けに該当するのかどうかは分かりません.
まだまだ私も勉強不足ですね(笑).
詳細が分かったら,コチラに追記しますね!
最後までお付き合いいただきありがとうございました.
次回もよろしくお願いいたします.
2020年11月1日 フール