標準偏差(SD)と変動係数(CV)の違いと使い分けは?

標準偏差(SD)と変動係数(CV)の違いって何ですか?どっちもバラつきの指標だよね?
本記事は,このような「なぜ?どうして?」にお答えします.

こんにちは.
博士号を取得後,派遣社員として基礎研究に従事している元研究者のフールです.
皆さんは,実験データのバラつきを確認したい時にどうしてますか?
標準偏差(SD)を見る人が多いと思います.
それでは,変動係数(Coefficient of variation [CV])はどうでしょうか?

CVも同じく実験データのバラつきを確認する統計量です.
実は,確認する対象や目的によっては,SDよりもCVの方が有効な場合があるんですよ!
なぜなら,SDでは単位が異なるデータの比較が困難だからです.
この記事では,標準偏差(SD)と変動係数(CV)の使い分けについてまとめました.
本記事を読み終えると,標準偏差(SD)と変動係数(CV)の違いとその使い分けができるようになりますよ!
サマリー・標準偏差(SD)は,1種類のデータのバラつきを確認できる指標です.
・変動係数(CV)は,異なる単位を持つ2種類以上のデータのバラつきを比較できる指標です.
標準偏差(SD)
標準偏差(SD)は,実験データ(測定値)のバラつきを示す指標です.
個々の実験データが,その平均値からどのくらい離れているのか(どのくらい散らばっているのか)を示しています.
詳細は,以下の記事でまとめていますので,ご覧ください.
標準偏差(SD)と標準誤差(SE)の違い【SD vs. SE】
分散と標準偏差
個々の実験データのバラつきを示す指標として,標準偏差を二乗した「分散」があります.

正確には,分散の平方根が標準偏差です.
ココでは,分散と標準偏差の使い分けについて簡単にまとめます.
「個々の実験データが,その平均値からどのくらい離れているのか」を知りたいので,個々の実験データから平均値を引くという作業があります.
そして,その差を全て足すとバラつきの総和を求めることができます.

問題は,個々の実験データがその平均値よりも大きい値もあれば小さい値もあるってこと.
当然と言えば当然ですが,そのお陰でバラつきの総和は0になります.
これでは実験データのバラつきを確認することができないので,差を二乗して足すことでバラつきの総和を求めました.
このバラつきの総和を自由度(「データ数」-1)で割った値が分散です*.
分散も個々の実験データのバラつきを示す指標ですが,その算出式から「バラつきの二乗」を意味しています.

つまり,次元(単位)が変わっているのです.
「個々の実験データが,その平均値からどのくらい離れているのか」を示すという性質上,平均値と同じ次元(単位)に合わせたいですよね?
だから,分散の平方根を計算して「標準偏差」を求めています.
*母集団ではなくサンプルのバラつきを考慮しているため,「データ数」ではなく「自由度」を用いるのが一般的です。
分散と標準偏差の使い分け
分散と標準偏差の使い分けの指標は次の通りです.
- 分散は,理論的な解析や計算の過程で使用
- 標準偏差は,実務的な解釈や結果の報告で使用
分散は,統計モデル(ANOVAや回帰モデルなど)でデータの変動要因を分析する際に便利ですよね!
一方,標準偏差は結果の解釈・報告に適していますよ!
特に,単位の解釈が重要な場面(例えば,実験の測定値や変動幅の報告)では,標準偏差が好まれると感じます.

まとめると,計算やモデルの構築に使う場合は分散で,単位のある数値を解釈したい場合は標準偏差って感じですね!
変動係数(CV)
変動係数(Coefficient of variation [CV])も実験データ(測定値)のバラつきを示す指標です.
正確には,CVは実験データ(測定値)のバラつきを比較するときに使う統計量です.

CVは,以下の数式で求めることができすよ!
CV = 標準偏差 ÷ 平均値 × 100 (%)
平均値と標準偏差は同じ次元(単位)なので, “標準偏差 ÷ 平均値” で単位が相殺されます.
つまり,CVは単位は存在しません.

だから,単位が異なる実験データのバラつきを比較することができるんです!
例えば,以下の2種類のデータを考えてみましょう.
① 牛の体重の平均と標準偏差:500 ± 60 kg ② 牛の体長の平均と標準偏差:190 ± 35 cm
この2つのデータのバラつき(変動)を標準偏差で比較しようとしても,単位が異なるので比較できません.
そこでCVを求めます.
- 牛の体重のCV:60 ÷ 500 × 100 = 12.0%
- 牛の体長のCV:35 ÷ 190 × 100 = 18.4%
単位が相殺されているので数値だけの比較が可能となり,体長の変動が大きいことが分かりました!
CVの注意点
CVは単位が相殺されるため,異なる単位のデータのバラつき比較に有効です.
ただし,注意点もありますよ.
平均値がゼロや非常に小さい場合,CVの値が異常に大きくなり,適切な指標ではなくなります.
この場合は他の指標を検討する必要がありますね.
同じ実験を繰り返す
CVは,同じサンプルを同一条件で繰り返し測定した場合の比較にも有効ですよ!
この場合のCVは,実験の再現性(実験者の手技の安定度)を示しています**.

例えば,化合物のスクリーニングを行う場合を考えてみましょう!
私は,30000くらいの候補化合物から期待する効果・効能をもつ候補化合物をスクリーニングするという業務を担当したことがあります.
実験系としてはELISAだったのですが,その時は96-wellプレートだったので,400枚分くらいの実験データを比較していました.
ポジティブコントロール(PC)とネガティブコントロール(NC)は同じ物を使っているので,実験手技が安定しているかどうかを,PCとNCのCVで確認していました.

400枚もあったので,PCまたはNCのCVが大きくなりすぎてしまい,やり直したプレートも多数ありましたが…今ではそれも良い思い出です(笑).
**測定の「再現性」を評価しています.測定結果がどれだけ真の値に近いかを示す「正確性」とは異なります.
以上,標準偏差(SD)と変動係数(CV)の使い分けでした.
最後までお付き合いいただきありがとうございました.
次回もよろしくお願いいたします.
2020年9月26日 フール