データ解析で,いつもと同じように平均値,SD/SE,95%信頼区間を算出したら,先生に怒られた…何で?
本記事は,このような「なぜ?どうして?」にお答えします.
こんにちは.
博士号を取得後,派遣社員として基礎研究に従事しているフールです.
皆さんは,実験データを解析する時に何をしていますか?
当たり前のように,平均値・標準偏差(または標準誤差)・95%信頼区間などを計算していませんか?
実は,この方法は正しいときもあるのですが,間違っていることもあるんです!
なぜなら,平均値や95%信頼区間などは,実験データが正規分布する場合に使う指標だからです.
統計書の中には,膨大な実験データがあることを前提とする場合も多いです.
実験データが大量にある場合は,実験データの平均値が真の平均値に近づき,その分布は正規分布する*ので,平均値や95%信頼区間でそのデータをまとめても問題ありません.
しかし,大半の実験者が取り扱うサンプル数は,多くても3~50くらいではないでしょうか?
こういう場合は,形式的なデータの取り扱いをしてはいけません!
そこで記事では,私が実験データを解析する前に必ず確認していることをまとめました.
本記事を読み終えると,明日以降,実験データの取扱が楽しくなりますよ!
ただし,私の経験則に基づく内容なので,絶対ではないことはご了承ください.
*大数の法則および中心極限定理
サマリー・実験データには,3つの種類があります.
・実験データが正規分布するのかどうかを確認する時は,尖度と歪度を確認しましょう!
実験データの種類
本題に入る前に,実験データの種類について軽くまとめます!
実験データには,3つの種類がありますよ↓
① 順序変数:スコア値など ② 名義変数:生死の判定や性別など ③ 間隔変数:身長・体重・血圧・抗体価などなど
ココでは,これらの詳細はまとめません.
ただ,本記事で取り扱うのは,実験データが間隔変数の場合です!
私が実験データを解析する前に確認する15個の数値
それでは本題です.
私が実験データを解析する前に必ず確認する15個の数値があります.
それはコチラ↓
① データの個数 ② 最大値 ③ 最小値 ④ データの範囲 ⑤ 合計値 ⑥ 平均値 ⑦ 中央値 ⑧ 最頻値 ⑨ 標準偏差 ⑩ 分散 ⑪ 標準誤差 ⑫ 第1四分位数 ⑬ 第3四分位数 ⑭ 尖度 ⑮ 歪度
1つずつ説明していきますね!
データの個数
その名の通りです.
統計書では「標本数」と書かれることが多い気がします.
実験データの個数は,標準誤差や95%信頼区間を算出する上で,とても重要です.
なぜなら,標準誤差を算出する式は「標準偏差÷√(データの個数)」だからです.
標準誤差は,実験データの数によって変わるんです.
95%信頼区間は,標準誤差の値を使うので,やはり実験データの数の影響を受けますね!
最大値
その名の通りで,実験データの最大値です.
最小値
こちらも説明は要りませんね.
その名の通りで,実験データの最小値です.
データの範囲
最大値と最小値の差のことを「データの範囲」と呼びます.
合計値
合計値とは,実験データの総和のことです.
平均値
特に説明がない時の「平均値」は,算術平均(全データの和をデータの個数で割ったもの)を指すことが多いですね.
中央値
データを小さい値から大きい値へ順に並べた時に,その中央に位置する数値データです.
第2四分位数(Q2)と言う人もいますが,「中央値」という言う方が一般的でしょう.
データの個数が偶数の場合は,中央に位置する2個のデータの平均値になります.
最頻値
実験データの中で,最も頻度の多い数です.
標準偏差
母標準偏差・標本標準偏差・不偏標準偏差の3つがあって,母集団または実験データのバラつきを表します.
実験データのバラツキに関心があるなら,標本標準偏差を使いましょう!
母集団のバラツキに関心があるなら,不偏標準偏差を使いましょう!
ちなみに母標準偏差は,全数調査をしないとわかならいので,通常は知ることができません.
詳しくはコチラ↓
分散
母分散・標本分散・不偏分散の3つがあります.
標準偏差と同じく,母集団または実験データのバラつきを表します.
実験データのバラツキに関心があるなら,標本分散を使おう!
母集団のバラツキに関心があるなら,不偏分散を使いましょう!
ちなみに母分散は,全数調査をしないとわかならいので,通常は知ることができません.
標準誤差
実験データの平均値のバラつきを表します.
詳細は,コチラをご覧ください.
第1四分位数(Q1)
データを値の大きい順に並べたとき,4等分する位置にくる値を四分位数といいます.
第1四分位数(Q1)は,下位のデータの中央に位置する値です.
ちなみに,第2四分位数は中央値と同じだよ.
第3四分位数(Q3)
こちらも四分位数です.
第3四分位数(Q3)は,上位のデータの中央に位置する値ですね.
なお,第4四分位数という言葉はありませんが,それに相当するのは最大値だね.
尖度
データの分布が,正規分布からどのくらい逸脱しているのかを示す指標です.
詳細は後述します.
歪度
「わいど」と読みます.
「尖度」と同じく,データの分布が正規分布からどのくらい逸脱しているのかを示す指標ですね.
こちらも詳細は後述します.
15個の指標を確認する方法
私が実験データを解析する前に確認している15個をお示ししました.
それでは,どうやってこれらの値を算出するのでしょうか?
大きくは2つあります.
① 統計解析ソフトウェアを使う ② ExcelまたはGoogleスプレッドシートを使う
①は簡単です.
実験データを入力したら,ソフトウェアが自動で算出してくれます.
色々な統計解析ソフトウェアがありますが,GraphPad Prism(グラフパッドプリズム)とかを使う人が多いのでしょうか?
使ったことがないので分かりません(笑).
私は,次に説明するExcelまたはGoogleスプレッドシート派です.
ExcelまたはGoogleスプレッドシートを使う
Excelの場合,分析ツールの中に「基本統計量」があるので,それを使えば簡単ですね!
データタブの右端に「データ分析」があると思うので,そこから基本統計量をクリックして,必要事項を入力してください!
Googleスプレッドシートを使う
私の知る限りGoogleスプレッドシートで基本統計量を出すツールは無いので,数式を入力するしかありません.
入力する数式は,ExcelもGoogleスプレッドシートもほぼ同じです.
最大値・最小値・中央値に関しては2通りの式を書いてますが,基本は上段でOKです!
ちなみに私は,基本統計量を使わず,いつも数式を入力しています.
基本統計量を使う場合,毎回範囲指定などが必要です.
しかし,数式を入力する方は,最初は非常に面倒ですが,1度入力すれば実験データを入力するだけで上記の15個を勝手に計算してくれます.
また「sheetをコピー」して使えば,シート内の関数もそのままコピーしてくれます(セルをコピーすることで生じるシート間をまたがった指定になることはありません.)
これがすごく便利なんですよ!
実験データが正規分布するのかどうかを確認する方法
さて,得られた実験データが正規分布するのかどうか?
これにより,今後の統計解析のやり方が変わってきます.
実験データが正規分布するのかどうかを確認する方法は,3つあります.
① 正規性の検定を使う ② ヒストグラムを書く ③ 尖度と歪度で判断する
正規性の検定を使う
実験データが正規分布しているかどうか検定する方法があります.
ただし,私はあまり使いません.
その理由は,以下の2つです.
- ExcelまたはGoogleスプレッドシートでは出来ないから.
- データ数が少ない(n < 30)場合,信頼できないから.
ヒストグラムを書く
これは,自分の目で見て正規分布するかどうかを確認する方法です.
Excelでは,ヒストグラムを書く機能もあるので,比較的簡単に作成できます.
ただし,扱う群数が多くなると大変です…
そんな時に私が見るのが,次に説明する尖度と歪度です.
尖度と歪度で判断する
尖度・歪度ともに,データの分布が正規分布からどのくらい逸脱しているのかを示す指標です.
尖度
尖度は,実験データの分布が尖っているのかをみる指標です.
文字通りに実験データが正規分布している場合,尖度=0となります.
でも,そんなことは非常に稀かな.
だから私は,尖度が-1.5~1.5の場合に正規分布しているという目安の下で実験データを見ています.
歪度
歪度は,実験データの裾野を見る指標です.
文字通りに実験データが正規分布している場合は歪度=0となりますが,尖度同様に,そのようなことは非常に稀です.
だから私は,歪度が-1.5~1.5の場合に正規分布しているという目安の下で実験データを見ています.
実験データの解析例
最後に,実験データの解析例をお示しします.
実験データの解析例①
30頭の子牛の体重を測りました.
各種統計量を計算してみた
尖度・歪度ともに-1.5~1.5の間なので,正規分布していますね!
この実験データをまとめるときは,平均値・標準偏差(または標準誤差)・95%信頼区間を使えば良さそうです!
ヒストグラムを書いてみた
念のため,ヒストグラムも書いてみました.
キレイとは言えませんが,正規分布していると言って問題ないでしょう!
実験データの解析例②
30頭の子牛の抗体価を測りました.
勘が鋭い方はお気付きかもしれませんが,実験データの値が倍に増えるケースなので厄介ですよ~
各種統計量を計算してみた
尖度・歪度ともに-1.5~1.5の範囲外なので,正規分布していませんね!
この実験データをまとめるときは,中央値や四分位数のQ1/Q3を使った方が良さそうです!
ヒストグラムを書いてみた
こちらも,ヒストグラムも書いてみました.
歪度の値が示すように右に長い尾を引く分布ですね~
実験データの解析例③
30頭の子牛の抗体価を,別の方法でまとめました.
「別の方法」とは,抗体価の対数を算出するというやり方です.
正規分布しない実験データの場合,「正規分布しない」と諦めるのも1つのやり方です(笑).
しかし,次に示すように実験データの対数(または逆数)を算出するというやり方もあるんです!
なぜなら,そうすることで正規分布に近似する場合があるからです.
各種統計量を計算してみた
尖度・歪度ともに-1.5~1.5の範囲に収まっているので,正規分布に近似できました!
またココでポイントは,平均値の扱いです!
そのまま抗体価の対数として扱い続けるならば,算術平均でも問題ありません.
しかし,抗体価の対数は,飼養管理の現場では扱いにくいものです.
そこで,今度は抗体価の対数の平均値の指数(幾何平均値)を算出します.
ExcelまたはGoogleスプレッドシートでは, “= exp (算術平均)” です.
ヒストグラムを書いてみた
さて,ヒストグラムはどうでしょうか?
やはり,キレイとは言えません.
それでも正規分布していると言って問題はないでしょう!
この実験データをまとめるときは,平均値・標準偏差(または標準誤差)・95%信頼区間を使えば良さそうですね!
以上,実験データを解析する前に確認することでした.
最後までお付き合いいただきありがとうございました.
次回もよろしくお願いいたします.
2020年8月8日 フール