名義変数のデータが2項目ある場合はどうすれば良いのかな?
本記事は,このような「なぜ?どうして?」にお答えします.
本記事の内容・2×2の分割表の活用の仕方
・Excelでカイ二乗分布の確率を求める方法
こんにちは.
博士号を取得後,派遣社員として基礎研究に従事している元研究者のフールです.
理論や定義よりも実際にどういう操作・入力をするのかを知りたい!
そんな方に向けて,実験データの具体的な解析方法の記事を執筆しています.
今回もデータが名義変数の場合ですが,本記事では観察対象が2つある場合についてまとめます.
観察対象が2つある場合とは,同一個体における2つの項目を観察する場合です.
例えば,生存と死亡・陽性と陰性の組合せですね!
それを名義変数ごとに整理して表にすると,次のような2×2の分割表*ができます.
検査Aが陽性 | 検査Aが陰性 | |
生存 | 22 | 6 |
死亡 | 52 | 26 |
*数値は適当に埋めました.
公衆衛生の疫学分野の報告では,このような表を見ることが多いですね.
上記で言えば,検査Aの陽性・陰性と生存・死亡の間に関連があるかを調べたいから調査を行うのですが…
それでは,このデータをどう解析すれば良いのでしょうか?
本記事では,2×2の分割表の活用法をまとめます.
本記事を読み終えると,名義変数のデータが2項目あっても臆することなく解析ができるようになりますよ!
サマリー・名義変数のデータが2項目ある場合は,2×2の分割表を作りましょう.
・データ間に対応はあるのかを考えましょう.
・期待値はいくつかを計算しましょう.
2×2の分割表の活用
今回は架空のデータを作りました.
GoToキャンペーンとCOVID-19の関連を考えてみましょう!
「GoToキャンペーン介入は,新型コロナウイルス感染症患者を増加させる?」という仮説を立てて観察調査を行ったと仮定します.
その結果*は次のようになりました.
新型コロナウイルスの感染者 | 新型コロナウイルスの非感染者 | |
GoTo事業利用者 | 24 | 5 |
GoTo事業非利用者 | 27 | 53 |
*架空のデータです.
果たして,GoToキャンペーン介入と新型コロナウイルス感染症の患者数の間には関連があるのでしょうか?
解析を行う前に考えること
これまで同様に,いきなり解析を行おうとしてはいけません.
その前に考えることが2つあります.
- データ間に対応はあるのか?
- 期待値はいくつか?
2×2の分割表による解析にも色々あり,その違いを理解して使い分ける必要があります.
そして,上記2つに対する答えが,その使い分けを判断するのに重要なのです.
それを表にまとめました!
名義変数の検定 | マクネマー法 | カイ二乗検定 | Fisherの直接検定 |
データの特徴 | 名義変数 | 名義変数 | 名義変数 |
データの種類 | 2種類 | 2種類 | 2種類 |
データ間の対応 | 有り | 無し | 無し |
期待値 | – | >5 | <5 |
データ間の対応
「データに対応がある場合」とは次のような場合です.
-
- 同一個体における1つの項目を2つの方法で観察する場合
- 性別・年齢・職業などをマッチングした調査の場合
逆に「データに対応が無い場合」とは次のような場合です.
-
- 同一個体における2つの項目をそれぞれの方法で観察する場合
今回の場合,GoTo事業利用の有無と新型コロナウイルスの感染の有無は全く異なった項目なので,対応はありません.
期待値(期待度数)
期待値(期待度数)は,それぞれの項目が互いに独立である(関連が無い)と仮定したときに,各々の結果の起こりやすさを数値化したものです.
Excelで次のような数式を入力して保存しておけば,いつでも計算可能ですよ!
計算結果は次の通りです.
陽性 | 陰性 | |
利用 | 13.6 | 15.4 |
非利用 | 37.4 | 42.6 |
今回は,全ての期待値が5以上でした.
以上より,採用する解析方法はカイ二乗検定になります!
カイ二乗検定の実施
さて,いよいよ本題!
ちなみに,カイ二乗検定の検定手順は次の通りです.
- 設問:「GoToキャンペーン」と「新型コロナウイルス感染症の患者数」の関連を調べる.
- 帰無仮説:「GoToキャンペーン」と「新型コロナウイルス感染症の患者数」は互いに独立である(関連がない).
- 対立仮説:「GoToキャンペーン」と「新型コロナウイルス感染症の患者数」は独立ではない(関連がある).
- データを集める.
- 帰無仮説が正しい確率pを算出する.
- 確率pと有意水準αを比べる.
- 結論を考える.
Excelにはカイ二乗分布の確率を求める関数式がありますので,計算は簡単ですよ!
確率pは0.00000586でした.
有意水準(α=0.05)よりも小さいですね!
これは有意水準5%で帰無仮説を棄却することを意味します.
だから,対立仮説の「『GoToキャンペーン』と『新型コロナウイルス感染症の患者数』は独立ではない(関連がある)」を採用することになります.
すなわち,新型コロナウイルス感染者は,非感染者と比較してGoToキャンペーン利用者が有意に多いということになります*.
*あくまでも架空のデータ上の話です.
もっと勉強したい方へ
- 4step エクセル統計
計算式の入力をすることなく,統計解析ができる本です.ツールとして統計を求めている人には最適だと思います.
- 医統計テキスト
医療関係者向けの生物統計学の教科書です.少し古いですが,例題も多く,また数学が嫌いな人でも読み進めることができると思います.
- バイオサイエンスの統計学
自然科学で使うことが多い検定法を解説している本です.こちらも少し古いですが,誤った解析例も載っているため検定の正しい使い方を学べます.
データが名義変数且つデータの種類が2つの場合の統計解析方法をまとめてみました.
次回は,Fisherの直接検定の方法をまとめますね!
最後までお付き合いいただきありがとうございました.
次回もよろしくお願いいたします.
2021年3月7日 フール