回帰分析と相関分析は違うもの【因果関係の有無とX軸・Y軸】

回帰分析と因果関係
この記事は約7分で読めます。

回帰分析と相関分析は違うもの【因果関係の有無とX軸・Y軸】

 

ELISAの結果から,タンパク質濃度の検量線を作成したんだけど…先生にX軸とY軸が逆って言われた.どういうこと?

本記事は,このような「なぜ?どうして?」にお答えします.

 

こんにちは.

博士号を取得後,派遣社員として基礎研究に従事しているフールです.

先ずは以下のやりとりをご覧ください.

 

ELISAは上手くいきましたか?

 

タンパク質の濃度は定量できましたか?

 

はい!

 

検量線もキレイで,フィッティングも問題ありませんでした!

 

それは素晴らしい!

 

グラフを見せてくれますか?

 

これが結果です!

吸光度がX軸の回帰分析

 

なんで,X軸に吸光度をプロットしているの?

 

その方が計算しやすいからです!

 

これは,因果関係があるプロットなんだから,「ラクだから」という理由で形を変えたらダメですよ!

 

えっ!なんで?

 

皆さんは,ELISA法やBCA法などでタンパク質濃度を測定したことはありますか?

濃度既知のタンパク質から得られた吸光度を使って,検量線を作成し得られた回帰直線にサンプルの吸光度を当てはめてサンプルのタンパク質濃度を推定するという方法です.

ココには,「濃度xのタンパク質は吸光度yを示す」という関係が成立します.

「吸光度yを示すサンプルのタンパク質濃度は濃度x」ではありません!

だから,X軸に吸光度をプロットしてダメなんです.

タンパク質の濃度測定に限った内容ではありませんが,今回にように因果関係がある場合の解析で,このようなミスは多い気がします.

たぶん,因果関係と相関関係がごっちゃになっているんでしょうね(笑).

この記事では,タンパク質の濃度測定を例に,因果関係がある時のX軸とY軸の取り扱いについてまとめました!

本記事を読み終えると,回帰分析と相関分析は違うものだと分かりますよ!

 

サマリー・回帰分析は,因果関係がある場合に行います.

・因果関係がある場合は,原因と結果を区別する必要があります.

・因果関係があるデータの散布図では,x軸に原因を,y軸に結果をプロットします.

回帰分析の総論

原因となる事象Aがあり,その結果がBであるみたいな因果関係がある場合に回帰分析を使います.

例えば,ステーキの重さとその価格について考えてみましょう!(今日は「いきなりステーキ」に行きたい気分なので(笑).)

オーダーステーキの重さ(g)価格(¥)
1100598
2150900
31701015
41901150
52001250
62401400
72501500
82701680
93001820
104502630

ステーキの重さが増えれば,当然,その価格も増えます.

この場合は,ステーキの重さが事象Aで,ステーキの価格が結果Bです.

そして,ステーキの重さに対して,その価格をプロットすると以下のようになります.

ステーキの重さとその価格

ステーキの重さとその価格の間には,直線関係がありそうですね!

つまり,1次関数(y = ax + b)で説明できそうってことです!

上記の関係から “a” と “b” を求めることができたら,ステーキの重さとその価格の関係を定量的に示すことができると思いませんか?

この “a” と “b” を求めることが回帰分析です!

回帰分析の注意点

「因果関係がある場合」と書きました.

回帰分析を使う場合は,原因と結果をしっかり区別しなければなりません

つまり,ステーキの重さとその価格を交換した図(以下参照)を作ってはダメなんです!

見た目は似ているんですけどね(笑).

 

ステーキの重さとその価格

スポンサーリンク

タンパク質の濃度測定の回帰分析

さて,冒頭のやりとりであるタンパク質の濃度測定に戻りましょう!

簡単にプロトコールをまとめると…

  • ELISA法で,濃度既知のタンパク質の吸光度を測定します.
  • 得られた吸光度を使って,検量線(y = ax + b)を作成します.
  • 検量線の “a” と “b” を求めて,得られた回帰直線にサンプルの吸光度を代入します.

タンパク質濃度と吸光度の間には,「濃度xのタンパク質は吸光度yを示す」という関係が成立していますね!

これは,決して,「吸光度yを示すサンプルのタンパク質濃度は濃度x」という意味ではありません!!

だから,X軸に吸光度をプロットした以下の図は誤りですし,その回帰分析で得られたサンプルの濃度の推定も誤りです.

吸光度がX軸の回帰分析

計算がしやすい?

さて,気になるのは,男の子の以下のセリフです.

 

その方が計算しやすいからです!

 

これはどういう意味かというと…

実験で得られるのは吸光度ですね.

だから,X軸に吸光度をもってくると,得られた回帰直線(y = 312.76x – 5.0148)の “x” に吸光度を代入するだけで良いのです.

だから,「計算しやすい」んですね(笑).

ただ,繰り返しますが,このようなやり方は誤りですよ!

正しいやり方は?

それでは,今回の場合はどのようにするべきなのでしょうか?

先ずはX軸にタンパク質濃度をプロットした図を作成します.

タンパク質濃度がX軸の回帰直線

そして,得られた回帰直線(y = 0.0032x + 0.0164)を変形します.

"y = 0.0032x + 0.0164" ☞ "x=(y-0.0164)/0.0032"

最後に, “y” へ吸光度を代入してサンプルのタンパク質濃度を算出します.

式の変形があるので,確かに計算しにくい側面はありますね(笑).

相関分析

回帰分析について簡単にまとめてきましたが,それでは相関分析とは何が違うのでしょうか?

2つの数値データがあって,その関係を調べることを相関分析といいます.

例えば,「ゲームする時間と学校の成績」とか「年収と1週間に行う運動回数」などですね.

回帰分析との大きな違いは,原因と結果を区別していないことです!

だから,散布図を作成するときもX軸とY軸を厳密に区別する必要もありません!

そもそもどっちが原因で,どっちが結果なのか,よく分からないことが多いですから.

でも,「2つの間には関係性がありそうだ」って時に相関分析を行います.

相関関係の嫌な思い出

私が中学・高校生の頃,母はよく以下のようなことを言ってました.

 

本をたくさん読むと,成績がよくなるんだから,読書をいっぱいしなさい.

 

ゲームばっかりすると,頭が悪くなるからやめなさい.

 

早寝早起きはできない人は,だらしない大人になるんだって.

 

私の母は教育熱心(?)だったので,上記のような言葉は,耳に胼胝ができるほど聞きました(笑).

その当時は何も感じず,ただ「うるさい」と思っていたのですが(笑),大学や大学院で因果関係と相関関係について勉強したときに思いました.

 

読書をしたから成績が上がるのか?それとも成績が良い奴がたまたま読書好きってだけなのか?

 

頭が良い人がゲームばかりしたら頭が悪くなったのか?それとも頭が悪い奴が,たまたまゲームばっかりしているだけなのか?

 

早寝早起きが出来ないからだらしない人間になるのか?それともだらしないから早寝早起きができないのか?

 

屁理屈のように聞こえるかもしれません(笑).

それでも,この視点は重要だと思います.

その関係に因果関係があるのか?

それとも単なる相関関係なのか?

当時,母がどの情報をどうように解釈して,上述の指導(?)をしていたのかは分かりません.

ただ,教育に関する情報や傾向は,因果関係に基づくデータが少ないと感じています.

スポンサーリンク

以上,因果関係の有無とX軸・Y軸の取り扱い【まとめ】でした.

最後までお付き合いいただきありがとうございました.

次回もよろしくお願いいたします.

2020年8月11日 フール