【第18回】マイナスからはじめる生物統計学

回帰分析とは?

1. 回帰分析の目的:y = f(x)
 相関分析が2変数の「関係の強さ」を見るのに対し、回帰分析は一方の変数(説明変数x)からもう一方の変数(目的変数y)を予測するモデルを構築することを目的とします。最も基本的な形は、直線関係を仮定した線形回帰です。

 (血圧) = a + b × (年齢)
年齢が1歳増えたときに血圧はどれだけ変化するか?
・b>0のとき:年齢と共に血圧が上昇
・b<0のとき:年齢と共に血圧が下降

論文等で回帰分析の結果を記載する場合は、下記の情報は最低限必要になります。係数は点推定値だけではなく、95%信頼区間も併せて示す必要があります。下記の事例ですと、例えば20歳の人の血圧は、4×20+20=100ということになります。症例数が少ない場合には、この区間が非常に広くなってしまいますので、解釈には注意が必要です。


表1:区間推定は必須

余談になりますが、過去に私の講義に参加したクレーマー…もとい受講生が、このような質問をしてきました。
「ならば80歳の高齢者の血圧は4×80+20で340なのか!」
当然ですが、この場合には下限値を参照する必要があるでしょう。2×80+20=180で、あり得る数値ですね。この質問の前に、そもそもどのような症例を用いてこの式を求めたのでしょうか?10歳から90歳まで、様々な年齢層の値を用いていれば、95%信頼区間は広くなるでしょうし、20歳前後の皆様だけであれば狭くなるでしょう。もしもですが、20歳前後の人々のデータのみで求めた予測式であれば、80歳の高齢者に適用すること自体がおかしな話なのです。そのような意味でも、どのようなデータから導かれた回帰式で、どのような対象に対して用いるか(適用可能なのか?)ということは非常に重要なのです。

2. p値が意味するものは?
 この検定の帰無仮説は、「傾きがゼロである」になります。こちらの検定が有意にならない場合は、求めた回帰係数がゼロ(=x軸と平行)になってしまう可能性を否定できないことになりますので、上記の事例ですと、年齢は血圧に影響を与えているかわからないということになります。95%信頼区間の下限値と上限値の間にゼロを含んでる場合には、このp値は有意ではなくなります。データのバラツキ(標準偏差)が大きかったり、サンプルサイズが小さかったりすると、有意になりにくくなります。論文等で記載する場合には、傾きの大きさだけでなく95%信頼区間にも気を付けたいところです。

3. 最小2乗法によるモデル構築
 回帰直線を決定する際、実際のデータ点と直線との距離(残差)の合計が最小になるように直線を引く手法を「最小2乗法」と呼びます。構築されたモデルの性能は「決定係数(R²)」で評価されます。R²が1に近いほど、説明変数によって目的変数の変動をうまく説明できていることを意味します(一般に0.5以上で説明力が高いとされます)。

 

 

執筆者について

経歴 ※このプロフィールは掲載記事執筆時点での内容となります

連載記事

コメント

コメント

投稿者名必須

投稿者名を入力してください

コメント必須

コメントを入力してください

セミナー

eラーニング

書籍

CM Plusサービス一覧

※CM Plusホームページにリンクされます

関連サイト

※関連サイトにリンクされます