【第17回】マイナスからはじめる生物統計学
相関
1. 相関とは?
ここまでは「比較」が中心のお話でしたが、今回は少し経路が異なります。医学研究において、「塩分摂取量が多いと血圧が上がるのか?」などといった、2つの変数間の関連性を見たい場面は非常に多くあります。

(2つの変量の関係は…?)
2つの変量の直線的な関係の強さを数値で表したものが「相関」です 。相関の度合いを示す指標を「相関係数(r)」と呼び、その値は -1.0 から +1.0 の範囲を取ります 。医師や看護師、保健師などの試験問題で「相関係数は0~1の間の数値である」といった、いわゆる「ひっかけ問題」も出題されたことがありますが、正確は、-1~1の間の数値で、ゼロに近いほど弱いものであります。下記の式で表されますが、特に覚えておく必要もございません。各々の値から平均値を引き算して掛け算したものを足し合わせる…という程度のイメージで全然かまいません。
ご参考まで、相関係数は理論上は-1~1の間をとるとは申しますが、キッチリ-1や1(xとyが例外なく1本の直線上にある)になるような場合はまずありません。相関ゼロに関しましても、数字のペアが存在する限りはまずあり得ません。
2. 相関係数の目安
相関係数の強さは、一般的に以下のような基準で判断されます 。そこには一切の数学的基準は存在せず、(統計的有意水準の0.05と同様)全くの「慣例」によるものです。
- 0.7(-0.7) ~ 1.0(-1.0): 強い(負の)相関がある。
- 0.4(-0.4) ~ 0.7(-0.7): (負の)相関がある。
- 0.2(-0.2) ~ 0.4(-0.4): (負の)弱い相関がある。
ここで重要なのは、数値(r)だけでなく必ず「散布図」を確認することです。データが直線y=x(y=-x)に巻き付くように分布しているほど相関は高く、rの値が1に近づきます 。

3. 相関係数の「検定」 ~その相関係数は本当に信用できるか?~
相関係数を求めた際、その値が「本当に信用できるか(偶然ではないか)?」を判定するために検定を行います。帰無仮説を「相関係数はゼロである(r=0)」とし、p < 0.05であれば、相関係数がゼロではないことが確認されたことになります 。しかし、ここで注意すべきは「p値が小さい=相関が強い」ではないという点です。サンプルサイズが大きければ、r=0.1のような極めて弱い相関であっても、統計的には「有意」と判定されてしまいます。相関の有無は、あくまでrの値の大きさで判断してください 。tが大きいほどp値は小さくなりますが、サンプルサイズ(x,yのペアの数)が大きいほどtは小さくなります。
残念ながら、相関係数の検定を行って、p<0.05なので相関が見られた(関連が見られた)という超誤った記述は現在も各所で見られております。そのまま論文として流通(?)している事例もございますので、くれぐれもお間違いの無いよう…。
コメント
/
/
/
コメント