その数字って本当?(ニュースを透かして見てみる)【第1回】

はじめまして、私は山内英作と申します。

私は、昭和61年に日本と欧州の合弁製薬会社の臨床開発部門に入社し、その後、米国やベンチャーの製薬会社でずっと開発業務に携わりました。
その入社当時、ようやく開発部にもコンピュータなるものが導入されましたが、それまでタイガー式手回し計算機やら電卓こそが王道だと言う方もいて、なかなかプログラミングによる解析が理解されませんでした。
ワープロも心がこもっていないと手書き至上主義であったのも今や昔です。

実際に統計解析もデータマネージメントも開発担当者自身が行っておりましたし、グラフなども転写シールで方眼紙に実線や点線を貼り付けていました。

学生時代、コンピュータに理解があり統計が専門だった指導教諭に学んだため、開発に入っても現場の臨床と統計解析の二足の草鞋を履くことになりました。
その後、統計解析、データマネージメントは、医薬品等の有効性、安全性に対するエビデンスの証明に欠かせないツールとなったことは皆様もご存じの通りです。
統計解析の手法も、理論的には確立しつつあったものの、電卓はともかく、当時のパーソナルコンピュータのメモリや処理速度では不可能な解析も現代では可能になりました。よって、以前論文を見ても、t検定やx2検定(Fisherの直接確率法は階乗を扱うので通常のパソコンでは桁がオーバーフローしました)ばかりだったのが、より高度でモデルベースの解析も行われる様になっています。

今回、コラムの連載にあたり、難しい解析手法ではなく、日常に氾濫する数字やそれにまつわる情報について、書き記したいと思います。
なお、本コラムは以前ココヤクという薬剤師のポータルサイトで連載したものに加筆修正したものです。

情報の種類

毎日報道されるたくさんの新聞やテレビのニュースには、いろいろな数字があふれています。それは実数であったり、パーセントなどの割合であったり、平均値などの代表値であったりします。割合や平均値などは、皆様も学校で習ったり、日常の業務で使ったりされるものですので、その数字を見て直感的にその意味するところをイメージできると思います。
しかしながら、その数字も扱い方によっては、都合の良い部分だけを利用した偏ったものになる可能性もあります。

まず、我々が目にする情報(データ)の分類から見てゆきましょう。大きく分けると以下の3つの分類になります。

1.数値データ
身長や体重、医学的なものだと血圧や心拍数等、数字で得られるデータです。年収がいくらと言うのもこの分類になります。

2.順序データ
物事の順番を表すもので、例えば10歳代、20歳代、30歳代等、年代別の区分とか、尿検査などで-、+、++等そのデータの順番に意味があるものを指します。(順序分類データとも言います)

3.分類データ
分類データは順序データと似ていますが、その分類(カテゴリー)に優劣がないものをいいます。例えば男女の性別や「はい」や「いいえ」、「あり」や「なし」などです。

具体的に言うと、ある家族の年齢構成は、父親42歳、母親36歳、長女13歳、長男6歳、祖母65歳であった場合、それぞれの年齢自体は「数値データ」です。この数値データをそれぞれ、60歳代1名、50歳代0名、40歳代1名、30歳代1名、20歳代0名、10歳代2名と年代別に表したものが「2. 順序データ」となります。

更に、この家族の中で成人と未成年に分けた場合、成人3名、未成年2名という分類になります。これが「3.分類データ」です。
また、男性と女性に分けた場合は、男性2名、女性3名となり、これもまた「3.分類データ」です。
つまり、同じ家族の年齢でも、その扱いによって3つの情報の形があると言うことです。

我々はアンケートなどで年齢などを知りたい場合、最終的にどこまでの情報を得たいか?によって年齢の聞き方も変わってくるということです。年齢そのもの(「1.数値データ」)がわかれば、後から年代別にも、成人・未成年も加工できますから、情報量は一番多いのですが、アンケートによっては回答者が回答しづらかったり、後からの情報の加工に手間がかかったりすることから、知りたい事柄を予めよく精査することが必要だと思います。
情報量としては、左にゆくほど詳細になり、逆に右にいくほど曖昧になると言えます。

数値データ > 順序データ > 分類データ

代表値とは
例えば「平均値」は、我々が一番よく目にする代表値の1つです。得られた数値データをそのサンプル数で割ることによって得られる値です。この代表値としては、平均値の他にいくつか知っておきたいものがあります。そのうちの一つが「最頻値」であり、もう一つが「中央値」というものです。

英語にした場合、それぞれ「平均値(Mean)」、「最頻値(Mode)」、「中央値(Median)」となり、全てMから始まる単語になります。

この3つの違いについて以下に例をあげて説明したいと思います。

 

執筆者について

経歴 ※このプロフィールは掲載記事執筆時点での内容となります

連載記事

コメント

コメント

投稿者名必須

投稿者名を入力してください

コメント必須

コメントを入力してください

セミナー

eラーニング

書籍

CM Plusサービス一覧

※CM Plusホームページにリンクされます

関連サイト

※関連サイトにリンクされます