【第2回】マイナスからはじめる生物統計学

「統計学の非常識 ~数字こそが絶対~」

1.データ=数字?
 先日、あるTV番組で評論家(大学教授だったかも?)の方が、以下のような発言をされておりました。

「とにかくデータを見ることです。数字こそがデータであり、データこそが数字です。データが物語っている、数字が物語っているのですから間違いありません。これ以上確かな証拠はありません!


 こちらの評論家の方は、この短い文章の中で2つの重大な間違いを犯しております。一つ目は、データ=数字ではありません。データとは、意味を持つものであれば音声、画像、文字(テキスト)など、全てがデータです。例えば、私が最近ハマっているテキストマイニングは、ソフトウェアを用いて文字データを品詞レベルまで分解して、さらには用語の関連まで解析するための手法です。また、放射線の世界でも画像データの解析などは日常的に行われております。ですが、意味があったとしてもその解読方法を知らなければ、単なる音や絵や文字列に過ぎません。例えば、私がアラビア語を見ても全く理解できませんので、私にとってアラビア語はデータになり得ません。読めない言語は、所詮解読方法を知らない暗号と同じなのです。また、そのデータが自身にとって役立つものであれば、それは情報となります。例えば、道行く車のナンバープレートの4桁は、多くの方にとっては何の意味も無い文字列に過ぎませんが、覚えやすい4桁(1111や7777など、抽選により販売される特別なナンバー)はデータになり得ます(例:高そうなクルマが多いな…など)。仮に危険運転などの被害に遭ってしまった時、普通のナンバー(文字列)ではなかなか覚えられないものですが、覚えやすい4桁であれば通報のための情報となり得ます。そのような意味では、自己主張や顕示欲が強く、荒い運転をしてしまう傾向のある人ほど、記憶されやすい(目立つ?)ナンバーを取得することはあまりお勧めできないと思うのですが?
 

2.数字で言っているのだから間違いない?
 さらに二つ目の間違いは、「数字で言っているのだから間違いない」「数字ほど確かな証拠は無い」ということです。そもそも、その数字はどのようにして集められたものなのでしょうか?どのように集計・解析されたものなのでしょうか?その番組のテーマは確か、内閣の支持率か何かだったと思うのですが、その調査方法が非常に小さく書かれていた点が気になりました(もちろん、中には全く説明されない場合もございますので、それよりはマシという考え方もあるにはありますが…)。○月×日の月曜日、14時~17時に無作為に電話をかけて、在宅中だった視聴者400人に聞いたということでした。その評論家曰く、400人であれば推定精度(注:今は誤差と考えて下さい。いつか詳しく説明させていただきます)が±5%以内であるということだけは語っておりましたので、これもまた専門家っぽく見せるための演出か?…と考えてしまうのは少々穿った見方でしょうか?
 今回の400名の回答者について、月曜日の広間に家にいる人とはどのような人々でしょうか?既にリタイアされた年金暮らしの方、専業主婦の方、美容師さん、学生さん…?いずれにしても、この調査方法では国民の大半を占める生産人口(いわゆる勤め人)の皆様の意見は反映されておりません。しかも、若年の方は意味不明な番号の電話には出なかったり、それこそ固定電話を持たなかったりするので、さらに回答は高齢の方の意見に偏りやすいのではないでしょうか?他にも、健康食品のCMなどで「95%のお客様が満足」などの謳い文句が見受けられます。結果と一緒に非常に小さい文字で、「2回以上購入のお客様へのアンケート結果」とございますが、満足しているからこそ2回目の購入をしているわけです。不満のある方は1回で止めているわけですから、商品全体の満足度はさらに低いことが予想されます。
 大切なのは数字そのものでは無い、その数字はどのように由来しているのか、どのような集団を調べた結果得られた数字なのか、これは全ての統計数値に言えることです。まずは「数字を疑う心」を持つことから始めて見ることをお勧めします。


 

執筆者について

経歴 ※このプロフィールは掲載記事執筆時点での内容となります

連載記事

コメント

コメント

投稿者名必須

投稿者名を入力してください

コメント必須

コメントを入力してください

セミナー

eラーニング

書籍

CM Plusサービス一覧

※CM Plusホームページにリンクされます

関連サイト

※関連サイトにリンクされます