アンケートにかかるバイアス

著者:杉浦

アンケートにかかるバイアス

 この記事の話は、アンケートの回答者は本当に知りたい情報の情報源なのかを知ることによってより正確にアンケートを行うことができる、という話です。
 こんな話があります。ある調査会社は固定電話によって次の選挙で誰に投票するか世論調査を行いました。調査結果はAさん、もしくはBさんが当選するだろうと結果を示しました。しかしながら、実際の選挙ではCさんが当選しました。この原因は固定電話による世論調査に応じる人々は有権者のうちわずかであるということです。この話が一昔前の話ならば、固定電話は高価であり、固定電話のみによる調査では有権者のうち富裕層の意見ばかりを集めてしまったのでしょう。この話が最近の話ならば、固定電話を持たない家が増えたため、固定電話のみによる調査では有権者のうちの若年層の意見がぬけてしまったのでしょう。
 この回答者の集団と知りたい対象の集団のずれを疫学では選択バイアスと呼びます。また、母集団(知りたい情報を持つ対象群)から標本(アンケート回答者)を抽出する際にバイアスがかかっている、とも言います。
 選択バイアスがかかったアンケートを試みてしまった場合、前述の例のような失敗が起こることになります。他の例として、動物園や水族館のの出口にのみにただおいてある様なアンケートがあげられます。これは記入が任意かつ無報酬かつ自由な時間を使用させるアンケートになり、とても高い評価やとても低い評価が回答の多くを占めやすいという失敗が起きやすいです。このような失敗が起きる原因はアンケートを書きたいだけの動機がある人ばかりがアンケートを書く、そのような人とは強い感情を持つ人である、強い感情による評価とはとても高い評価ととても低い評価である、ということにあります。
 選択バイアスの対策として層化というものが試みられています。これはありうるであろうバイアスを埋めるように複数の集団からアンケートを取るようにするという方法です。選挙ならば、人種、財産、宗教、地域などなどを別々に分け、それぞれからアンケートを集計し、その結果をまとめるというものです。起きうるバイアスが正しく予想できる場合、この方法によってバイアスを打ち消すことが可能です。しかしながら、この方法は分けた集団がそれなりに大きいサンプル数を含んでいない場合、ランダムな誤差が大きくなるという問題があります。このランダムな誤差とバイアスの誤差のバランスをとるためにも、アンケートの回答者がどのような方々なのか、知りたい情報源となるのはどのような方々なのかを知ることが大切になります。

  • この記事いいね! (0)

著者について

杉浦 administrator

1件のコメント

機械学習に用いる学習データの選定 – 株式会社シーポイントラボ | 浜松のシステム開発会社投稿日:7:45 pm - 7月 19, 2018

[…]  機械学習において学習、評価に用いられる学習データは出力結果の正しさ、出力までの計算時間に大きく関わります。学習データが小さすぎれば十分な正確さを持てず、大きすぎれば無用な計算時間が大量に増え、偏れば偏った結果しか出ません。  学習データ数が増えるにつれて出力の正確さは増えます。増え方は対数に近く飽和が起きます。  飽和している状態でさらに学習を行うのは時間の無駄です。正確さの増加量、飽和点は変数の数などのモデルの柔軟性によって大きく変わります。ディープラーニングの様な柔軟性が高いモデルを用いる場合、特に大量の学習データを用意する必要があります。近年はデータに対して自然にありえるであろう微細な加工を施すことで少ない学習データを大量の学習データをの様に扱う技術が生まれ始めています。  機械学習の実行にかかる計算時間は学習データの数と項目数に大きく左右されます。計算量はデータ数と項目数の積になりがちです。これにより組み合わせ爆発同様の事態に陥ります。単純な繰り返しによる網羅はあっという間に破綻します。  学習データの偏り方は学習データの母集団と目的の母集団のずれがバイアスとして現れます。通年の天気のデータを予測するために、夏の天気のデータのみを用いる様なものです。以前書いたアンケートのバイアスの話と同じです。 […]

コメントは停止中です。