系統誤差とは
系統誤差とは統計学における誤差の1つになります.母集団(真の値)と標本(観測値)の差を誤差と言い,系統誤差と偶然誤差に分解することができます.
図は日本の平均年収を調べた場合の例です.偶然誤差とは観測ごとのばらつきによる誤差で,回答者ごとの個人差による影響になります.偶然誤差は観測ごとに変化する誤差になります.
系統誤差は観測ごとに変化しない一定の差になります.例えば,調査を東京に住む人に対してのみ行った場合は日本の平均年収と差が生じます.このような観測した条件などによる差が系統誤差になります.
偶然誤差のことをランダム誤差,系統誤差のことをバイアスと言うこともあります.
正しいデータ分析を行うためには,データ分析の計画段階から誤差を意識する必要があります.
バイアスの種類
バイアスには様々な種類がありますが,以下のようにデータ分析の段階ごとに4つの種類に分けることができます.
データ分析の計画段階で発生するのが測定基準によるバイアスで,データ分析の調査対象を抽出する際に発生をするのが選択バイアスです.
抽出した調査対象からデータを収集する段階で発生するのが情報バイアスになります.選択バイアスと情報バイアスは違いが分かりづらいですが,分析段階が異なります.
収集したデータに対して改ざんなど行うことによって発生するのが,データの扱いによるバイアスになります.
測定基準によるバイアス
データ分析の計画段階で発生しうるのが測定基準によるバイアスです.例えば,「課長」という役職に対して労働環境の調査を行うとします.以下の図は各組織における「課長」に昇進するまでの役職一覧です.
同じ「課長」という役職名だとしても,各組織におけるポジションは異なる可能性があります.このように収集するデータのカテゴリの基準が一定なのかは十分に注意する必要があります.
時系列データを扱う場合も測定基準によるバイアスは発生しやすいです.50年前の年収と現在の年収を比較する際に,額面上の数値をそのまま比較するのは明らかに問題です.
選択バイアス
選択バイアスとは母集団から標本の抽出が正しく行われず,一部のデータだけを抽出した際に起きるバイアスです.選択バイアスで最も有名なのが生存者バイアスになります.
生存者バイアスとは標本として得られた回答者は,調べたい事象に対して回答可能であった人のみで構成されている場合に発生します.回答者が生存者のみで構成されている場合,非生存者の特性を無視した分析しか行うことができません.
生存者バイアスは統計学以外にも一般的に使用される言葉です.起業家が発信する「成功した・売れた方法」が,同じやり方で失敗した人が多数いるが発信されていないために,その方法が”再現性があるかのように感じる”というのも生存者バイアスと呼ばれます.
調査対象者を募集した際に参加した調査対象者は,自ら対象者となることを選択した人たちであることから本来調べたい人たちと特性が異なる場合があります.このような偏りは選択バイアスの中でも自己選択バイアス・志願者バイアスと呼びます.
ビジネスにおいても,ある会社が保持する顧客データは「製品を買ったことがある」もしくは「製品に興味がある」人たちのデータであることが多いです.そのような顧客データは一般の人たちとは異なる特性があり,選択バイアスがあると言えます.
選択バイアスを完全に取り除くことは難しく,常に何かしらの選択バイアスが発生していると考えてデータ分析を行うことが重要になります.
情報バイアス
情報バイアスとは調査対象からデータを収集する段階で発生するバイアスです.調査を行うことによって本来起きなかった事象が発生することや,調査対象から正しいデータを得られない場合があります.
情報バイアスの代表例として,介入による影響があります.
1週間の食生活のデータを集める場合,調査対象者は調査されていることを意識して普段よりバランスの良い食事を取っている可能性あります.これが介入による影響になります.
新薬の治験の際に偽薬を飲んだ集団も,思い込みにより症状の改善や副作用が発生するプラセボ効果も情報バイアスの1つになります.
質問の回答方法や質問内容によって情報バイアスが発生する場合もあります.
例①のように5段階でも回答方法とした場合,心理学的に中心の回答が選ばれやすく極端な回答は選ばれにくい傾向があります.例②では回答内容が回答者にとって選びにくいため,本当の回答ではない回答を選ぶ可能性があります.
調査対象者が本当の回答を選ばないというのも情報バイアスの1つになります.
データの扱いによるバイアス
データの扱いよるバイアスはデータの分析段階で,分析者が意図的もしくは無意識に誤ったデータの取り扱いをすることによって発生します.
分析の目的に一致した結果になるように,意図的にデータを操作することは改ざんと呼ばれることもあります.
分析者によって都合の良いデータだけを集めて分析を行う場合もバイアスを生み出します.マスメディアでは多くの視聴者が興味を持つようなデータや情報だけを発信することがよくあります.
人間は意図的でなくとも自分の支持する仮説や,検証に整合するデータばかりを集める傾向があります.この傾向を心理学では確証バイアスと呼びます.確証バイアスは常に起こりうる事象で,客観的な指摘が無い限り完全にとり除くことは難しいです.
データ操作に際の入力ミスなど,人為的要因よってもバイアスは起こりえます.
バイアス(系統誤差)への対処法
バイアス(系統誤差)を完全に取り除くためには,データ分析の計画段階から対策を考える必要があります.特に選択バイアスは,正しい標本抽出(サンプリング)を行うことで取り除くことができます.
日本全体の年収を調べたいのであれば,全国民のリストを作成して乱数によりランダムに回答者を抽出する(単純無作為抽出)もしくは一定間隔で抽出(系統抽出)するといった方法があります.
既存のデータを分析する際は用いるデータにどのようなバイアスがあるかを調べて,その原因を特定する必要があります.例えば日本の年収調査の例では,東京に住む人のみからデータを得たため選択バイアスが発生します.この場合原因は明らかで,抽出の際に空間的な偏りを考慮しなかったためです.
バイアスの原因を特定したら,データの補正を行うなどの方法でバイアスを排除します.例えば他県の平均年収を調べて人口比で平均を取るなどの方法が考えられます.データの補正方法はその分野で認めれている方法(既往研究など)に従うことが無難です.
ただし,既存データに含まれるバイアスを見つけて原因を特定すること自体が難しい場合も多々あります.実験環境を詳細に調べることができない場合に,情報バイアスを見つけることは難しいです.そのためデータ分析では,正しい方法で自ら作成・収集したデータである実験データが非常に強力になります.
【余談】バイアスは武器にもなる
自分がデータ分析を行う際には,バイアスは取り除くことが難しく,取り除くためには労力が必要なため非常に厄介な存在となります.
これはどのようなデータ分析に対しても共通で,世の中にはバイアスが取り除かれず誤った結論が導かれた情報が沢山あります.バイアスを正しく認識している人からすれば,社会はツッコミどころ満載な情報だらけです.
また他人の分析結果や論文を読む際に,バイアスを意識するとクリティカルな批判を見つけることも可能です.逆に言えば分析結果や論文に対する真っ当な批判のほとんどは,バイアスが絡んだ内容ばかりです.
他人の成果に対して効果的な批判を行いたい場合は,ぜひバイアスを意識してみてください.
批判する際は,婉曲表現を使いましょう,,笑