統計学におけるサンプリングとは
サンプリング(抽出)とは推測統計学において,標本調査を行うために母集団から要素を選択して標本を得る工程になります.
標本調査を正確に行うためには,母集団と同じ特性を示すように標本を抽出する必要があります.母集団から偏りのある標本を抽出した場合,母集団の特性がわからなくなってしまいます.例えば平均年収を調べる際に,若年層ばかりを抽出した標本から得られた平均年収は日本人の平均年収とは言えません.抽出はデータ分析を行う際に疎かになりがちですが,推測と同様に重要な工程になります.
サンプリング方法の種類
サンプリング方法は大きく以下の3つの方法に分けることができます.
・無作為抽出(ランダムサンプリング)
・有意抽出
・便宜抽出
上位に記載した方法ほど標本の偏り(系統誤差)を減らすことができるため,優先的に行うべきサンプリング方法になります.
無作為抽出
無作為抽出は母集団からランダムで要素を抽出する方法です.無作為抽出の2つの方法について解説します.
単純無作為抽出
単純無作為抽出は母集団の要素のリストから,乱数を用いてランダムで調査対象を抽出する方法です.Excelでは母集団の対象をリスト化を行い,データ分析ツールの「サンプリング」から実行することができます.
系統抽出
系統抽出は母集団の要素のリストから,一定間隔で調査対象を抽出する方法です.
単純無作為抽出と系統抽出では,調査者の主観を完全に排除することができます.しかしデメリットとして母集団の全要素のリスト(標本抽出枠)を作成する必要があり,母集団が大きいほどコストがかかるもしくは不可能な場合があります.また,抽出した対象から確実にデータを得ることも難しくなります.
実際によく用いられる無作為抽出では母集団全体のリストを作成するのではなく,リストの要素数をできるだけ小さくしてから無作為抽出が行われます.
よく使われる無作為抽出
実際の調査の際によく使われる無作為抽出の方法を紹介します.
多段抽出
多段抽出では母集団内のブロックをランダムで抽出して,抽出された各ブロックから一定数をランダムで抽出する方法です.図は2段の抽出例ですが,抽出したブロック内からさらにランダムでブロックを抽出するといった方法も多段抽出になります.
日本全国を母集団とする場合,1段目の抽出で都道府県をランダムで抽出して,2段目として抽出された都道府県からランダムで市区町村を抽出,抽出された市区町村から全住民のリストを作成して無作為抽出を行うといった流れになります.
デメリットとしては選択したブロックが全て都市部であった場合など,ブロックの抽出段階で偏りが発生する可能性があります.
層化抽出
層化抽出では母集団を類似した要素ごとにグルーピングを行い,各グループから一定数をランダムで抽出します.日本全国を母集団とする場合,都市や地方で要素をグルーピングして各グループから無作為抽出する方法です.
層化抽出では無作為抽出を行うためのリストの要素数を小さくすることができないため,実際には多段抽出と組み合わせた層化多段抽出が行われます.
層化多段抽出
層化多段抽出では母集団を類似した要素をごとにグルーピングを行い,さらに各グループを複数のグループに分けます.類似した要素を集めた各グループから一定数のグループをランダムで抽出して,抽出したグループから一定数をランダムで抽出する方法です.
具体的には人口密度で都道府県を4つに分類を行い,各分類からランダムで都道府県を抽出,抽出した都道府県の住民を対象に無作為抽出を行うといった流れになります.
多段抽出のデメリットであったブロックの抽出段階で偏りを主観的に抑えることができます.
クラスター(集落)抽出
クラスター抽出は母集団を特定の集まり(集落)ごとにクラスターを作成して,ランダムに抽出したクラスターの全要素を標本とする方法です.
物理的に近い人(町・大字ごとなど)や,インターネット上のサービス利用者(Twitterを使用している人など)同士でクラスター形成することで,要素ごとのデータ取得コストを下げることができます.
デメリットとしては同じクラスター内では,同じ特性を持った要素が集まる可能性があり偏りが生じる可能性があります.偏りを少なくするためには,抽出するクラスター数を増やす必要があります.
有意抽出と便宜抽出
無作為抽出を行うことができない場合,有意抽出もしくは便宜抽出を行います.
有意抽出
有意抽出では母集団から母集団を代表すると思われる要素を分析者の主観で抽出する方法です.要素の選択段階で選択バイアスが発生する可能性が高くなります.
コストを小さくすることは可能なため,事前調査などでは非常に有効な抽出方法となります.
便宜抽出
便宜抽出はデータを取得しやすい要素を選択して抽出する方法です.サンプリング方法を意識していない場合はほとんどが便宜抽出になり,例えば治験のためのバイト募集による抽出も便宜抽出です.
便宜抽出ではサンプリングコストを大きく下げることができますが,様々な選択バイアスが生じることを意識してデータ分析を行う必要があります.