カテゴリーデータの集計方法として用いられるクロス集計について解説します.
クロス集計を行ったクロス集計表の作成手順や注意点についても解説します.
クロス集計とは
クロス集計とは,アンケートなどで得られた回答に対して複数の変数をクロスするように集計することです.クロス集計を行うことで,回答者の属性ごとの傾向が分かるなどのメリットがあります.
ここからは,大学生を対象にアンケートを取った例を用いて説明します.
「バイトは何をしているか」といった質問をしたとします.調査結果は以下のようになりました.
このように,1つの変数に対して度数(人数)を集計することを単純集計と言います.単純集計は,特に意識することなくExcelで何かを集計する際に誰もが行っているかと思います.
今回のアンケートを行った際に,性別も同時に聞いているとします.ここで,”バイトの種類”と”性別”といった複数の変数を同時に分類しようといった集計方法がクロス集計です.
クロス集計を行って作成した表をクロス集計表と言います.
クロス集計表を見ると,飲食店でバイトをしている大学生は女性の方が多いといった情報が分かります.このようにクロス集計を行うことである変数に対する別の変数(回答者の属性)の傾向が分析しやすくなります.
クロス集計表について
クロス集計を行い作成した表がクロス集計表でした.ここからは,クロス集計表に関する用語について説明します.
クロス集計表では,表の上側の項目を表頭,横側の項目を表側と言います.習慣的に,表頭には目的変数,表側には説明変数を当てはめることが多いです.
集計した各セルの数を観測度数(または度数)と言います.度数という言葉自体は統計学でよく使われるますが,データの個数といった意味で解釈して大丈夫です.
クロス集計表は変数に含まれる項目数(1つの質問に対する回答種別数)によって○×○クロス集計表といった呼び方をします.今回の例では,2×10クロス集計表となります.
ここまで説明した用語は,クロス集計表を作成してさらに詳しい分析を行う際に必要な用語となります.
クロス集計の注意点
クロス集計を行う際の注意点を説明します.
・カテゴリカルデータを用いる
クロス集計に用いるデータは,カテゴリカルデータ(質的変数)を用います.量的データでは用いることができません.(→ 統計学における尺度とは)
・大きいデータ量を用いる
クロス集計の元となるデータはなるべき大きいデータ量,サンプル数を用います.サンプル数は最低でも30は用意しましょう.小さすぎるサンプル数の場合,クロス集計した際の結果に対する誤差の影響が大きくなってしまいます.
・データ収集の時点で仮設を立てる
クロス集計では,集計する際に集計する変数(回答項目)を絞って集計を行います.本ページで紹介した例だと,あらかじめ”大学生のバイトの種類は性別間に違いがあるのではないか”という仮説のもとクロス集計を行いました.クロス集計のデメリットとして計算負荷が大きいことがあげられますが,取得したデータを様々な組み合わせでクロス集計を行うことは非効率です.
以上のことから,データを収集する時点からどういった検証を行いたいのかといった仮説を明確にしましょう.
クロス集計の方法
クロス集計は,サンプル数が多いほど計算負荷が大きくなります.
そこで,クロス集計を行い自動でクロス集計表を作成する機能がExcelにはあります.それが,ピボットテーブルという機能です.
この機能を使えば,予めExcelに集計結果を打ち込んでおけば,すぐにクロス集計表を作成することができます.また,選択した変数も簡単に変えることができるので便利です.
ピボットテーブルを使う上で1点だけ注意点があります.それは,ピボットテーブルが使えるようにExcelにデータを打ち込む必要があることです.特にサンプル数が多い場合,ピボットテーブルが使えない形式でデータを打ち込んでしまい,手戻りとなるのは非常につらいので予めピボットテーブルを使う想定でデータを打ち込みましょう.