徹底解説

整然データ(Tidy Data)の作り方

Excelなどの表計算ソフトを用いたローデータから整然データを作成するポイントについて解説します.既に加工・分析を行っているデータについても,整然データのポイントが押さえられているか確認してみてください.

補足事項として,整然データの分析方法についても解説しています.

ローデータ・整然データとは

ローデータとは実験で得られたデータや,アンケートの調査結果で得られたデータそのものを意味します.ロー(raw)とは生という意味で,得られた生のデータという意味になります.

因みに画像のファイル形式で,JPEGなど圧縮したファイルの形式に変換する前のデータをRAWというファイル形式があります.

整然データ(Tidy Data)とは,データの形状が特定の構造に従って整理されているデータのことを指します.整然データの基本的な原則は以下の3つになります.

 ① 各変数は1列(1つのカラム)を形成する
 ② 各観察結果は1行を形成する
 ③ 各タイプの観測ユニットは1つのテーブルを形成する

整然データの重要性

実験データやアンケートの調査結果の分析を行うためには,整然データの作成が非常に重要です.適切でない方法を行ってしまうと,データ分析やグラフ化する際の障壁になってしまいます.

ローデータのまま扱う場合に起こり得る問題が以下になります.

① 集計した結果に加工する
② 入力規則がばらばら

また整然データを作成せずにいきなり集計した結果で入力・加工した場合,ローデータが持つ多くの情報が失われてしまいます.例えばローデータからはヒストグラム(度数分布)に必要な情報があったとしても,集計した結果では比率しかわからなくなってしまうといったことが起こりえます.

ローデータの分析として集計することは重要ですが,集計する前に整然データを作成する必要があります.

データ加工時の不可逆性

入力規則がばらばらな場合,本来同じ値であるのに分析結果では違う値として扱われてしまうことや,そもそも分析が行うことができないといったこと問題がおきます.

データ加工時の入力規則が異なる場合に起きる問題

このような問題を起こさないために,いくつかのポイントを意識して整然データを作成する必要があります.

正しくデータを入力・加工することは正しいデータ分析を行う上で非常に重要あり,データ分析に慣れた人にとってはこの作業がデータ分析の9割の作業量を占めるほど泥臭い部分でもあります.因みに既存のデータに対して,置換や欠測値の処理を行うことを,データをきれいにするという意味でデータクレンジングと言います.

》データクレンジングとは

整然データのポイント

整然データを作成するためのポイントについて解説します.

① 1つのサンプルに対するデータは1行にする

1つのサンプル(人や物)から得られたデータは,1つの行にしてデータを整理します.全く同じデータがあった場合でも,得られたデータを集計せずに1行1行分けて整理します.

ローデータの入力例

また,”収入”・”血液型”などの変数ごとに1列となるようにします.

② 単位・表記を統一する

数値データの場合は値の単位を統一します.値が文字列の場合は,表記違いに注意してください.特にExcelなどの表計算ソフトでは,全角と半角の違いによって違う値と判定されてしまうので注意が必要です.

ローデータの間違った入力例

③ 半角英数字のみ使用する【応用】

RやPythonなどを用いてデータ分析を行う場合,値に日本語や全角文字が使われていると上手く計算できないことがあります.

解析ソフトやプログラミング言語を用いてデータ分析を行う場合は,可能な限り半角英数字のみでデータを整理してください.スペースや – (ハイフン)などの特殊文字・記号も使用しないでください.

様々な解析ソフトに対応したローデータの入力例

整然データの分析方法

整然データができたら,様々な分析や統計解析を行います.主な分析方法について紹介します.

》【目的別】解析手法の選び方

① 単純集計する【難易度★】

単純集計とはデータから,特定の項目の度数や比率を求めることです.単純集計表を作成することで,各項目ごとの人数など分かりやすくなります.

円グラフを作成すると直感的に理解することができます.

単純集計表の例

② クロス集計を行う【難易度★★★】

クロス集計とは2つの項目に対して,同時に集計を行う方法になります.横と縦に交差して集計するためクロス集計と言い,作成した表をクロス集計表と言います.

クロス集計表の例

クロス集計表の作成方法や分析方法は以下のページで解説しています.

》クロス集計表の作り方
》クロス集計表の分析方法

③ 基本統計量を求める【難易度★★】

基本統計量とは平均値や中央値のことになります.データの全体を捉えるためによく使われる指標です.

単純集計やクロス集計は質的データに対して行うことができますが,平均値は量的データに対してのみ計算することができます.データ分析を行う場合,扱うデータに合わせた分析方法を選択する必要があります.

》統計学におけるデータの種類

④ 統計解析を行う【難易度★★★★】

統計学的な結論や,データ間の関係性を分析するためには統計解析を行う必要があります.

統計解析にはデータ間の差を判定する仮説検定や,複数データの関係性を調べる多変量解析など様々な方法があります.

本サイトでは様々な統計解析手法を,実践的に解説しているので実際にデータ分析を行う際に読んでみてください.

》Excelで行う統計解析

統計解析アプリStaatApp