徹底解説

データの入力・加工方法

Excelなどの表計算ソフトを用いたローデータ入力・加工方法について解説します.既に加工・分析を行っているデータについても,加工のポイントが押さえられているか確認してみてください.

補足事項として,加工したローデータの分析方法についても解説しています.

ローデータとは

ローデータとは実験で得られたデータや,アンケートの調査結果で得られたデータそのものを意味します.ロー(raw)とは生という意味で,得られた生のデータという意味になります.

因みに画像のファイル形式で,JPEGなど圧縮したファイルの形式に変換する前のデータをRAWというファイル形式があります.

ローデータの入力・加工の重要性

実験データやアンケートの調査結果の分析を行うためには,ローデータの入力・加工方法が非常に重要です.適切でない方法を行ってしまうと,データ分析やグラフ化する際の障壁になってしまいます.

ローデータの扱う場合に起こり得る問題が以下になります.

① 集計した結果に加工する
② 入力規則がばらばら

いきなり集計した結果で入力・加工した場合,ローデータが持つ多くの情報が失われてしまいます.例えばローデータからはヒストグラム(度数分布)に必要な情報があったとしても,集計した結果では比率しかわからなくなってしまうといったことが起こりえます.

ローデータの分析として集計することは重要ですが,集計する前に正しくデータの入力・加工すること行う必要があります.

データ加工時の不可逆性

入力規則がばらばらな場合,本来同じ値であるのに分析結果では違う値として扱われてしまうことや,そもそも分析が行うことができないといったこと問題がおきます.

データ加工時の入力規則が異なる場合に起きる問題

このような問題を起こさないためにいくつかのポイントを意識してデータは正しく入力・加工する必要があります.

正しいデータを入力・加工することは正しいデータ分析を行う上で非常に重要あり,データ分析に慣れた人にとってはこの作業がデータ分析の9割の作業量を占めるほど泥臭い部分でもあります.因みに既存のデータに対して分析できるような形式に整形することを,データをきれいにするという意味でデータクレンジングと言います.

》データクレンジングとは

データ入力・加工のポイント

データを入力・加工するためのポイントについて解説します.

① 1つのサンプルに対するデータは1行にする

1つのサンプル(人や物)から得られたデータは,1つの行にしてデータを整理します(ワイドデータ,縦持ちデータ).全く同じデータがあった場合でも,得られたデータを集計せずに1行1行分けて整理します.

ローデータの入力例

② 単位・表記を統一する

数値データの場合は値の単位を統一します.値が文字列の場合は,表記違いに注意してください.特にExcelなどの表計算ソフトでは,全角と半角の違いによって違う値と判定されてしまうので注意が必要です.

ローデータの間違った入力例

③ 半角英数字のみ使用する【応用】

RやPythonなどを用いてデータ分析を行う場合,値に日本語や全角文字が使われていると上手く計算できないことがあります.

解析ソフトやプログラミング言語を用いてデータ分析を行う場合は,可能な限り半角英数字のみでデータを整理してください.スペースや – (ハイフン)などの特殊文字・記号も使用しないでください.

様々な解析ソフトに対応したローデータの入力例

補足 ローデータの分析方法

ローデータの加工ができたら,様々な分析や統計解析を行います.主な分析方法について紹介します.

》【目的別】解析手法の選び方

① 単純集計する【難易度★】

単純集計とはデータから,特定の項目の度数や比率を求めることです.単純集計表を作成することで,各項目ごとの人数など分かりやすくなります.

円グラフを作成すると直感的に理解することができます.

単純集計表の例

② クロス集計を行う【難易度★★★】

クロス集計とは2つの項目に対して,同時に集計を行う方法になります.横と縦に交差して集計するためクロス集計と言い,作成した表をクロス集計表と言います.

クロス集計表の例

クロス集計表の作成方法や分析方法は以下のページで解説しています.

》クロス集計表の作り方
》クロス集計表の分析方法

③ 基本統計量を求める【難易度★★】

基本統計量とは平均値や中央値のことになります.データの全体を捉えるためによく使われる指標です.

単純集計やクロス集計は質的データに対して行うことができますが,平均値は量的データに対してのみ計算することができます.データ分析を行う場合,扱うデータに合わせた分析方法を選択する必要があります.

》統計学におけるデータの種類

④ 統計解析を行う【難易度★★★★】

統計学的な結論や,データ間の関係性を分析するためには統計解析を行う必要があります.

統計解析にはデータ間の差を判定する仮説検定や,複数データの関係性を調べる多変量解析など様々な方法があります.

本サイトでは様々な統計解析手法を,実践的に解説しているので実際にデータ分析を行う際に読んでみてください.

》Excelで行う統計解析

統計解析アプリStaatApp