統計アプリ

【StaatAppで行う】データ操作

StaatAppを用いたデータクレンジング・操作方法について紹介します.本ページで紹介する機能は全て無料版で利用いただけます.

》統計解析アプリStaatAppとは

紹介する機能一覧

本ページではデータクレンジング・操作に用いる以下の機能を紹介します.

ツールバー機能

・ソート
・削除
・置換・変換
・欠測値の処理
・データ型の変換
・データの結合
・フィルター

メニューバー機能

・列名の変更
・ロングデータ ⇔ ワイドデータの変換
・差分・対数変換
・テストデータの作成

》SaatAppの基本操作はこちら(別ページ)

対象のデータ

以下のサンプルデータを対象に操作方法を紹介します.

No.副業有無収入性別年齢身長体重睡眠時間
1580男性3217060420
2430女性2815643480
3800男性4516357350
47803616148330
5690女性4215849350
6
712000女性3216554350
8350女性2316145440
9620男性2918078450
10500女性15042380
114303316869430
12590女性3615947370
131200男性5116965330
14810男性5317470340
15620女性380
16430女性3115645400
17570女性3916452350
184602817059430
19620男性3017871340
20320男性2516762410
21430女性4116658400
22570女性3916452350

複数列を対象にソート(並び替え)を行う

データ表示領域の列名部分をクリックすることでソートすることも可能ですが,数値データや複数列を基準として並び替えたい場合はツールバーの「ソート」機能を用います.

ソート機能の選択

ダイアログから,並び替えの基準とする変数(列名)を選択します.上位の選択された変数ほど優先度が高くなります.例では年齢で並び替えたあとに性別で並び替えを行います.

以下のようにデータを並び替えると,”性別”の列を見ると表記ゆれがあることがわかります.ソート機能では表記ゆれを簡単に発見できることも大きなメリットです.

データの並び替え結果

不要な行または列を削除する

特定の行または列を削除する場合は「削除」機能を用います.

削除機能の選択

特定の行を削除したい場合は削除したい行番号を「行番号(上限)」に入力します.複数の行を一括で削除したい場合は,「行番号(上限)」に上側の行番号を,「行番号(下限)」に下側の行番号を入力します.

以下の設定では5行目から8行目が一括で削除されます.

行の削除

不要な列を削除した場合は,「列の削除」を選択して,削除したい列名にチェックを入れます.

列の削除

任意の文字列・数値を置換する

特定の文字列から特定の文字列に値を変換したい場合は,「置換」機能を用います.

置換機能の選択

置換用ダイアログから置換前後の文字列を入力します.オプションの「完全に一致」ではセル内の文字列が完全に一致した場合のみ置換します.「半角英数字に変換」では全角英数字を自動で半角英数字に変換します.

例では”性別”列の表記ゆれを修正するために,”女”→”女性”に置換します.

置換文字列の設定

欠測値を削除・補完する

StaatAppでは空白データなどの欠測値を読み込ませた場合は,”nan”と表示されます.一括して”nan”の処理を行う場合は「欠測値」機能を用います.

欠測値の処理機能の選択

表示されたダイアログでは,画面左側で変数ごとの欠測値の数を確認することができます.

欠測値の処理ダイアログ

”年齢”列では欠測値が3つあることがわかります.欠測値の処理方法として以下の3つの方法が可能です.

・リストワイズ除去
・ペアワイズ除去
・補完

以下の設定では各変数の平均値で補完を行います.

平均値での補完

欠測値が平均値で補完されています.数値データでない”副業有無”や”性別”列は平均値を求めることができないため,”nan”のままとなります.

カテゴリーデータの欠測値に対しては,直接入力して値を変更もしくは除去することで対応します.

データ型を変換する

StaatAppでは「数値型」「文字列型」の2つのデータ型が存在します.

数値型:半角数字で入力された値.演算など順序尺度以上の統計解析が可能.
文字列型:半角英字・全角文字で入力された値.クロス集計表などのカテゴリー変数に対する統計解析が可能.

》統計学におけるデータの種類

データ表示部分で値が左寄せされている列のデータ型は「文字列型」になります.逆に値が右寄せされている列は「数値型」になります.StaatAppではデータが読み込まれた時点で自動で判定されます.

「数値型」から「文字列型」もしくは,半角数字だけが入力されている列を「文字列型」から「数値型」に変換することは可能です.

ツールバーの「データ型」機能を用います.

データ型機能の選択

以下は”年齢”の列を「数値型」→「文字列型」に変換する例です.

データ型の変換の設定例

※ 解析を実行した際に,データ型に関するエラーが発生する場合はこの機能を用いて変換してください.

2つのデータを結合する

2つのデータを結合したい場合は,「結合」機能を用います.

結合機能の選択

データ1とデータ2を結合したい場合は,以下のように設定します.

結合機能の設定例

デフォルトではデータは縦方向に結合されます.同じ列名を持つデータを結合したい場合,サンプルサイズを増やしたい場合に用います.

オプションの「横方向に結合」を選択すると,同じ行同士でデータが結合されます.変数を加える場合や,解析後に出力した予測結果を元のデータに結合したい場合に用います.

特定の条件でデータを抽出する

特定の条件に一致するデータのみを抽出したい場合は,「フィルター」機能を用います.

フィルター機能の選択

以下の例では”収入”列で,800より小さいデータのみを抽出します.

フィルター機能の設定例

特定のカテゴリー(文字列)に一致するデータを抽出したい場合は,以下のように「カテゴリーフィルター」を選択して,抽出したいカテゴリーにチェックを入れます.

カテゴリーフィルターの設定例

メニューバーのデータ操作機能の選択

メニューバーに設定されているデータ操作機能を用いる場合は,以下のように「データ操作」を選択して任意の機能を選択します.

メニューバーのデータ操作機能

列名(変数名)の変更

列名を変更する場合は,「列名の変更」機能を用います.「列名の変更」は「Ctrl + R」のショートカットキーでも実行可能です.

列名の変更機能

※ StaatAppでは同じデータ内に同じ列名が含まれると,正しく解析を実行できないので同じ列名が含まれる場合は,この機能を用いて変更してください.

ロングデータ ⇔ ワイドデータの変換

データ形式をロングデータからワイドデータに変換する場合は「ワイドデータに変換」,ワイドデータからロングデータに変換する場合は「ロングデータに変換」機能を用います.

変換機能の詳しい使い方やデータ形式については,以下のページをご覧ください.

》ロングデータとワイドデータ

差分・対数変換

特定の変数に対して,差分変換もしくは対数変換を行いたい場合は,「差分・対数変換」機能を用います.

対数・差分変換機能

この機能は時系列分析を行う場合や,回帰分析を行う場合に有効です.

テストデータの作成

既存のデータからテストデータを作成したい場合は,「テストデータの作成」機能を用います.

テストデータの作成機能

データの末尾から指定したサイズ分だけデータが分割されます.

オプションの「シャッフルして分割」を選択すると,データの末尾でなくランダムでレコードを選択して分割を行います.