【徹底解説】多変量解析

多変量解析とは

多変量データとは，複数のデータ（変数）が組み合わさったデータになります．

多変量データの分析を行う手法を多変量解析と言います．多変量解析ではデータ間での関連性やデータが持つ意味の抽出，予測式の作成を行います．

ある個体に対して様々な情報を集めた際に行う手法が多変量解析です．

例えば複数の社会人から年収・年齢・性別・結婚有無といったデータを集めた際に，多変量解析を行うことで年収に影響を及ぼしている要因は何かを調べることができます．

また，年収が未知の社会人のデータがある場合，年齢・性別・結婚有無といった他のデータから予測することができます．

多変量解析の分類

多変量解析は様々な統計学的手法の総称になります．扱うデータの種類や目的によって適した手法を選ぶ必要があります．

手法を選ぶ際にまず考えるのが，分析の目的になります．多変量解析は大きく2つの目的に分類することができます．

1つ目が「予測」と呼ばれる手法になります．代表例として，重回帰分析やロジスティック回帰分析があります．「予測」を目的とする多変量解析では，多変量データを結果（目的変数）と原因（説明変数）に分けて考えます．結果に対する原因は何かを分析したい場合に行うのが「予測」の手法です

「予測」の手法では，分析結果から結果を導くための予測式を求めることもできます．

2つ目が「要約」と呼ばれる手法です．代表例としては，主成分分析やクラスター分析などがあります．「要約」を目的とする多変量解析では，多変量データを結果と原因に分けることはしません．多変量データを横並びで考えてデータの持つ特性を分析したり，原因（説明変数）に影響を与えている潜在的な要因（潜在変数）を分析したい場合に行います．

分析の目的を定めたら，扱うデータの種類によって用いる手法を選択します．考えるべきポイントは，扱うデータの種類がカテゴリーデータもしくは数量データであるかです．

例えば，目的変数が2つの分類（Yes/Noなど）を持つカテゴリーデータで，説明変数が数量データである場合はロジスティック回帰分析を行います．

》説明変数と目的変数について

以下の表が主な多変量解析における扱うことができるデータの種類と数になります．

手法	目的	目的変数		説明変数
手法	目的	カテゴリーデータ	数量データ	カテゴリーデータ	数量データ
重回帰分析	予測		1		複数
数量化Ⅰ類	予測		1	複数
判別分析	予測	1（2値）		複数（2値）	複数
ロジスティック回帰分析	予測	1（2値）			複数
多項ロジスティック回帰分析	予測	1（多分類）			複数
数量化Ⅱ類	予測	1（多分類）		複数
一般化線形混合モデル	予測	1（2値）	1	複数
Cox比例ハザード回帰	予測		2（生存時間）		複数
主成分分析	要約				複数
因子分析	要約				複数
共分散構造分析	予測・要約		複数		複数
クラスター分析	要約				複数
コレスポンデンス分析	要約			２
数量化Ⅲ類	要約			複数
決定木	予測	1		複数

統計学におけるデータの種類については，以下のページで具体的に解説しています．

》統計学におけるデータの種類

多変量解析の実行方法

多変量解析は非常に複雑な計算が必要なため，重回帰分析を除いて手計算やExcelを用いて行うことは難しいです．多変量解析は一般的にRやPython，有料統計解析ソフトを用いて行われます．

本サイトでは2つの方法を紹介しています．

① Pythonを用いた方法

Pythonを用いた方法に初めてプログラミングを行う方でもわかるように解説しています．

》Pythonを用いた統計解析

② 統計解析アプリ（StaatApp）を用いた方法

StaatAppとは任意のデータを数クリックだけで統計解析ができるPC用アプリです．プログラミングに苦手意識ある方や，できるだけ学習コストを小さくして正確な解析結果を得たい方にはおすすめです．

初めての方はほぼ全ての機能を無料で利用できるので，お気軽にダウンロードしてお使いください！

》統計解析アプリStaatAppとは

主な多変量解析

主な多変量解析の手法について解説します．

重回帰分析

重回帰分析とは，多変量解析で最もよく用いられる分析手法になります．回帰分析の原因（説明変数）が複数あるバージョンです．

結果に対して影響を及ぼしている原因は何かを調べる際に用います．また，「予測」の手法なので分析結果から予測式を求めることもできます．

扱えるデータは，数量データのみとなります．多変量データにカテゴリーデータが含まれている場合は，他の分析手法を用いるかもしくは，ダミー変数を使う必要があります．

》徹底解説！重回帰分析

数量化Ⅰ類

数量化Ⅰ類は，重回帰分析と類似した手法で違いは説明変数がカテゴリーデータであることです．

数量化Ⅰ類では，結果に対する原因の影響度や結果の予測式を求めることができます．

判別分析

判別分析は，数量化Ⅰ類とは反対に目的変数がカテゴリーデータで説明変数が数量データである場合に行います．厳密には，説明変数がカテゴリーデータでも2つの分類であれば行うことができます．

ロジスティック回帰分析と類似する手法ですが，判別分析では目的変数の分類がすでに分かっておりその分類を判別するために行います（後ろ向き研究）．医療分野では，疾患が発症した後に，ある被験者が疾患であるかを判断するために用います．

扱うデータは，正規分布に従う必要があります．

》正規性の調べ方

ロジスティック回帰分析

ロジスティック回帰分析は，判別分析と同様に目的変数がカテゴリーデータで説明変数が数量データである場合に行います．

ロジスティック回帰分析では，原因が複数ある場合に結果を予測するために行います（前向き研究）．医療分野では，疾患が発生する前に，ある被験者が疾患を発症するか予測するために用います．また，「１日の喫煙本数の差によって死亡リスクが何倍になるか」を予測することもできます．

扱うデータは正規分布に従う必要がないので，判別分析より優先的に使われます．

》ロジスティック回帰分析の手順（Python）
》StaatAppで行うロジスティック回帰分析

多項ロジスティック回帰分析

多項ロジスティック回帰分析は，目的変数が3カテゴリー以上の多分類の場合に行うロジスティック回帰分析です．

多項ロジスティック回帰分析では目的変数の”カテゴリー数-1”個の回帰式が作成されます．

数量化Ⅱ類

数量化Ⅱ類は，重回帰分析と類似した手法で違いは目的変数と説明変数が数量データであることです．数量化Ⅱ類では，結果に対する原因の影響度や結果の予測式を求めることができます．

》徹底解説！数量化Ⅱ類

一般化線形混合モデル

一般化線形混合モデル（Generalized Linear Mixed Models; GLMM）は，統計モデルの一つで，固定効果とランダム効果の両方を考慮します．固定効果はすべての個体やグループに共通する効果を示し，ランダム効果は個体やグループ間のランダムな変動を捉えます．様々なデータに合わせて柔軟なモデルを作成できるため使用場面は多岐にわたりますが，特に繰り返し測定データや階層的なデータ構造を持つデータの分析に適しています．

近年の学術分野では非常によく用いられるかつおすすめの分析手法になります．

》徹底解説！一般化線形混合モデル