Excel

相関係数

相関係数とは

相関係数とは2つの変数の関連性の強さを示した指標になります.

統計学では変数の関連性を相関と言い,関連性が強い場合相関が強いと言います.相関係数は-1から1までの値を取り,絶対値が大きいほど相関が強くなります.

2つの変数の関係を散布図で示すと以下のようになります.

相関関係と散布図

正の相関がある場合右上がりの直線に沿ってデータが分布し,負の相関がある場合右下がりの直線に沿ってデータが分布します.相関が強いほど1つの直線に沿ってデータが分布します.

相関がほどんどない場合は特定の直線に沿って分布しません.

統計学において相関係数の大きさに決められた基準はありませんが,相関係数の値の目安は以下のようになります.

相関係数にはいくつか種類があります.一般的に”相関係数”と言われているのはピアソンの積率相関係数で,2つの変数が量的データであった場合に用います.

》相関係数の種類

Excelを用いた計算方法(ピアソンの積率相関係数)

ピアソンの積率相関係数についてExcelを用いた計算方法を解説します.ExcelではCORREL関数を用いてピアソンの積率相関係数を求めることができます.

 CORREL関数の書き方:=CORREL(“変数Aの範囲”,”変数Bの範囲”)

手計算で行なう場合,以下のように2つの変数の共分散と標準偏差から求めることができます.

相関係数の定義式

Sxyが2変数の共分散,SxとSyは各変数の標準偏差になります.

》Pythonを用いた求め方

今すぐ解析結果を知りたい方へ

この後紹介するExcelを用いた計算方法より簡単に,相関係数・無相関の検定結果を調べることができる統計解析アプリStaatAppを販売しております.

StaatAppでは相関係数以外にも様々な統計解析をマウス操作だけ実行することができます.詳細は以下のページをお読みください.

》統計解析アプリStaatApp
》StaatAppで相関係数・無相関の検定を行う

統計解析アプリStaatApp

相関係数の仮説検定(無相関の検定)

相関係数は扱うデータのサンプルサイズが大きいほど正確な値になります.

サンプルサイズが小さい場合,求めた相関係数の値が大きかったとしても偶然の可能性が高くなります.新しく外れ値を追加すると相関係数は急激に小さい値となります.

相関係数のサンプルサイズが大きい場合,小さい場合

求めた相関係数が統計学的に有意であるか(偶然ではないこと)を判定する方法として相関係数の仮説検定があります.

帰無仮説を「母相関係数が0である」,対立仮説を「母相関係数が0ではない」と設定する仮説検定で無相関の検定とも呼ばれます.

ピアソンの積率相関係に対しては,Excelで以下のような計算を行うことでp値を求めることができます.

Excelを用いた無相関の検定の計算例

各セルに入力した計算式は以下になります.

 ・F2:=CORREL(B3:B12,C3:C12)
 ・F4:=ABS(F2)*SQRT(F3-2)/SQRT(1-F2^2)
 ・F5:=TDIST(F4,F3-2,2)

無相関係数の検定における検定統計量tは次のように定義されます.

無相関の検定の検定統計量

検定統計量tは自由度n-2のt分布に従うのでExcelではTDIST関数を用いてp値を求めることができます

計算例ではp値が0.0099..となったため有意水準α=0.05において,帰無仮説は棄却され「母相関係数が0ではない」つまり,求めた相関係数は統計学的に有意である判断できます.

検定統計量の計算式からも分かるように,帰無仮説を棄却するためにはサンプルサイズが小さいほど相関係数の絶対値が大きい必要があります.逆にサンプルサイズが100のように大きい場合は,相関係数r=0.2でも帰無仮説は棄却されるためあまり意味を持たなくなります.

》統計学における仮説検定とは
》正しく理解したい!p値とは

補足① 相関係数の種類

ピアソンの積率相関係数は量的データに対して計算する相関係数です.扱うデータが質的データであった場合は別の相関係数を使う必要があります.

相関係数 変数A 変数B
ピアソンの積率相関係数 量的データ 量的データ
相関比 量的データ カテゴリーデータ
スピアマンの順位相関係数 順位データ 順位データ
ケンドールの順位相関係数 順位データ 順位データ
クラメールの連関係数 カテゴリーデータ カテゴリーデータ

例えば扱うデータが量的データとカテゴリーデータであった場合は,相関比を求めることで変数の関連性を調べます.

量的データと量的データの関連性を調べる場合でも,外れ値がある場合は順位データに変換して順位相関数を用います.スピアマンの順位相関係数とケンドールの順位相関係数の違いについては各ページで解説しています.

》統計学的におけるデータの種類

2変数の関連性を調べる相関係数とは異なりますが,同じサンプルに対する一致度を調べる級内相関係数という統計量も学術分野でよく用いられます.

補足② 切断効果について

相関係数を求める際に注意する点として切断効果あります.切断効果とは偏った範囲のデータを用いて相関係数を計算して,本来の相関関係とは違う結果となることです.

以下の図は年収と年齢のデータ(架空)になります.全ての年齢の人を対象に相関関係を調べると,年収と年齢には強い相関関係がありそうです.

相関係数における切断効果の例

40歳未満の人を対象に相関係数を調べると,相関関係は強くないという結果が得られます.

このように偏ったデータを用いることで,本来の年収と年齢の相関関係とは異なる結果となってしまいます.

補足③ 相関と回帰の違い

統計学において,2つの量的変数の関係を調べる方法として相関と回帰があります.

相関では2つの変数の関係性を調べることができますが,因果関係を調べることはできません.変数間の因果関係を調べたい場合は回帰分析を行います.

》回帰・回帰分析とは