統計アプリ

【Excelファイルで行う】クラスター分析

任意のExcelファイルやCSVファイルからデータ分析を行う統計解析アプリ(StaatApp)を用いた,クラスター分析の方法について紹介します.

StaatAppでは非階層クラスター分析で代表的なK-means法と階層クラスター分析を行うことが可能です.

》アプリ(Windows版)の購入
》統計解析アプリStaatAppとは

データの読込・操作

① アプリの起動からデータ入力

ダウンロードした「StaatApp_for_Cluster」の起動からデータの読込までの基本操作は以下のページで解説しています.

》StaatAppの基本操作

読み込ませたサンプルデータは以下のようになります.”副業有無”と”性別”はデータ作成時点でダミー変数としていますが,StaatAppでダミー変数に変換することも可能です.(副業有→”1”,女性→”1”)

② データの操作方法

読み込んだデータの操作方法(データクレンジング)は以下のページで紹介しています.

》StaatAppを用いたデータ操作

Kmeans法の実行方法

① Kmeans法の選択

メニューバーから「多変量解析」→「Kmeans法」を選択します.

※ ☀マークが実行可能な統計解析です.基本統計量の算出や散布図行列の作成も可能です.

Kmeans法の選択

② 変数の選択

Kmeans法用のウィンドウが表示されたら,一覧からKmeans法の対象とする変数名を選択します.

ダミー変数を選択する際は,多重共線性の問題を回避するために”1列分”を除いて選択します.サンプルデータは既に”1列分”除いたダミー変数になっています.

K-means法の変数選択

③ クラスター数の設定

クラスタリングを行う集団の数(クラスター数)を設定します.以下の画像ではクラスター数を”4”と設定しました.

K-means方のクラスター数選択

④ 解析の実行

設定が完了したらツールバーの「解析実行」ボタンをクリックしてK-means法を実行します.実行結果は以下のように表示されます.

選択した変数データの先頭列に”class”という行が追加されて出力されます.この”class”列にある値がクラスタリングした結果の属する集団を示す番号になります.同じ”1”を持つサンプル(行)は同じクラスターであるとわかります.

出力結果はツールバーの「CSV出力」ボタンから出力可能で,Excelなどを用いてクラスターごとの分析を行うことができます.

階層クラスター分析の実行方法

① 階層クラスター分析用ウィンドウの表示

メニューバーから「多変量解析」→「階層クラスター分析」を選択します.

階層クラスター分析の選択

② 変数の設定

階層クラスター分析用のウィンドウが表示されたら,一覧から階層クラスター分析の対象とする変数名を選択します.

変数の選択

③ 距離測定法・クラスタリング手法の設定(任意)

距離測定法とクラスタリング手法の設定が可能です.デフォルトでは階層クラスター分析で最も一般的な手法が設定されているため,特にこだわりがない場合は設定する必要はありません.

詳しくは補足④をお読みください.

④ 解析の実行

設定が完了したらツールバーの「解析実行」ボタンをクリックして階層クラスター分析を実行します.

階層クラスター分析の実行結果

実行すると画像のようなデンドログラム(樹形図)が表示されます.樹形図の分岐が近いサンプルほど類似したクラスターに分類されていることがわかります.

表示されたグラフ上部のメニューを選択することで,目盛りや軸ラベルの設定,画像の保存を行うこともできます.

アプリ(Windows版)の購入

補足① 結果の見方

クラスター分析で出力された結果の見方は,以下のページでそれぞれ解説しています.

》K-means法(非階層クラスター分析)
》階層クラスター分析

補足② 統計アプリStaatAppとは

StaatAppは計算仮定が複雑な解析手法を,誰でも手軽に素早く行なうことができるアプリです.StaatAppの詳細は以下のページをお読みください.

》統計解析アプリStaatApp

統計解析アプリStaatApp

補足③ 階層クラスター分析と非階層クラスター分析

非階層クラスター分析では,樹形図を作成しません.クラスター分析を行う前にグループ数を決めて行う必要があります.

一方で,階層クラスター分析は計算量が膨大になるためビッグデータを分析したい際には不向きです.階層クラスター分析を行うサンプル数の目安は100以下になります.

補足④ 距離測定法・クラスタリング手法

StaatAppでは距離測定法・クラスタリング手法を以下の方法で設定可能です.

距離測定法クラスタリング手法
ユークリッド距離(既定値)ウォード法 ※ユークリッド距離のみ有効
標準化ユークリッド距離最短距離法(最近隣法)
マハラノビスの距離最長距離法(最遠隣法)
マンハッタン距離(市街地距離)重心法(重心までの距離)※ユークリッド距離のみ有効
チェビシェフ距離(最大座標差)群平均法
ミンコフスキー距離メディアン法 ※ユークリッド距離のみ有効

補足⑤ アプリの仕様について

アプリではPythonのscikit-learnライブラリとScipyライブラリ用いてクラスター分析を行っています.scikit-learnとScipyはPythonで統計解析や機械学習を行なう際に使用される一般的なライブラリです.

以下の公式ドキュメントに詳細な仕様が記載されています.

➔ K-means法の公式ドキュメント
➔ 階層クラスター分析の公式ドキュメント

補足⑥ 起動時に発生するエラーについて

StaatAppを起動した際に,以下の画面が表示されて起動しない場合があります.

StaatAppの起動時のエラー

原因は起動しているユーザ名に日本語が含まれているためです.対応方法は以下のページで紹介しています.

》ユーザ名に日本語が含まれる場合の対応方法