Pythonで統計解析を行う上で最も基本的な統計量について紹介します.
Pythonでは,統計解析の際にNumPyを使う場合が多いですが,今後より高度な統計解析を行う可能性にも備えて,SciPyを用いた統計量の求め方を紹介します.
SciPyの統計量を求める関数
単純な配列データの例で紹介します.初めに,データを格納するためのNumpyもインポートします.
用いる関数は以下のようになります.
# サンプルデータを格納
test_data = np.array([3, 6, 5, 7, 6, 3])
# 合計値
sp.sum(test_data)
# 平均値
sp.mean(test_data)
# 分散
sp.var(test_data, ddof=0)
# 不偏分散
sp.var(test_data, ddof=1)
# 標準偏差
sp.std(test_data, ddof=1)
# 中央値
sp.median(test_data)
合計値・平均値については単純に関数と目的とするデータを定義するだけです.
分散と不偏分散は同じvar関数を用いますが,ddofが”0”と”1”で違う点に注意してください.
同様に標準偏差でも,ddof=1と指定する必要があります.
統計量の画面出力(おまけ)
おまけとして,上記の関数を用いて標準偏差を画面に出力するコードを紹介します.
# ライブラリのインポート
import numpy as np
import scipy as sp
# データを格納する
test_data = np.array([3, 6, 5, 7, 6, 3])
# 標準偏差を求める
st = sp.std(test_data, ddof=1)
#画面出力する
print(st)