統計量とは

統計量とはデータの特徴を表す値のことです。

統計量にも種類がありますが、ここで説明する統計量は要約統計量や基本統計量と呼ばれます。

統計量

合計

数値を合わせまとめた値。

np.sum(np.array([1,2,3,4,5]))
# 15

numpy.sum

最小

最も小さな値。

np.min(np.array([1,2,3,4,5]))
# 1

numpy.amin

最大

最も大きな値。

np.max(np.array([1,2,3,4,5]))
# 5

numpy.amax

平均/算術平均/相加平均

データの中心がどのあたりにあるのかを示す値。中央値とは意味が異なる。

np.mean(np.array([1,2,3,4,5]))
# 3.0

numpy.mean

中央値/メジアン

データを小さい順に並べたとき中央に位置する値。データが偶数個の場合は、中央に近い2つの値の算術平均をとる。

中央値

np.median(np.array([1,2,3,4,5]))
# 3.0

np.median(np.array([1,2,3,4,5,6,7,8]))
# 4.5

numpy.median

最頻値(さいひんち)/モード

度数が最も多く現れるデータの値。

最頻値

scipy.stats.mode(np.array([1,3,5,5]))
# (array([5]), array([ 2.]))

# 多次元配列
x = np.array([[1,3,5,5], [5,4,3,0]])
scipy.stats.mode(x, axis=None)
# (array([5]), array([ 3.]))

scipy.stats.mode

分散

データの ばらつき を示す値。平均値からのばらつきを指す。

np.var([1,2,3,4])
# 1.25

numpy.var

標準偏差

平均値からの「平均的な」ばらつき具合を示す値。 分散の平方根で、元のデータと同じ単位で扱える。

分散・標準偏差〜ペンギンでも分かる統計学入門 第1回(3/4)〜

np.std([1,2,3,4])
# 1.1180339887498949

# 分散の平方根で確かめてみる
np.sqrt(np.var([1,2,3,4]))
# 1.1180339887498949

numpy.std

尖度(せんど)

分布の尖り具合を表す値。 分布が正規分布かどうかを判断する目安に用いられる。

scipy.stats.kurtosis(np.array([1,2,3,4]))
# -1.36
scipy.stats.kurtosis(np.array([1,2,3,3,4,4]))
# -1.0101130279595474

scipy.stats.kurtosis

歪度(わいど)

分布の左右非対称の度合いを表す値。 尖度と同時に分布が正規分布かどうかを判断する目安に用いられる。

scipy.stats.skew(np.array([1,2,3,4]))
# 0.0

scipy.stats.skew(np.array([1,2,3,3,4,4]))
# -0.48756686638394137

scipy.stats.skew

統計でよく出てくる用語

母集団

調査対象となる集団全体。

標本/サンプル

母集団から抽出された一部分。

母集団と標本

度数

回数や頻度のこと。

階級

度数を計測する尺度や分類項目。

分布

数値の広がりの状態を言う。

  • 分布が広い: 最小値から最大値までの差が大きい。
  • 分布が狭い: 最小値から最大値までの差が小さい。

おまけ: scipy で一度に記述統計量を得る方法

scipy.stats.describe(np.array([1,1,2,3,4,5,5]))
# DescribeResult(nobs=7, minmax=(1, 5), mean=3.0, variance=3.0, skewness=0.0, kurtosis=-1.5740740740740742)
# nobs: データの数
# minmax: 最小値、最大値
# mean: 平均
# variance: 分散
# skewness: 歪度
# kurtosis: 尖度

scipy.stats.describe


最終更新日: 2016年02月13日(土)


Back to top