knaka Tech-Blog

AI, IoT, DIYエレクトロニクス, データサイエンスについて投稿予定です。

分散、標準偏差、要約統計量


index:

必要なimport

#
import numpy as np
import numpy.random as random
import scipy as sp
import pandas as pd
from pandas import Series, DataFrame

import matplotlib.pyplot as plt
import matplotlib as mpl

サンプルのデータ: 特定に抽出した人物のサンプル。データ。
=>アンケート値でなく、適当なランダム値

height :身長 150 -180 ,random
weight :体重 50 - 80 , random
coffee :週にcoffeeを飲む回数
tea : 週に お茶を飲む回数

分散

ばらつきを示す。
https://bellcurve.jp/statistics/course/5919.html

データを読み込みます。

#
person = pd.read_csv("dat_person.csv")
person.head()

結果: 

   cofee  heiht  tea  weight
0     13    169   19      58
1     11    158   14      59
2      6    160   10      70
3     15    150    1      77
4      3    150   17      62

分散の表示

#
person.coffee.var()

結果

26.819871794871798

標準偏差

ばらつきを示す。分散の平方根とる。
https://bellcurve.jp/statistics/course/5924.html

coffee の標準偏差

#
person.coffee.std()

結果

5.178790572602043

平均値

print( person.coffee.mean())

結果

10.275

中央値

print( person.coffee.median())

結果

11.0

最頻値

最も頻度が多い値

print( person.coffee.mode())

結果

0    12
dtype: int64

要約統計量

https://ja.wikipedia.org/wiki/%E8%A6%81%E7%B4%84%E7%B5%B1%E8%A8%88%E9%87%8F
標本の分布の特徴を代表的に(要約して)表す統計学上の値であり、
統計量の一種。記述統計量(英: descriptive statistics value)、
基本統計量、代表値(英: representative value)ともいう

正規分布の場合は、平均と、分散または標準偏差で分布を記述できる。
正規分布からのずれを知るためには、尖度や歪度などの高次モーメントから求められる統計量を用いる。
正規分布から著しく外れた場合には、
より頑健な中央値、四分位点、最大値・最小値や最頻値が用いられる。
「頑健」とは分布の非対称性や外れ値などの影響を受けにくいことを意味する統計用語である

#
person.coffee.describe()

結果:上から
データ数
平均値
標準偏差
最小値
第一四分位数
第二四分位数
第三四分位数
最大値

count    40.000000
mean     10.275000
std       5.178791
min       0.000000
25%       6.000000
50%      11.000000
75%      13.500000
max      19.000000
Name: coffee, dtype: float64

四分位範囲

=> 散らばりの程度を表す尺度の一つ。
「75パーセンタイル(第三四分位数)-25パーセンタイル(第一四分位数)」として求められる。

#
desc= person.coffee.describe()
(desc[6] -desc[4] )

結果

7.5