分散、標準偏差、要約統計量
index:
必要なimport
# import numpy as np import numpy.random as random import scipy as sp import pandas as pd from pandas import Series, DataFrame import matplotlib.pyplot as plt import matplotlib as mpl
サンプルのデータ: 特定に抽出した人物のサンプル。データ。
=>アンケート値でなく、適当なランダム値
height :身長 150 -180 ,random
weight :体重 50 - 80 , random
coffee :週にcoffeeを飲む回数
tea : 週に お茶を飲む回数
分散
ばらつきを示す。
https://bellcurve.jp/statistics/course/5919.html
データを読み込みます。
# person = pd.read_csv("dat_person.csv") person.head()
結果:
cofee heiht tea weight 0 13 169 19 58 1 11 158 14 59 2 6 160 10 70 3 15 150 1 77 4 3 150 17 62
分散の表示
#
person.coffee.var()
結果
26.819871794871798
標準偏差
ばらつきを示す。分散の平方根とる。
https://bellcurve.jp/statistics/course/5924.html
coffee の標準偏差
#
person.coffee.std()
結果
5.178790572602043
平均値
print( person.coffee.mean())
結果
10.275
中央値
print( person.coffee.median())
結果
11.0
最頻値
最も頻度が多い値
print( person.coffee.mode())
結果
0 12 dtype: int64
要約統計量
https://ja.wikipedia.org/wiki/%E8%A6%81%E7%B4%84%E7%B5%B1%E8%A8%88%E9%87%8F
標本の分布の特徴を代表的に(要約して)表す統計学上の値であり、
統計量の一種。記述統計量(英: descriptive statistics value)、
基本統計量、代表値(英: representative value)ともいう
正規分布の場合は、平均と、分散または標準偏差で分布を記述できる。
正規分布からのずれを知るためには、尖度や歪度などの高次モーメントから求められる統計量を用いる。
正規分布から著しく外れた場合には、
より頑健な中央値、四分位点、最大値・最小値や最頻値が用いられる。
「頑健」とは分布の非対称性や外れ値などの影響を受けにくいことを意味する統計用語である
#
person.coffee.describe()
結果:上から
データ数
平均値
標準偏差
最小値
第一四分位数
第二四分位数
第三四分位数
最大値
count 40.000000 mean 10.275000 std 5.178791 min 0.000000 25% 6.000000 50% 11.000000 75% 13.500000 max 19.000000 Name: coffee, dtype: float64
四分位範囲
=> 散らばりの程度を表す尺度の一つ。
「75パーセンタイル(第三四分位数)-25パーセンタイル(第一四分位数)」として求められる。
# desc= person.coffee.describe() (desc[6] -desc[4] )
結果
7.5