本节主要介绍统计学的基本概念、测量尺度类型、频数分布、集中趋势描述、分位数、离散度、切比雪夫不等式、变异系数、斜率峰态等。简单来说,就是是复习高中数学的基本概念。
本节核心:统计概念和市场回报
统计学基础知识
统计有两种类型加权几何平均数,描述性统计和推论性统计。
词汇表:描述性统计
描述性统计主要用于描述和扩展数据集的重要统计特征。
词汇表:推断统计
推论统计(inferential statistics)主要研究如何根据小数据集(样本)的统计特征来推断大数据集的特征。
比如我们知道很多人说身边离婚的人越来越多,然后得出现在离婚率高的结论。这是一个非常经典的推论统计。从您周围的样本中推断人口特征。当然,这个结论虽然有待商榷,但从身边的现象到全局,确实是我们的惯性思维,其中也存在一定的认知偏差。
所以有了统计学,自然就有概率和频率。一般我们所指的频数也称为绝对频数(abosulute frequency),是指总体中每个观测值落在不同区间的次数。
频率(绝对频率)除以总频率得到相对频率(实际频率)。
例如,抽出 20 张牌,其中抽出 2 张 A。则频率或绝对频率为2,频率为10%。(吐槽:中学提到的频率和频率都比较顺畅,CFA里面的定义太难发音了。)
统计量度
集中度的衡量一般采用众数、中位数和均值。
名词解释:算术平均数
最简单的算术平均值是所有观察值的总和除以观察值的数量。
算术平均值的性质:所有观测点到算术平均值的距离之和为零;它很容易受到极端值的影响。
名词解释:加权平均
加权平均是对不同的观测值赋予不同的权重,然后计算平均值。
可以说加权几何平均数,算术平均数是所有观测值在加权平均数中的权重为1的一种特殊形式。
名词解释:几何平均数
几何平均数(egeometric mean)是每个变量的值相乘的平方根。最常用的场景是几年内投资的平均回报率。
名词解释:调和平均数
调和平均数比较少见,也称为倒数平均数,是各变量的倒数的算术平均数的倒数。一个比较常用的例子是计算同一总价下一段时间内多只股票的平均购买成本。
在数学中,调和平均数≤几何平均数≤算术平均数。
除了平均数,往往还需要知道众数和中位数,以减少极值的影响,或者更直观地观察大数的分布。
同时,可能经常会用到四分位数、五分位数、十分位数、百分位数等分位数。
说完集中度的度量,自然要说说分散度的度量。一般来说,集中度的衡量代表了对利润的估计,而分散度的衡量则代表了风险判断。
第一个是平均绝对偏差 (MAD),它是观测值数量与其算术平均值之间的绝对距离之和的平均值。值越小,数据越集中,分散程度越小。
MAD中的绝对值用平方代替,可以得到方差表达式。方差的平方根产生标准差。
那么热衷于折腾的金融从业者并不满足于此,他们想出了半方差(semi-variance)和目标半方差(target semi-variance),专门用来衡量下行风险。
顾名思义,当收益率曲线对称分布时,半方差是方差的一半。当分布不对称时,需要计算数据低于均值的方差。
偏离分布描述
切比雪夫不等式意味着对于任何一组观测值,假设 k 是任何大于 1 的常数,单个观测值落在均值附近 k 个标准差范围内的概率不小于 (1-1/k**2 )。
名词解释:变异系数
变异系数(CV)是用来衡量观测值相对变异性的指标,由标准差与均值之比得出。
同时,它也等于波动率除以均值,因此可以用来衡量1单位预期收益的风险。
名词解释:偏度
偏度是用来衡量统计数据分布的偏斜方向和程度的指标,反映统计数据分布不对称的程度。从数据表看,就是函数曲线尾部的相对长度。
其中,right skewness是右尾比左尾长,mode