统计学
目录:0.统计学基础简介
1.描述性统计(Descriptive Statistics)
2.随机变量简介
3.推断性统计(Inferential Statistics)
4.方差分析
5.回归分析
0.统计学基础简介
0-1 统计分析包括描述统计(Descriptive Statistics)和推断统计(InferentialStatistics)两大部分;
1.描述性统计(Descriptive Statistics)
1-1 面对已搜集的数据,首先对数据进行整理(Organization),如排序统计频数、绘制频数分布表;也可以通过计算一些指标对数据进行总结(Summarization)
这些指标包括平均数、中位数等;对已知数据信息进行整理、归类、简化或绘制成图表等来呈现数据特征,是描述性统计分析的主要内容;
1-2 对于某一特定事物,其所有可能发生的结果形成的集合称之为总体(Population),而其中一部分可观察到的结果则形成样本(Saple)。比如若要知道全校学生身高的均值,通常做法为,随机抽取一部分学生1,测量这部分学生的身高,然后用这部分学生身高的均值来代表全校学生身高的均值。在这个例子中,我们要研究的变量就是学生的身高,而全校学生的身高数据是总体,我们抽取的学生身高数据则是样本。通过分析有限样本数据来推测总体的特征是推断统计主要解决的问题;
1-3 数据类型:将数据分成两类: 定性数据 (Qualitative Data)和定量数据(Quantitative Data),
1-4-1 定性数据:是对事物性质进行描述的数据,通常只具有有限个取值,往往用于描述类别。比如股票所属行业数据即为定性数据,工商银行和浦发银行属于银行业、中国联通属于电信业;
1-4-2 定量数据是呈现事物数量特征的数据,是由不同数字组成的,数字取值是可以比较大小的,比如各只股票收益率数据即是定量数据,我们可以比较同一时间哪只股票的收益率较高,也可以比较同一只股票何时收益较高;
1-4 图表:频数分布表、直方图
1-5 数据位置:样品平均数(算数平均和几何平均【用在收益率】)、中位数、众数、百分位数
1-6 数据的离散程度:极差(最大值-最小值)、平均绝对偏差(所有数据与均值的偏差)、方差、标准差
2.随机变量简介
2-1 分为离散型随机变量(Discrete Random Variable)和连续型随机变量(Continuous Random Variable);
如果一个随机变量的取值范围为有限或无限可数的孤立点(比如 1,2,3,... 这样的序列),则称此变量为离散型随机变量相反,如果一个随机变量在一个区间上任意取值,则称此随机变量为连续型随机变量。比如掷硬币的结果只能取1或2,即只能取有限个点,所以掷硬币的结果是离散型随机变量。而在金融投资分析中,大部分的随机变量如收益率、价格就是连续型随机变量。
2-2 概率与概率分布
2-3 期望值与方差:期望 (Expectation)是随机变量所有可能取值结果之均值,用来呈现总体的中心位置。对于离散型随机变量,期望是该随机变量所有可能的取值与其概率的乘积之和;
方差:刻画总体的离散程度;
2-4:分布:二项分布、连续型正态分布、卡方分布、t分布、F分布;
2-4-1 二项分布在金融市场中的应用:二项分布常常用于描述金融市场中只有两个结果之重复事件。例如,假设变量Y在股价上涨时取值为1,概率设为p;在股价下跌取为0,概率就是1-p。X 取为n天中股价上涨的天数,X ~ b(n,p),对应的性质如前所述,比如5天中有2天股价上涨的概率就是P{X=2}= C₅²(1-p)³
假设沪深300指数单日之上涨下跌为伯努利试验,当收益率为正时记为1,负的收益率记为0;多日之上涨下跌服从二项分布。统计 2014年沪深300 指数的收益率数据可知,在245个交易日中有130个正的收益率和115个负的收益率。据此,可以假设沪深300指数上涨的概率为130/245 = 0.53,即p = 0.53。现在,我们可以估计接下来 10天中沪深300指数有6天上涨的概率;
2-4-2 正态分布:又名高斯分布,常用的连续型随机变量的概率分布;在金融市场的应用:VaR (Value at Risk)指的是在一定概率水平 (a%)下,某金融资产或金融资产组合在未来特定的一段时间内的最大可能损失;