统计学入门知识点汇总,让你不再做小白

常关注丁点帮你』微信公众号的小伙伴们应该都比较熟悉最近推出的『每日丁点』统计知识系列,我们希望每天给大家呈现精炼又便于理解的知识总结。(提示:头条号不支持外部链接,所以以下链接如有失效,可关注“丁点帮你”查看原文)

目前,已有10篇入门级知识点的讲解短文与大家见面了,这些知识点也是后续学习和实操中必不可少的理论基础。今天我们就来一起回顾一下,看看每天进步一丁点之后,你的收获吧!

1. 为什么要学统计?

按照教科书的定义,统计学(statistics)是一门关于数据的科学,它包括收集、分析、解释和表达数据,目的是获得可靠的结论。为什么要学统计?因为个体之间存在变异,也就是个体间的差异。比如,一个班每个学生的身高、两种药物的疗效等几乎都不可能完全相同的,一定会有“差异”。如果世间万物都完全一致(比如克隆人),那么个体之间就不存在差异(也就是所谓的变异),到那时统计学就毫无用武之地,因为我们能以一当十,甚至以一当所有,不需要抽样,不需要求平均。

变异代表了什么?答案是信息!身高体重的差异,给了我们谁更高谁更壮的信息;某项生理指标的差异,例如血压,可以获得健康与非健康的信息;两种药物或治疗方法的差异,获得了孰优孰劣的信息……为了获取诸如上面所说的信息,我们开始收集和分析数据,再对结果进行解释和表达,最终得出谁更高、谁更壮、有多少人更健康、哪种药更好的结论。

原文:每日丁点 | 统计学初探

2. 数据是统计的基础,变量是数据的基础。

原文:每日丁点|定量和定性变量、连续和离散变量,到底怎么分?

3. 数表和直方图

制作频数分布表和直方图的目的是为了快速了解数据的分布情况。所谓分布,简单理解就是想知道,数据会主要集中在哪儿。无论什么资料,刨除它的单位(如身高、体重等),它们都是一个一个的数字,那么从数轴上看,这些数字会处在在哪些地方呢?比如身高的数据,如果以米为单位,根据常识可以猜测,它会大概集中在1.5-1.8这个区间内。也就是说,虽然每个人的身高不完全相同,但身高的数据却是有规律的,如何发现这种规律,第一步就是画出它的频数分布表和直方图。

制作频数分布表的步骤如下:(1)找出最小值和最大值。(2)计算全距 (range,R) :也就是最大值与最小值之差。(3)确定组距:相邻两组之间的距离,组距=全距/组段数,通常组段数取8~12组。(4)确定组段的上、下限:每个组段的起点为下限(lower limit),终点为上限(upper limit)。每个组段均包含组段的下限值,最后一组的组段写出上限值。(5)列表整理:计算频数、频率、累计频数及累计频率。频数分布直方图的以横轴为得分、纵轴为频数;然后在横轴上标出各个组段(比如40-50),用直条的高度表示各组段的频数(也可以用“频率”),频数越大则直条越高。由此可见,制作直方图就是了解数据的第一步,化繁为简,将具体的数值转换为一个个组段区间,从而对数据的情况有一个大致的了解。

原文:每日丁点 | 频数表和直方图:走进数据的第一步

4. 集中趋势和离散趋势

前文我们谈到,拿到整理好的数据的第一步是制作频数表和直方图,从中我们可以大概知道数据的分布情况,也就是说,能看出大多数的数会集中在哪儿。

这在统计学中称作集中趋势(central tendency),我的理解就是“数据往哪里集中”。

教科书的定义是“指某一组数据向某一中心值靠拢的趋势,反映了一组数据中心点的位置,也是频数分布表和直方图中高峰所在的位置,即频数最大的组段”。

为什么数据会表现出集中趋势呢?因为具有“同质性”。从字面上可以直接理解为调查对象具有相同点。这些共同点使得个体对某项事物的感知(比如生命质量)有趋同的作用,反映在数据上就表现为“集中趋势”。

与集中趋势相对应的另一个特征是“离散趋势”。大部分数据虽然会集中在某个区间,但并不是所有数据都这样集中。从某数据的“集中位置”往左右两边延伸,距离越远,数据与集中位置的差异就越大,由此,统计学上就把数据偏离集中位置的程度称作离散趋势(dispersion tendency)。

为什么会有离散趋势呢?答案是存在变异。大家虽然有很多共同点,但毕竟不是一个模子刻出来的,在某些地方存在差异,比如性格温和还是急躁、生活态度乐观还是悲观等。

原文:每日丁点 | 三张图看懂集中趋势和离散趋势

5. 集中趋势的数字表达:均数中位数

前文我们讲解了数据的集中趋势和离散趋势,而均数和中位数就是描述数据集中趋势的最常用的指标,也称“位置测量指标”,因为它们量化的是数据的集中位置(center),表示大多数观测值所在的中心。

大家平常最熟悉的均数,全称叫“算术均数 (arithmetic mean)”计算方法自然不用多讲,但需指出的是根据数据资料的形式,均数一般有两种算法:除了把所有的观测值加和再取平均以外,还可以根据频数分布表,用各组的组中值乘以频数来计算,比如得分在40~组的频数为25,则可以直接用组中值45乘以25得出。当然,这是一种近似算法,在可以获得原始的个体数据时,还是应基于个体的数据用加和平均来算。均数不能用于偏态分布的根本原因是它对于特别大或特别小的观测值十分敏感,尤其是样本量较小的情况下,均数其实难以代表总体情况。因此,我们在拿到数据后的第一步不是算平均数,而是画频数表和直方图,直观地看看原始数据的面貌。由此,我们来看看描述集中趋势的第二个指标——中位数(M),可以说它的出现和使用就是用来弥补上述均数的这种缺陷的。要计算中位数很简单,将所有的数据从小到大排列,处于正中间位置的数就是中位数。所以在一组数据中,有一半的数据比它大,另一半比它小。不过这些需要注意的是,当样本量n为奇数时,中位数就是最中间那个数,即第(n+1)/2;而当样本量为偶数时,则中位数是中间两个数的平均数,即第n/2和第n/2 + 1个观测值的均数,注意不是第n/2 – 1。与均数相比,中位数还是存在明显不足的:1、中位数没有考虑大部分观测值的大小,仅仅纳入一个或两个数据,而均数的计算充分利用了全部数据的信息;2、两组数据合并时,合并后的中位数不能用原来两组的中位数表达,而均数可以通过相应的公式来计算得到新合并数据的平均;3、均数可以通过去掉极端数值进行修正(比如所谓的截尾均数),而中位数无法进行这样的修正,同时,当样本量较大时,极端值对均数的影响会减弱。因此,相比中位数,均数使用更加广泛。 通过比较中位数和均数的大小,可以帮助我们粗略判断数据的分布类型。具体而言,当数据呈对称分布时,均数和中位数接近;而当数据呈右偏态分布(即右边有个长尾巴)时,均数大于中位数;左偏态分布(尾巴在左),均数小于中位数。

原文:每日丁点 | 均数和中位数,那些你还不知道的事儿

6. 集中趋势的数字表达:几何平均数

与前文讲的算数平均数和中位数一样,几何均数也是描述数据集中趋势的指标之一,几何均数(geometric mean, G)是n个观测数据乘积的n次方根,常用于描述存在少数偏大的极端值的正偏态分布或观测值之间呈倍数关系或近似倍数关系数据的集中位置。原文:每日丁点 | 你还记得几何平均数吗?

7. 百分位数

我们对四分位数间距很熟悉,四分位数间距就是通过百分位数计算出来的,这一点我们后文再详述。除了四分位数间距,大家熟知的中位数也是一个百分位数,称第50百分位数(P50)。

关于百分位数(Percentile, Px),教科书的定义是,是指将所有n个观测值从小到大排列后,对应于x%位的那个数字。

比如由1~100的所有正整数组成的一个数据(n=100),那么这个数据的第50百分位数就是50,第10百分位数就是10,第80百分位数就是80。

也就是说,从理论上讲,计算百分位数(Px)实际上只需将数据进行一个排序,然后数数就可以。一个百分位数Px将一组数据分成两部分,有x%的数小于等于它,(100-x)%的数大于它。

不过,在现实情况中,我们有时找不到正好有x%的观测值小于或等于它,此时,百分位数Px的计算通常只能采用最为接近的一个数。

原文:每日丁点 | 简单谈谈百分位数

8. 离散趋势的数字表达

在这个系列文章的开篇,我们就讨论过统计学研究的核心问题:变异,简单理解就是差异。那么什么叫变异大、什么叫变异小呢?

变异程度,也可以理解为离散趋势,与离散趋势相对应的是我们前文讲解的集中趋势,我们知道集中趋势的主要指标是均数和中位数,而结合我们今天要讲解的离散趋势的描述指标,我们就能够全面地把握数据的分布特征。

为什么完整描述数据的分布特征就需要加入离散趋势,即变异程度呢?看看下面这个例子:

有A、B、C三组儿童的身高(cm),A组:92,96,100,104,108;B组:96,97,100,103,104;C组:96,99,100,101,104。

这三组儿童的平均身高都为100cm。但是仅根据它们的平均数相等,我们不能说这三组儿童的身高分布就是一致的:

下图可以一目了然地发现A组儿童身高的差异程度最大(即数据最离散),其次是B组,而C组儿童身高差异程度最小,数据都很接近。

虽然这里数据量很小,但三组儿童身高在变异程度上如此显著的差异似乎提示着某些信息,从而可以引领我们进一步探索。

回到今天的主题——变异程度(离散趋势)的定量描述指标。

1. 极差

首先,最简单的指标是极差(range, R),也称全距,是一组数据中最大值与最小值的差值,极差越大说明数据的变异程度越大,即数据越离散。极差一般可用来反映传染病、食物中毒的最短和最长潜伏期等。

很明显,极差是一个比较粗略的指标,它仅用到最大值和最小值的信息,不能反映组内其他数据的变异情况。另外,极差与样本例数有关。一般地,样本量越大,得到较大或较小变量值的可能性越大,极差就可能越大,故样本量相差较大时,不宜采用极差进行比较。

2. 方差或标准差

最常见的指标是方差或标准差,前者是后者的平方。

方差的具体计算我们不需要再多讲,不过关于样本方差为什么除以(n-1),我们平台之前发过文章解释,大家可以参考:计算样本方差时为什么是除以(n-1)?。

方差或者标准差越大说明数据越离散、变异程度越大。

3. 四分位数间距

另一个常见的指标是四分位数间距(inter-quartile range, IQR),它是根据百分位数计算出来的,计算公式是IQR = P75 – P25,即第75百分位数与第25百分位数的差。

这两个百分位数与中位数,即P50,将一组数据分成四等分,因此这三个百分位数称为四分位数(quartile),可分别记为Q1、Q2、Q3。

Q1和Q3分别称为下四分位数(P25)和上四分位数(P75)。

与极差相比,四分位数间距不受两端极大或极小数据的影响,因此其更加稳定。IQR常与中位数一起使用,综合反映数据的平均水平和变异程度,写成M(P25, P75)。

4. 变异系数

除了上述三个指标外,当我们希望比较两组数据的变异程度时,还可以使用变异系数(CV)。

当两组数据的测量尺度相差太大,比如希望比较蚂蚁和大象的体重变异,直接用标准差显然是不合理的;另外,如果两组数据单位(量纲)不同,例如希望比较身高和体重的变异,两者的量纲分别是米和千克,直接使用标准差来进行比较也不合适:3米和4千克,究竟谁更大呢?

由此,我们将样本标准差除以样本均数,得到变异系数(CV),它没有单位,同时又按照其均数大小进行了标准化,所以可以进行客观的比较。

变异系数的值越大,表示数据的变异程度越大。

5. 集中趋势和离散程度指标总结

原文:每日丁点 | 数据离散趋势的度量

9. 箱式图

学习完描述数据集中趋势和离散趋势的各种指标后,如何用恰当的图形呈现它们便成了一个重要问题。而今天要谈的箱式图就是来解决这个问题的。

箱式图,有时也称箱线图,因为中间包含一个箱子样的长方形,两端有两根细线,故称之。

箱子中间的横线为中位数、箱体的下端和上端分别是Q1和Q3的位置,由此,箱体的高度则代表四分位数间距,所以,箱体越高表示数据的变异程度越大。

相比直方图可展示原始数据的大体分布形态,箱式图表达的信息其实也很全面,它能简洁地呈现数据平均水平和变异程度,是探索性分析中最常用的图形工具。实际应用中,往往将几组数据的箱式图绘在一起,便于组间比较。

一般而言,箱式图主要呈现5个汇总的统计指标,包括一组数据的最小值、下四分位数、中位数、上四分位数、最大值。但是,我们为了涵盖更全面的信息,故常将均数也体现在图中。

如下图: 该图绘制了两个箱式图,分布代表正常居民中和患有慢性鼻窦炎的患者的精力评分,如图,在箱体中间还标出了均数,用菱形表示;以及离群值,用小空心圆表示。

此时需注意竖线下端和上端表示的不再是整个数据最大值和最小值,严格来说,应该称为上限和下限。上限是非异常范围内的最大值,计算公式是 Q3 + 1.5 IQR,即第75百分位数加1.5倍的四分位数间距。下限是非异常范围内的最小值,等于 Q1 – 1.5 IQR。在上下限范围之外的数,称为”离群值(outliers)“,其与其他数值差异较大,提示数据收集过程可能有误。

原文:每日丁点 | 箱式图以及SPSS操作视频

10. 怎么判断数据是否有误

统计学是关于数据的科学,因此,准确地获取数据,保证数据质量也是非常重要的问题。下面,我们就来简单谈谈对于数据进行逻辑核查的几种常用策略以及离群值的判断和处理。

一、逻辑核查的7种策略

1. 检查变量存储类型

在软件中,变量分为数值型变量、字符型变量等(这里与统计学中对变量的分类相区别)。

一般而言,数值型变量只能包括数字、小数点等,而不能含有字母或文字。

这种有时看似十分低级的错误有时可能成为分析过程无法顺畅进行的绊脚石,所以,也需要要留意。

2. 核查变量值范围

检查每个变量的取值范围。例如:一个人的体重不能为负数;出生月份应在1~12之间;某成年男性的身高值低于140cm或者高于210cm也值得怀疑。

3. 有效值检查

检查观测值是否为事先定义的数值之一。例如:录入性别时,事先规定用1表示男性,2表示女性,如果数据中出现其他观测值则说明有误。

4. 一致性检查

检查有无前后矛盾,相关问题的逻辑是否一致。例如,出院日期早于入院日期、收缩压小于舒张压等就不符合逻辑。

5. 唯一性检查

在录入数据时,一般而言,每个观察单位通常都设有一个唯一的标识号,如调查对象编号、住院号、门诊号等。

根据标识号检查是否存在同一个观察单位的数据两次重复录入。

6. 完整性检查

检查每一个观察单位的完整性和整个数据库的完整性。比如,在问卷调查中,往往根据问卷的完成情况定义有效问卷,比如完成80%即视为有效问卷。

同时,需要注意每个变量在整个数据文件中的缺失比例,这是数据质量的一个重要方面。

7. 交叉检查

不同来源的两个数据库中同一内容的信息应该一致。通过检查不同来源的数据的一致性,可快速验证数据的可信度。

二、离群值的判断

前文,我们简单谈过离群值的概念。一组数据中如果个别数值与其他数值相比差异较大,远远偏离大多数数据的平均水平,这样的数据被称为离群值(outliers)。

对于离群值的探索有时候不能通过上述逻辑核查的方法,由此,需要采用相应的统计收到进行核查。

1. 通过频数分布表或直方图初步判断

如果连续几个组段的频数均0,之后出现特别大或者特别小的数据即可能为离群值。

2. 利用箱式图判断

如果观测值距箱式图底线(P25)或顶线(P75)的距离为箱体高度(IQR)1.5倍或以上,则可视为离群值。

其中,与箱体距离超过3倍箱体高度,则可视该观测值为极端离群值或极端值;与箱体距离在1~1.5倍箱体高度的观测值可称为可疑离群值;

3. 通过均数和标准差判断

当数据呈近似正态分布且样本量较大时(如n>50),若观测值在均数±3倍标准差之外则可视为离群值。

4. 结合其他变量信息判断

比如,根据儿童的身高,可初步判断其体重是否过高或者过低。根据身高所建立的体重核查规则比单纯只考虑体重的核查更为有效。

三、离群值的处理

离群值是否应该直接剔除或者进行调整是一个具有争议的问题,处理不当可导致分析结果出现偏差。

测量或者记录过程中出现错误而导致离群值,或者存在明显的逻辑错误,应予以剔除。

当无明确理由剔除离群值时,可按如下方法处理:

1. 对离群值删除前后各做一次统计分析,若前后分析结果矛盾则下结论需谨慎。

2. 采取一些稳健分析(robust analysis)的方法:

如采用中位数、进行对数变换(需观测值大于0,但注意对数变化可能夸大极小值的影响);

截尾均数:将数据按从小到大顺序排列后,两端截掉一定比例的数据后计算余下数据的均数,大家听过的“去掉一个最高分、去掉一个最低分”,就是典型的例子。

原文:每日丁点 | 怎么判断数据是否有误?

注:文章有参考,来源为《卫生统计学》(人卫第八版)

推荐阅读

《讲透统计》系列文章合集

丁点帮你公众号现推出“每日丁点 | 统计系列”,每天给你讲透一个统计小问题,让我们一起每天进步一丁点!

相关