首页 > 资讯 > > 内容页

中国科学院院士陈希孺告诉你,什么是统计学?

2023-07-09 23:20:09 来源:遇见数学

统计学是有关收集和分析带随机性误差的数据的科学和艺术。分析着重在数量化,而随机性的数量化,是通过概率表现出来的,由此可以看出统计学与概率论的密切关系。

在日常用语中,“统计”相当于“计数”。小至一个家庭、单位,大至一个国家,都有许多计数即统计的工作要做。世界各国大都设立了中央到地方的各级统计机构,负责收集关于人口、经贸、社会等各方面的数据资料。在一定意义上,这种活动可视为“统计学”这门科学的起源。丹麦统计史学家哈尔德认为,“统计学”和“统计学家”等词源出于意大利,统计学即国情学,对象是国务活动家感兴趣的事实,而统计学家则是“处理国务的人”。在这样广泛的意义下,统计学简直是无所不包了。经过演变,到 19 世纪,统计学定位为一门关于收集和分析数据的科学,但不涉及数据所来自的具体学科领域的研究。例如,一个统计学家可以帮助生物学家处理其工作中涉及的数据收集和分析问题,但统计学并不去研究生物学自身的问题。

用实证的方法研究问题,都要涉及收集数据以及对数据进行整理和分析,统计学就是研究做这些事情的方法和理论的学问。 《不列颠百科全书》对统计学所下的定义是:“统计学是关于收集和分析数据的科学和艺术。”这里特别提到“艺术”一词。当然,统计学是科学,不是像音乐、美术那样属于艺术的范畴。


(资料图)

这个言简意赅的解释,突出了 统计学研究对象的两个方面:收集数据,分析数据。 收集数据是为了解决某一应用或理论上的问题。但单有一堆杂乱无章的数据,用处不大。我们需要去整理数据,从中发掘有用的信息并用适当的形式表述出来,然后用科学的方法进行分析,以针对所研究的问题得出一定的结论。

例如,若要了解某城市某行业工人的收入情况,涉及的人数可能以万计,有关数据(如月收入)可以订成一本几百页的册子,我们很难直接和方便地从中得出什么有用的结论。如果数据经过整理,比如说以 50元为间距将各段收入的人数及其在全体人数中所占的百分比列成一个表,那么它就可以告诉我们不少东西。我们也可以按一定的收入标准划分出贫困、温饱、小康和富裕几大类,使用图表显示出各类别的人数和百分比。我们还可以通过与本行业过去的资料进行比较,或与其他行业横向比较,做进一步分析,等等。这类调查研究在新闻报道和各种出版物中不时有所提及。

从历史上说,最早对大量统计资料进行系统整理并出版专著的,要推 17 世纪英国学者格朗特(1622—1674)。他是伦敦一家服装店店主的儿子,早年在店里作为他父亲的一名助手,后来子承父业。工作之暇他刻苦学习,靠自学成才。他生活的年代正好是黑死病在欧洲流行之时。这是一种可怕的传染病,夺去了许多人的生命。由于这个原因,自 1604 年起,伦敦教会每周发表一次“死亡公报”,其中记录了一周内死亡和受洗者(大致可反映出生人数)的名单。死亡者按其死因分类,如 1632 年的公报中包含了 63 种病因,自 1629 年起男女分开统计。

多年以来,在这些公报中积累了庞大的数据,但在格朗特之前,无人对其进行过整理和分析。格朗特是第一个从事这项工作的人,其成果集中在他 1662 年出版的《关于死亡公报的自然和政治观察》一书中。书中包含 8 张表,从各个方面对公报中包含的数据进行了总结,并据此做出一系列的推论。此书对后世有很大的影响,有的统计学家甚至主张以此书出版之日作为统计学诞生之时。在该书出版的 1662 年,英国成立了皇家学会。格朗特因此书而在当年被选为会员,足见此书在当时也得到了很高的评价。

在以上的讨论中未提及一个重要之点,即按现代的理解,并不是任何类型的数据的收集和分析问题,都属于统计学的研究范围。 只有那种受到偶然性因素影响的数据,才是统计学处理的对象。

统计学是有关收集和分析带随机性误差的数据的科学和艺术。分析着重在数量化,而随机性的数量化,是通过概率表现出来的,由此可以看出统计学与概率论的密切关系。

生产、科技等各个领域无不涉及数据分析问题,所以,有一个统计学与这些领域的界线如何划分的问题,这问题要从两个方面来谈。首先,统计学是一门数学科学,它既不包含上述领域,也不被这些领域所包含。这与数学一样。数学是研究“数”和“形”的科学,数和形都在各种应用领域出现,有其实际背景,数学把其中有共性的东西抽象出来加以研究,其结果可用于各种领域。

统计学也如此,各种不同应用领域,其数据内容、形态也各有其特点,但也有其共性的东西,统计学把这些共性的东西抽象为模型,其研究结果可用于各种实际问题。一个例子是“盒中抽球”的模型,该模型的数据分析可用于像不合格品率的估计、文盲率的估计之类的问题。另一个例子是正态分布,它可以用来描述形形色色的、从各种不同的实用领域中产生的数据。正因为这一点,以研究收集和分析数据为任务的统计学常被称为“数理统计学”,以突出它是一门数学学科这一性质。

另一方面,由于统计学是实用性很强的科学,其生命力和发展动力,在于它与实用学科的密切联系。割断了这种联系,统计学就会变成无源之水,无本之木,产生不出有意义的问题和方法。因此,统计学与其他学科和领域所形成的边缘和交叉性质的学科也特别多,如工业统计学、农业统计学、生物统计学、医药统计学、可靠性统计与生存分析(研究元件、系统的可靠性与生物寿命的数据分析问题),以及诸如人口统计学、数量经济学(其中用到很多统计学方法)之类的社会科学交叉科学。

从统计学家本身说,为了更有效地将统计学方法应用于某一领域,有必要对该领域有关的知识有一定的了解。例如参加一个化工方面的应用项目,该采用什么样的统计模型和统计方法,怎样去判断所用模型是否恰当,数据是否有问题,分析的结果该如何解释,这些问题的解决固然需要统计学的知识,但与该问题有关的专业化工知识,也是不可或缺的。统计学家可以与化工专家合作并向后者请教,但终究不如自己能有第一手的了解更为有利。统计学方法中包含不少的数学公式,但使用统计学方法解决实际问题,并非机械地套用公式了事。在某种程度上,用统计学方法解决问题好比医生给病人治病。好的医生要根据实际情况灵活地使用他的专业知识,并具备丰富的实践经验。从这个角度看,虽说不能讲统计学本身是一门艺术,但可以说,在一定程度上,统计学方法的有效使用是一门艺术。

推荐阅读

作者:陈希孺

数理统计学家、中国科学院院士陈希孺,写给大家的统计学科普读本; 通俗讲述概率论基础概念,精妙诠释统计学本质内涵,亲切传授分析思维与方法; 用统计思维,在不确定世界中把握成功的机遇

最近更新