十年砥砺耕耘今朝风劲帆满北京大学公共卫生学
大数据时代的需求、计算技术的进步推动生物统计学进入了一个前所未有的发展时期。大规模基因组测序、蛋白质组学或代谢组学等研究、医疗电子健康记录等都使得生物数据飞速增长,而要从这些海量的数据中获取有用的信息,转化为知识,生物统计学便可以大显神威。
解密生物统计学
何为生物统计学?
生物统计学是一门结合统计学、概率论、数学和计算的方法来提高我们对生物医学学科理解的学科(Zelen, 2006),是对生物医学数据进行分析、测量、控制和解释不确定性的一门科,其目的是科学地设计试验,并对所得试验数据进行分析,达到减少试验次数、缩短试验周期、迅速找到最优化的试验方案或数学模型的目的。近年来,随着人们在医学、制药学等领域研究的不断深入,越来越多的科学问题需要以量化研究依据作为支撑。生物、医学等学科由实验科学走向实用科学时都离不开统计学。随着互联网时代的到来,大数据的盛行,生物统计学正日益广泛地应用于医学科学研究中,为医学研究提供了手段和方法,是医学研究不可分割的部分。
2015 年8 月在美国华盛顿州西雅图市召开了联合统计会议(Joint Statistical Meeting, JSM)——JSM 是全球最大统计盛会之一,由美国统计协会(ASA)举办,内容涵盖统计理论及其方法在各领域的应用。在为期6 天的会议中共发表了近千篇关于生物统计学研究的报告,涉及老年学、医学图像学、基因组学、临床诊断学、流行病学等多个分支,由此可见生物统计学越来越受到研究者以及产业界的重视。
中国生物统计学的现状与挑战
随着应用领域不断深化,统计方法的应用水平不断提高,生物统计学目前已深入到医疗及公共卫生的各个领域并广泛应用在诸多方面:(1)临床试验方面,从试验开始到结束,很多工作涉及生物统计,包括试验的设计、数据管理、撰写统计分析计划、统计分析与解释、协助完成临床试验报告等;(2)生物医学数据的因果推断方面,因果推断是生物医学领域一个重要且富有挑战性的问题。在评估新的干预措施与治疗效果因果效应时,随机试验是公认的金标准设计。但是,在实际的随机试验过程中,常常不能很好地按照计划实施试验,存在违背随机化的情况(比如截断死亡、非依从性、缺失数据),即存在被破坏的随机试验。在被破坏的随机试验中,常规的统计学方法不再有效,需要采用新的统计方法来处理被破坏的随机试验中因果效应的估计问题;(3)精准医学方面,个体化治疗方案选择是现代医学研究中最关注的热点问题之一。患者需要根据自己的病情选择最优的治疗方案,医生也需要根据各治疗方案的特点针对最适宜的患者进行个体化治疗。最优个体化治疗方案选择的临床经验的设计和分析需要生物统计学;(4)健康医疗大数据分析方面,健康医疗大数据是新时代重要的基础性战略资源之一,其应用发展将推动健康医疗模式的革命性变化,有利于扩大医疗资源供给、降低医疗成本、提升医疗服务运行效率,将对我国经济、社会、科技和人民生活生产等产生重大而深远的影响,具有巨大发展潜力和商业价值,健康医疗大数据的正确分析需要生物统计方法。以上种种,使得生物统计学日益成为现代医学研究中不可分割的一部分。
在这样的机遇面前,国外生物统计学科发展迅速,且影响深远。国际上的知名医学院、公共卫生学院的生物统计学均为重点学科,实力雄厚。比如美国新闻(US News)排名前10 位的公共卫生学院中,生物统计学系规模最大的聘用了60 多名教师。《新英格兰杂志》亦将生物统计学的贡献列为近500 年医学领域排位第四的里程碑式重大事件。运用大数据加强与医疗技术、产品、服务和群众健康需求对接,有助于促进健康产业发展,释放健康消费潜力。由于健康医疗大数据主要包括医疗机构的诊疗数据、医疗费用数据、公共卫生与疾病监测数据、自我健康管理数据、网络数据等,因此具有数据量大、数据类型和结构复杂等特点,这使得生物统计学研究也面临着海量数据、非随机数据及极小样本数据等挑战。
值得正视的还有,相较于国外,国内生物统计学科作为一门独立的学科而言,其规模和学术地位仍显不足,这一问题日益突出:我国的生物统计学在学科体系中尚没有明确的位置。生物统计学在中国一直以来都被称为“卫生统计学”(health statistics),隶属于预防医学下,教学着重于统计方法学在公共卫生领域的应用。目前我国培养出来的卫生统计学人才较偏重于应用,缺乏统计方法学的研究及数学背景,在新的统计方法研究上较难赶上国际生物统计学的水平。此外,国内生物统计学科与医学研究结合尚不够紧密。医学研究需要大量生物统计人员的参与,而目前专业的生物统计学人才缺乏,因此限制了国内医学研究的发展。综上,国内生物统计学在学科成熟度、学科功能及专业定位方面还存在不少误区,这些成为国内生物统计学发展道路上迫切需要解决的问题。