“精确医学”须谨慎解读

点击标题下「大数据文摘」可快捷关注

?欢迎熟悉外语(含各种“小语种”)的朋友,加入大数据文摘翻译志愿者团队,回复“翻译”和“志愿者”了解详情。

“医疗大数据”专栏诚招:如果您是专业人士并愿意与大家分享,请后台留言,附自我介绍及微信ID,加入我们,一起把这个平台和专栏做得更好。

【编者按 美国于2015年年初提出的“精确医学”计划倍受世界各国关注。有消息称,我国的相关计划将在今年下半年或明年启动。对此,中科院上海生命科学研究院吴家睿研究员近期撰文指出,“精确医学”是一个有着丰富内涵的复杂概念,需要人们认真地思考和小心地解读。当前,亟需我们明晰的两个问题是:为何要在此时启动精确医学计划?如何才能达到精确医学的目标?】

吴家睿(中科院上海生命科学研究院生物化学与细胞生物学研究所)

2015年初,美国总统奥巴马在美国国会做国情咨文报告时表示:“我希望这个消灭了天花、绘制出人类基因组图谱的国家可以引领一个新时代—— 一个在恰当时机提出正确治疗方法的时代。今晚,我将发起一项‘精确医学’倡议,让我们向治愈癌症与糖尿病等疾病更靠近一步,使每个人都可以得到让我们与家人保持健康所需要的个性化信息”。

这段讲话让“精确医学”(Precision Medicine, 有时被翻译为“精准医疗”)迅速成为了新年伊始世界各国关注的热点。据中国医师协会官方报纸《医师报》3月26日报道:北京天坛医院副院长王拥军教授日前透露,科技部召开了国家首次精准医学战略专家会议,中国精准医疗计划将在2015年下半年或明年启动。

显然,我们有必要思考一下,为什么要在这个时候启动精确医学计划?怎样才能达到精确医学的目标?

为什么要启动精确医学

面对当前生物医学领域亟需解决的生理和病理的复杂性问题,有人看到了挑战,有人看到了机会。“精确医学”正是在生命科学和医学实践所处的这样一个重要转折点上应运而生。

上世纪90年代初,美国主导的国际人类基因组计划(Human Genome Project)启动,目标是测定人类拥有的遗传信息载体DNA上30亿个核苷酸的排列顺序。2001年2月,人类基因组草图发布;2003年4月15日,国际人类基因组计划负责人、现任美国国立卫生研究院(NIH)主任F. Collins宣布,人类基因组序列图绘制成功。同日,美、英、日、法、德和中国等六国政府首脑联合发表声明,祝贺人类基因组计划的完成。

人类基因组计划之所以受到各国政府和科学家的高度重视,是因为人们希望通过这个计划破译人类的全部遗传信息,从而在保障人类健康和抗击疾病方面提供重大帮助。在2003年宣布人类基因组计划完成之后,研究人员就立刻启动了致力于人群水平的遗传变异研究的“国际人类基因组单体型图计划”,要揭示非洲、亚洲及欧洲人群的基因组变异谱图。

人们对基因组测序技术的临床应用更是寄予厚望。例如在肿瘤研究领域,NIH在2006年启动了耗资1亿美元的“癌症基因组图集”(The Cancer Genome Atlas,TCGA)科研项目,计划绘制出1万个肿瘤基因组变异图谱。2008年,国际癌症基因组合作体(International Cancer Genome Consortium,ICGC)成立,随后有16个国家参加了肿瘤基因组变异图谱的研究计划;当时该组织的目标是,针对50种不同类型的肿瘤,每种肿瘤采集500份样品进行基因组测序研究。TCGA项目在2014年底宣告完成,研究者发现了近1千万种与肿瘤相关的遗传变异。通过对TCGA项目获得的21种癌症突变数据的统计分析,研究者表明,利用基因组测序方法能够找到一些临床上有用的突变位点。

然而,在基因组测序工作迅速推进的同时,研究者也逐渐认识到基因组知识的局限性。在人类基因组草图发表的第10个年头,人们发表了一系列文章来进行回顾和反思。例如美国《科学》杂志登载了一篇题为《等待革命》的评论文章,其主要观点是:“人类全基因组序列的测定并没有带来基础医疗方面的重大进展;由此促使人们去思考,是什么原因延缓了健康医学领域的基因组革命”。为什么人们的预期目标和现实情况有如此大的距离?在《自然》杂志纪念人类基因组计划10周年专辑中,一篇题为《生命是复杂的》的评论文章给出了答案:“生物学家看到的越多,显现的就越复杂”。虽然基因组的DNA序列是生物体的遗传基础,但生命活动并不是简单地依靠碱基序列就能够实现的。

我们知道,现代生命科学建立在解释遗传信息传递的“中心法则”之上。长久以来人们相信,“中心法则”确保生物体遗传信息的“高保真性”:mRNA序列必定严格由DNA序列决定,而蛋白质的氨基酸序列也必定由mRNA序列上的遗传密码子所严格决定。然而,科学家近几年的研究表明,遗传信息传递到RNA和蛋白质的过程中充满了各种各样的变异或者“错误”。也就是说,生命的复杂性远远不是简单地测定基因组核酸序列就能够阐明的。即使只从“中心法则”直接涉及到的DNA、RNA和蛋白质分子水平来看,基因组核酸序列不过是生命复杂性的“冰山一角”;更不用提,生命复杂性涉及到表观遗传现象,以及代谢小分子和糖脂的参与;不仅如此,生命复杂性还涉及到细胞、组织和器官等不同层次。

《细胞》杂志在2014年3月为纪念创刊40周年发行了专辑,其主题就被定为“复杂性”(Complexity)。在该专辑中,美国著名肿瘤生物学家R. Weinberg发表了一篇题为《完整的循环——从无尽的复杂性到简单性再回到复杂性》的评论文章,文中着重指出:在过去的40年里,从事肿瘤研究的科学家,从最初面对无数难以理解的病理现象的困惑,到树立了还原论必胜的信念,再到最近几年重新面对肿瘤这个疾病的无尽复杂性。

面对当前生物医学领域亟需解决的生理和病理的复杂性问题,有人看到了挑战,有人看到了机会。“精确医学”正是在生命科学和医学实践所处的这样一个重要转折点上应运而生。美国科学院研究理事会在2011年发布的一份长达100余页的研究报告中提出:“迈向精确医学——构建生物医学研究的知识网络和新的疾病分类法”(以下简称“迈向精确医学”)。从而第一次明确提出了“精确医学”的概念,并系统讨论了为实现该目标所需要开展的核心任务。在该报告的作者看来,要想实现“精确医学”,其前提是构建基于生物学大数据的生物医学研究知识网络,以及基于分子生物学的全新疾病分类方法;通过建立一个整合各种类型生物学数据和知识、以个体为中心的信息共享平台,就可以形成一个生物医学知识网络,用来了解并获取对个人健康具有决定性作用的、高度复杂的影响因素或发病机理;而利用生物医学知识网络将有助于建立新的疾病分类体系,从而定义新型疾病或对疾病进行分子分型和药物分层,进而实现疾病的精确诊断和准确治疗。该报告的作者强调:“所提议的疾病知识网络和新分类法带来的主要收益正是‘精确医学’”。

怎样才能达到精确医学

以个体为中心的、整合了不同数据层的生物学数据库,以及高度关联的知识网络是迈向精确医学的必要条件。

“迈向精确医学”的作者认为:“知识网络的建立以及对其进行研究和临床应用,都取决于是否拥有一个大型的、多层级的、充分整合的人类疾病知识数据库”。在这样的数据库里,关于人类疾病的知识不仅包含了临床诊断和病理分析等表型信息,还具有各种生物分子信息,包括基因组、转录组、蛋白质组、代谢组、脂质组和表观遗传组等。

也就是说,开展精确医学的基础是需要有尽可能完整的个体生物学数据。2015年初,NIH主任F. Collins和美国国立癌症研究所所长H. Varmus在描述拟开展的美国精确医学计划时表达了同样的观点:“我们准备建立一个有一定时间跨度的、100万人以上的美国人群‘队列’,他们自愿参加该项研究。参加者被要求同意对其进行全面地生物学分析(包括细胞种类、蛋白质、代谢分子、RNA和DNA,当经费允许时可进行全基因组测序)和行为分析,所有这些分析数据都将连接到他们的电子健康档案”。

这种数据库,并不是一个把某一种类型生物学数据简单地收集在一起,像“GeneBank(基因文库)”那样的常规生物信息学数据库。如果把一类生物分子或一种表型视为一个变量,相同变量的数据形成一个信息层,那么这个数据库就是由很多变量组成的多层级的结构,每一层包含一个与疾病相关的变量信息。需要强调的是,利用生物信息学和计算生物学技术,人们能够发现各种分子之间的相互关系,在各种不同类型生物学数据层之间建立起高度的内部连结,从而形成一个复杂的生物医学知识网络。例如,基因组的突变与表观遗传改变相联系,或者与蛋白质组表达变化相联系等等。理想的情况下,每个信息层都与其它信息层形成紧密的联系。这种不同种类生物分子之间、生物分子与表型/临床症状之间的高度整合,将有利于人们发现传统方法不能挖掘到的致病因子或者诊断标记物,有利于人们对特定的个体患者进行准确地个性化诊断和治疗。

显然,这样的生物医学知识网络所反映的,正是系统生物学的核心特征——多变量的整合。系统生物学(Systems Biology)是21世纪生命科学领域出现的一门新兴的交叉学科。系统生物学创始人之一、美国科学家L. Hood认为,系统生物学的特点是研究一个生物系统中基因、mRNA、蛋白质等所有组成成分的构成,以及在特定条件下这些组分间的相互关系。因此,系统生物学的核心就是整合,首先是要把生物系统内不同种类的分子组成成份整合在一起进行研究;其次,对于多细胞生物而言,系统生物学还要实现从基因到细胞、到组织、到个体的各个层次的整合。也就是说,“迈向精确医学”需要构造的生物医学知识网络是建立在系统生物学的基础之上。

欧盟委员会为了在医学领域推进系统生物学,专门成立了一个“系统医学行动协调组织”(Coordinating Action Systems Medicine Consortium, CASyM),涉及9个欧洲国家的研究组织、基金会和企业。2014年6月,欧盟委员会发布了《CASyM路线图》,其中包括近期(2.5年)和长期(10年)开展系统医学(Systems Medicine)的研究规划。该路线图指出:“系统医学就是将系统生物学的方法策略应用到医学概念、研究和实践之中”,同时认为,“系统医学将在下一个10年围绕着‘以患者为中心’这个概念,来进行医疗研究和实践,这些活动的开展需要整合不同的学科,包括数学、计算机科学、数据分析、生物学,以及临床医学、伦理和社会实践”。显然,这份路线图与“迈向精确医学”报告称得上是“异曲同工”。

“以患者为中心”的观念,也正是“迈向精确医学”的作者提出建设疾病知识数据库和知识网络的关键——“需要强调的是,这个信息共享平台的新颖性和能力就在于以‘个体为中心’”。精确医学所需要的数据库,就是要在从单独个体获取的各种类型的生物学数据之间建立起高度的内部连结。

如何建立以个体为中心的数据信息库?

《细胞》杂志于2012年发表的一篇文章可以作为范本。美国一位科学家对自己进行了连续14个月的表型监测和血液样本分析,获得了表型组谱、基因组序列、转录组表达谱、蛋白质组表达谱和代谢组表达谱等一个完整的个体“多组学”数据,并通过生物信息学的工具将这些不同种类的数据进行整合,建立了一个被称为“整合的个人多组学谱”(Integrative personal omics profile,iPOP)的数据库。作为类似的工作,2014年3月,L. Hood和他领导的美国系统生物学研究所发起了一个被称为“The Hundred Person Wellness Project”的研究项目,计划用9个月时间,选择100个健康人进行从分子到表型的个体化多组学研究。L. Hood认为:“这种个体化组分的基础在于:每个个体在遗传和环境方面都是独一无二的,在不同时间段需要用他们自己作为对照,来分析个体从健康到患有某种疾病的转变”。该研究所计划,在未来的5到10年内,启动一个名为“100K”的研究计划,针对10万名健康人开展这种多组学研究工作。NIH在2015年计划启动的“精确医学计划”,也是以个体为中心的多组学数据整合研究,只是将研究的人数扩大到了100万。

也就是说,以个体为中心的、整合了不同数据层的生物学数据库,以及高度关联的知识网络是迈向精确医学的必要条件。“‘精确医学’是用来为每个个体提供可得到的最好医疗护理。如果不对研究者和医疗保健提供者所依赖的信息系统进行巨大的重新定位,是无法达到这个目标的。这些信息系统就像它们准备支持的医学类型那样必需是个体化的。普遍性必需建立在大量个体信息的基础之上;而与这样一个过程相反的做法都将会失败。显然,如果在分析调查过程刚刚开始时,就将生物分子表达谱、个体特定情况相关的数据和健康史从个体中剥离出来,那么以此用来判定健康和疾病决定因素所必需的信息就会丢失”。“迈向精确医学”报告中如此写道。

通过以上讨论,我们可以看到,“精确医学”是一个有着丰富内涵的复杂概念,需要人们认真地思考和小心地解读。例如,“精确医学”不能简单地等同于“个体化医学”(Personalized Medicine),因为中医是个体化医学,但不是精确医学;又例如,基因组测序是实现“精确医学”的主要任务之一,但不能把实现“精确医学”局限于基因组测序。另一方面,我们更要认识到,“精确医学”的出现将对生物医学研究和医疗实践产生重大影响,有可能改变人类维护健康和抗击疾病的传统模式。

【医疗大数据栏目介绍】

2015年2月7日“医疗大数据专栏”正式成立。随着基因芯片及DNA测序技术的发展,生物医疗大数据迅猛发展,既是大数据技术发展的原动力,也是大数据技术的受益者。大数据文摘2013年7月成立,我们专注数据,每日坚持分享优质内容,从未间断,我们努力为读者和志愿者打造一个分享和交流平台。作为大数据文摘的志愿者群,我们中有不少人从事医疗大数据相关工作,关心医疗大数据的发展,愿意通过这个专栏,和大家一起分享医疗大数据的点点滴滴。

【主编介绍】

孙强,资深生物信息专家,现在服务于美国国立癌症研究所,从事癌症基因组数据库管理工作。热爱大数据,加入大数据文摘志愿者行列一年有余,愿以文会友,广结大数据善缘。旅居美国多年,现在定居于大华府地区。

读过的学校:山东大学,中科院植物所,加大洛杉矶分校( UCLA )

生活过的城市:淄博,济南,北京,洛杉矶,华盛顿

其他爱好:足球,钓鱼,打牌

大数据格言:Big data is better data

如果您是专业人员,愿意与大家分享,请加入我们,我们把这个平台和专栏做得更好。精准医疗的革命时代到来了,让我们一起关注医疗大数据技术的发展。

有意联系译者的朋友,请给“大数据文摘”后台留言,附自我介绍及微信ID,谢谢!

本文经《赛先生》微信公众号授权转载。刊物和机构如需转载,请联系授权事宜:243155190@qq.com赛先生微信号:iscientists饶毅、鲁白、谢宇三位学者主编的《赛先生》 ── 与科学同行,关注科学与文化。
数据分析, 数据挖掘, 医学, 基因组

原文发布于宽客论坛,点击阅读原文

风险提示及免责条款

市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击下方“内容举报”进行投诉反馈!
立即
投稿

微信公众账号

微信扫一扫加关注

返回
顶部