机器学习对于基因研究的医学价值在哪里?

来源:新华网  06-12 09:27

   在生物学的很多研究都缺少真实的参考标准”,普林斯顿大学的计算机科学家Barbara Engelhardt认为,这是研究人员在试图使用传统的机器学习方法分析基因组数据时所面临的诸多挑战之一。人工智能和机器学习技术正极大地改变着生物学的研究格局,但Engelhardt认为仅仅依靠这些“黑盒子”方法无法为理解、诊断和治疗疾病提供深刻的见解,帮助有限。因此,她一直致力于开发一种新型统计工具,寻找预期生物模式绘制出基因组确实存在的“真实标准”。

  Engelhardt将这种努力比作是一种侦探工作,需要对一系列的遗传变异,甚至是一些早已被遗弃的数据进行梳理。例如,在去年10月份发表的研究中,她用模型来确定在44种人体组织中变异是如何与其他染色体(称为远端基因)上的基因调控相关联的。此外在其他研究中她还发现了一个甲状腺癌疗法的潜在遗传靶点,并将突变和基因表达与病理图像中发现的特定特征联系起来了。

  Engelhardt希望她的算法能够帮助临床医生尽早地发现某些特定的征兆,揭开其中隐藏的机制,治疗病根而不仅仅是表面的症状。

  为此,她作为首席研究员和基因型组织表达(GTEx)联盟合作,研究基因调控、表达和突变是如何作用于健康的显性基因的人群和病人的。

  最近,Quanta杂志与Engelhardt探讨了应用于生物数据的黑盒子机器学习的缺点,以及她开发的能克服这些缺点的方法,还有从筛选数据中的“噪音”里发现有趣信息的必要性。

  是什么促使你将机器学习研究的重点放在生物学上的?

  一直以来,我对统计学和机器学习都有着浓厚的兴趣。在我读研究生时,我加州大学伯克利分校的导师Michael Jordan曾对我说了一些话。这些话大概的意思是:“你不能只是凭空地开发这些方法,你也需要考虑下它的实际应用。” 我很快转向了生物学,从那以后,驱动我进行研究的大多数问题都不是统计学的,而是从生物学上了解疾病的遗传学和潜藏机制,期望有助于更好地诊断和治疗。 但是每当我想到我所处的领域时(我读了哪些论文,参加了哪些会议,教了什么课程以及我指导的学生),我的学术的重点还是机器学习和应用统计。

  我们发现除少数病例外,基因组标记与疾病风险之间都存在着许多关联。这些关联难以预测,我们也无从知晓如何诊断,靶向和治疗这些疾病。与疾病风险相关的遗传标记通常不是疾病的真正的具有因果关系的标记,因为一种疾病可能是由多种基因引发的,而一种复杂的疾病很可能是由更多地与环境交互后的遗传标记所引发的。 这些对于有着统计遗传学和机器学习背景的,与湿实验室(wet lab)科学家和医生合作的人员来说,都是可以尝试处理和解决的挑战。 这意味着我们实际上可以治疗导致遗传性疾病的诱因,而不仅仅是他们的症状。

  您之前谈论过传统的统计方法不足以应用于基因组学和医疗研究,为什么呢?

  首先,是因于缺乏可解释性。 在机器学习中,我们经常使用“黑盒子”方法- [也叫做分类算法]、随机森林或更深入的学习方法。 但那些方法实际上并不能让我们“打开”这个盒子并弄清楚在特定细胞类型中哪些基因是被不同程度调控的,哪些突变会导致更高的患病风险。我对于探知生物学上正在发生什么有着极大的兴趣,我不满足于那些只给答案却不解释为什么是这个答案的做法。

  这些方法的目标通常是预测,但是如果想要在只提供某个人的基因型的情况下估算出他们患2型糖尿病的可能性,这些方法并不是特别的有用。 我想知道他们是怎样患上II型糖尿病的:哪种突变导致了哪种基因的失调并引起了此种疾病的发展。对于我所问的这些问题,预测是远远不够的。

  第二个原因与样本规模有关。大部分强有力的统计学的应用都会假设你正在使用越来越多的大量的数据样本。这些数据样本有着有趣的构造,但仅有有限的特征或观测指标。 但对生物医学数据而言,医院的病患数量是很有限的,我们可以测序的基因型数量也很有限。因此,统计学中的许多理论和应用方法并不能用于基因组数据。

  是什么使基因组数据如此地难以分析?

  生物医学数据中最重要的信号一般都是极其微小的,并且被技术干扰因素完全淹没。这意味着你要在如此干扰的情况下,模拟真实的生物学信号,而且其中的很多干扰因素都是你根本不关心的内容,例如这个人来自于哪个人群或者实验室里运行样本的是哪个技术人员。你必须小心谨慎地去掉那些干扰因素。我们经常有很多问题要用这些数据来回答,需要进行大量的统计测试,通过万亿次计算,才能得出答案。例如,为了鉴定基因组中的突变与一些有趣的性状之间的关联,而且该特征可能达到了组织中某特定基因的表达水平,并且当这些信号真的及其微小,还有时很难与干扰因素相区分的时侯,我们如何才能开发出一套严谨而又稳健的测试机制呢?我们如何纠正这些存在的干扰因素呢?

  那么我们需要采取什么替代方法呢?

  我的团队很大程度上依赖于我们所说的稀疏隐因子模型(sparse latent factor model),听起来像复杂的数理问题。我们的基本设想是这些模型将我们在样本中观察到的所有变化划分开来,从而只考虑极少量的一些的特征。比如,其中一个分区可能包含10个基因或者20个突变,之后专注于这10个基因,找出它们的共同点,再根据影响样本方差的生物信号来确定这个分区代表的到底是什么。

  研究要分两步走:首先,建立一个模型,尽可能仔细地分离出所有的变异的源头。然后以科学家的身份参与进来,了解所有这些分区在生物信号方面代表着什么。在此之后,我们可以在其他数据集中验证这些结论,并思考我们对这些样本还知道些什么。

  你说“以科学家身份参与进来”,想要表达的意思是什么?

  我在试着寻找一种特定的生物模式,为此构建了这些具有很多结构的模型,并在这些结构中包含了很多我所期望的生物信号。此外,我设置了一组参数,可以告诉我数据表示着什么,以及哪些模式可能存在,哪些不能。模型本身只具有一定的表达力,所以我只能够找到某些类型的模式。从我所看到的来说,现有的一般模型在寻找能从生物学角度来解释的信号方面做得并不出色:它们通常只是确定数据中最可能导致突变的因子具有最大的影响变异的因子,而不能确定最具生物学影响力的变异的来源。相反,我所构建的结构代表了一个用于描述数据的,结构精妙的,并包含了所有复杂的可能的模式的集合。将数据输入这个结构之后它就会告诉我结构中的哪些部分被表示了,哪些没有。

  因此,和使用一般的模型相比,我和我的小组通常选择仔细查看数据、从生物学角度去理解发生的事、并根据我们观测到的模式来定制我们的模型。

  隐因素模型在实践中是如何运作的?

  我们将其中一个模型应用于通常用于诊断癌症的病理学图像(显微镜下的组织切片的图片)。对于每张图像而言,我们有表达在这些组织中表达的基因的数据。我们想看看图像与相应的基因表达水平是如何协调的。

  我们开发了一组特征,用以描述每幅图像,并用深度学习方法识别出图像的像素级值,以及其中包含的特征。我们从每幅图像中抽取出了大约一千多个特征,并将其应用于隐因子模型。最后我们找到了一些振奋人心的成果。

  例如,我们在描述大脑中存在免疫细胞的某个分区里中发现了几组基因和特征。在病理图像上你不一定能看到这些细胞,但在观察模型时,我们看到了一个代表着只与免疫细胞(而非脑细胞)相关的那些基因和特征的组件。据我所知,在这之前还从来没有人见过这种信号。但是当我们在观察这些潜在因素的组成部分时,它变得异常清晰。

  您已研究了数十种人体组织类型以探知特定基因变异是如何帮助塑造复杂特征的。你的方法提供了些什么见解呢?

  我们从449个捐赠的人类尸体中提取了44个组织以及这些组织的种基因型(全基因组序列)。因为想更多地了解这些基因型在所有组织中表达基因的方式上的差异,我们总共进行了3万亿多次的检测,并将基因组中的每个突变与每个组织中表达的每个基因进行比较。我们试图弄清楚【突变】基因型是否在驱动着远端基因的表达。换句话说,我们正在寻找与它们所控制的基因不在同一染色体上的基因突变。最终我们找到的不多,仅有600多个远端关联。它们的信号非常弱。

  但其中有一个信号非常强烈——一个令人振奋的并发甲状腺。这个甲状腺有一个突变似乎在远端调控着两种不同的基因。这个突变是如何在完全不同的基因组部分里影响表达水平的?在与Johns Hopkins大学的Alexis Battle实验室的合作中,我们看到了基因组上的突变,并找到了一个名为FOXE1的基因,它是一种可以调控整个基因组中的基因转录的转录因子。FOXE1基因只在甲状腺组织中表达的现象很有意思。但我们发现突变基因型和FOXE1的表达水平之间并无关联。因此,我们必须看看我们之前删除了的的原始信号的组成部分——这些组成部分看起来就像是在实验过程人为因素的产物。我们尝试去检测FOXE1蛋白质对基因组的广泛影响。

  在我们删除的技术构件中我们发现了FOXE1的巨大的影响。 FOXE1似乎仅在甲状腺中调节大量基因。它的变异是由我们发现的突变基因型所驱动的。而该种基因型还与甲状腺癌风险有关。因此我们又回到甲状腺癌样本(我们从癌症基因组图谱中获得的约500个样本),并复制了远端关联信号。所有的这些都表现了某些强有力的事实。但如果我们没有去试图理解那些已经被去掉的信号,它们是不会被我们发现的。

  此种关联说明了什么呢?

  现在我们有一个特殊的机制来发展甲状腺癌和甲状腺细胞失调。如果说FOXE1是一种药物靶标,并且如果我们可以回过头来考虑设计药物来增强或抑制FOXE1的表达,那么我们就有希望让那些具有高甲状腺癌风险的人避免患上此种疾病,或者为那些已经患上此种疾病的人提供更有效的治疗。

  像FOXE1这样来自广谱效应转录因子的信号实际上就与我们通常去除的部分干扰因素相类似:群体结构、样品运行的批次,或年龄和性别产生的影响。这些技术的很多影响将以类似的方式影响到差不多同等数量(10%左右)的基因。这就是为什么我们通常会删除具有此种模式的信号。然而,在这种情况下我们必须了解我们工作的领域。身为科学家,我们查看了所有那些被我们去除掉的信号,这种做法能让我们发现为什么FOX1会对它们造成如此强烈的影响。这项工作的进行需要手工劳动以及在生物学背景下的深刻见解,但我们正在考虑如何使开发工作以更自动化的方式进行。

  所以在使用传统的建模技术时,我们错过了大量真正的生物学效应,这是因为这些效应和干扰因素太像了吗?

  是的。在很多情况下这个有趣的模式和干扰因素都很类似。就比如说这些末端效应:假设说这些效应真的具有广泛影响,但其实几乎所有的此种效应都和那些我们会系统性去除的干扰信号很类似。这在方法学上很具有挑战性。我们必须仔细考虑如何识别一个信号到底是具有生物相关性的还是仅仅只是一个干扰信号,以及如何区分这两者。我的小组正在积极研究这个问题。

  为什么这些关系如此地难以标识?为什么要发现它们呢?

  有很多实验是我们必须要做的;一项发现的统计显著性的临界值必须非常非常高。这就为发现这些信号带来了麻烦,因为这些信号通常都很小。如果把临界值设定的这么高的话,我们便会错过很多。从生物学的角度来看,我们仍不清楚到底有多少具有广泛效用的末端效应。你可以想象,自然选择会消除掉能影响10%基因的突变类型,我们也不会希望人群中存在这么多的易变的基因。

  但我认为这些末端关联毫无疑问地在疾病中起到了巨大的作用,它们也可能被视作为药物靶点。尽可能多的了解它们在人体中扮演的角色对人类健康极其重要。

  本文编译自连线杂志,原标题为CAN MACHINE LEARNING FIND MEDICAL MEANING IN A MESS OF GENES?,作者JORDANA CEPELEWICZ,编译陈立,编辑杜雪。