新的人工智能工具映射上下文中的蛋白质行为

2024-09-19 17:43来源:本站编辑

陆地上的鱼仍然摆动鳍,但当鱼在水中时,结果明显不同。这个比喻出自著名的计算机科学家艾伦·凯(Alan Kay)之口,用来说明背景在阐明正在调查的问题时的力量。

在人工智能(AI)领域,一个名为PINNACLE的工具体现了Kay的洞察力,当涉及到理解蛋白质在适当环境下的行为时,这些蛋白质在其中起作用并与之相互作用的组织和细胞决定了。值得注意的是,PINNACLE克服了当前人工智能模型的一些局限性,这些模型倾向于分析蛋白质的功能和故障,但它们是在孤立的情况下进行的,一次只能分析一种细胞和组织类型。

在《自然方法》杂志上描述的这种新的人工智能模型的开发是由哈佛医学院的研究人员领导的。

“自然界是相互联系的,PINNACLE有助于识别这些联系,我们可以利用这些联系获得关于蛋白质和更安全、更有效的药物的更详细的知识,”该研究的资深作者、HMS Blavatnik研究所生物医学信息学助理教授Marinka Zitnik说。“它克服了当前无上下文模型的局限性,并为加强蛋白质相互作用分析提出了未来的方向。”

研究人员指出,这一进展可以推动目前对蛋白质在健康和疾病中的作用的理解,并为设计更精确、更有针对性的治疗方法提供新的药物靶点。

世界各地的科学家都可以免费使用PINNACLE。

向前迈出的一大步

解开蛋白质之间的相互作用及其相邻生物邻居的影响是棘手的。目前的分析工具通过提供有关单个蛋白质的结构特性和形状的信息,起到了至关重要的作用。然而,这些工具并不是为了解决整个蛋白质环境的上下文细微差别而设计的。相反,它们产生的蛋白质表征与上下文无关,这意味着它们缺乏细胞类型和组织类型的上下文信息。

然而,蛋白质在不同的细胞和组织环境中扮演不同的角色,也取决于相同的组织或细胞是健康的还是患病的。单蛋白表示模型不能识别在多种情况下变化的蛋白质功能。

当涉及到蛋白质的行为时,它是位置,位置,位置

蛋白质由20种不同的氨基酸组成,构成细胞和组织的基本组成部分,是维持生命的一系列生物功能所不可或缺的——从输送全身氧气到收缩呼吸和行走的肌肉,再到促进消化和抵抗感染,等等。

科学家估计,人体中蛋白质的数量在2万到数十万之间。

蛋白质相互作用,但也与其他分子,如DNA和RNA。

蛋白质之间和蛋白质之间复杂的相互作用创造了复杂的蛋白质相互作用网络。这些网络位于其他细胞内或细胞之间,与其他蛋白质和蛋白质网络进行许多复杂的交叉对话。

PINNACLE的优势源于其识别蛋白质行为可因细胞和组织类型而异的能力。同一种蛋白质在健康的肺细胞中可能具有与在健康的肾细胞或患病的结肠细胞中不同的功能。

PINNACLE揭示了这些细胞和组织如何以不同的方式影响相同的蛋白质,这是目前模型无法做到的。根据蛋白质网络所在的特定细胞类型,PINNACLE可以确定哪些蛋白质参与某些对话,哪些蛋白质保持沉默。这有助于PINNACLE更好地解码蛋白质串扰和行为类型,并最终使其能够预测导致疾病的功能失调蛋白质的窄定制药物靶标。

研究人员指出,PINNACLE并没有排除单一表征模型,而是补充了单一表征模型,因为它可以分析不同细胞环境下的蛋白质相互作用。

因此,PINNACLE可以使研究人员更好地了解和预测蛋白质的功能,并有助于阐明重要的细胞过程和疾病机制。

这种能力可以帮助精确定位“可药物”蛋白质,作为个体药物的靶标,并预测各种药物对不同细胞类型的影响。出于这个原因,PINNACLE可以成为科学家和药物开发人员更有效地瞄准潜在目标的宝贵工具。

兹特尼克说,这种药物发现过程的优化是非常必要的,他也是哈佛大学肯普纳自然与人工智能研究所的副教员。

将一种新药推向市场可能需要10到15年的时间,耗资高达10亿美元,而且从发现到药物的道路是出了名的坎坷,最终结果往往是不可预测的。事实上,近90%的候选药物没有成为药物。

PINNACLE的建设和培训

利用来自综合多器官图谱的人类细胞数据,结合蛋白质相互作用、细胞类型与细胞类型相互作用和组织的多个网络,研究人员训练PINNACLE生成包含156种细胞类型和62种组织和器官的全景图形蛋白质表示。

迄今为止,PINNACLE已经生成了近395,000个多维表示,而在当前的单蛋白质模型下,大约有22,000个可能的表示。它的156种细胞类型中的每一种都包含大约2500种蛋白质的上下文丰富的蛋白质相互作用网络。

目前的细胞类型、组织和器官数量并不是该模型的上限。迄今为止所评估的细胞类型都来自活体供体,覆盖了人体的大部分细胞类型,但不是全部。此外,许多细胞类型尚未被确定,而其他细胞类型则很罕见或难以探测,例如大脑中的神经元。

为了使PINNACLE的细胞库多样化,Zitnik计划利用一个数据平台,其中包括从整个人体取样的数千万个细胞。

作者,资金,信息披露

该论文的其他作者包括Michelle M. Li, Yepeng Huang, Marissa Sumathipala, Man Qing Liang, Alberto Valdeolivas, Ashwin N. Ananthakrishnan, Katherine Liao和Daniel Marbach。Marbach和Valdeolivas受雇于F. Hoffmann-La Roche Ltd.;其他作者声明没有利益冲突。

研究经费由美国国立卫生研究院提供(R01HD108794;R01DK127171, P30 AR072577, T32HG002295),美国国家科学基金会(CAREER 2339524),美国国防部(FA8702-15-D-0001),哈佛大学数据科学计划,亚马逊学院研究,谷歌研究学者计划,阿斯利康研究,罗氏杰出科学家联盟,赛诺菲iDEA-iTECH奖,辉瑞研究,陈扎克伯格计划,HMS约翰和弗吉尼亚Kaneb奖学金奖,帕金森科学联合(ASAP)计划,比斯瓦斯计算生物学计划与米尔肯研究所、哈佛医学院人工智能使用院长创新奖以及哈佛大学肯普纳自然和人工智能研究所合作。

天易网声明:未经许可,不得转载。