人工智能加速G蛋白偶联受体配体的发现

, , , , , 陈伟 , 宋驰 , 冷梁 , 张三印 , 陈士林

工程(英文) ›› 2024, Vol. 32 ›› Issue (1) : 20 -30.

PDF (1763KB)
工程(英文) ›› 2024, Vol. 32 ›› Issue (1) : 20 -30. DOI: 10.1016/j.eng.2023.09.011
研究论文

人工智能加速G蛋白偶联受体配体的发现

作者信息 +

The Application of Artificial Intelligence Accelerates G Protein-Coupled Receptor Ligand Discovery

Author information +
文章历史 +
PDF (1804K)

摘要

G蛋白偶联受体(GPCR)在多种生理过程中发挥着关键作用,是新药发现的重要靶标。然而,传统的GPCR配体发现方法需要投入大量的时间和资源。人工智能方法的出现为GPCR配体的识别和优化提供了有利的工具,改变了GPCR配体发现的研究方式。本文从数据资源、数据描述、模型设计等方面介绍了如何利用人工智能方法构建GPCR配体发现模型,并分析了人工智能方法在GPCR药物领域的应用;提出了一种基于人工智能方法整合多组学数据的GPCR配体筛选策略;探讨了人工智能方法在GPCR研究领域面临的挑战和未来发展方向。人工智能方法与多学科的交叉融合将提高GPCR配体发现的效率。

Abstract

G protein-coupled receptors (GPCRs) are crucial players in various physiological processes, making them attractive candidates for drug discovery. However, traditional approaches to GPCR ligand discovery are time-consuming and resource-intensive. The emergence of artificial intelligence (AI) methods has revolutionized the field of GPCR ligand discovery and has provided valuable tools for accelerating the identification and optimization of GPCR ligands. In this study, we provide guidelines for effectively utilizing AI methods for GPCR ligand discovery, including data collation and representation, model selection, and specific applications. First, the online resources that are instrumental in GPCR ligand discovery were summarized, including databases and repositories that contain valuable GPCR-related information and ligand data. Next, GPCR and ligand representation schemes that can convert data into computer-readable formats were introduced. Subsequently, the key applications of AI methods in the different stages of GPCR drug discovery were discussed, ranging from GPCR function prediction to ligand design and agonist identification. Furthermore, an AI-driven multi-omics integration strategy for GPCR ligand discovery that combines information from various omics disciplines was proposed. Finally, the challenges and future directions of the application of AI in GPCR research were deliberated. In conclusion, continued advancements in AI techniques coupled with interdisciplinary collaborations will offer great potential for improving the efficiency of GPCR ligand discovery.

关键词

G蛋白偶联受体 / 配体 / 人工智能 / 多组学 / 药物发现

Key words

G protein-coupled receptor / Ligand / Artificial intelligence / Multi-omics / Drug discovery

引用本文

引用格式 ▾
Wei Chen,Chi Song,Liang Leng,Sanyin Zhang,Shilin Chen,陈伟,宋驰,冷梁,张三印,陈士林. 人工智能加速G蛋白偶联受体配体的发现[J]. 工程(英文), 2024, 32(1): 20-30 DOI:10.1016/j.eng.2023.09.011

登录浏览全文

4963

注册一个新账户 忘记密码

1 引言

作为重要的细胞表面受体,G蛋白偶联受体(GPCR)参与了多种生理过程[1]。GPCR是人类基因组中最大的膜蛋白家族,包含800多个成员[2],其中约有400个成员是嗅觉受体[3]。GPCR通过将细胞外信号转导为细胞内响应,在感官知觉[4]、神经递质传导[5]、激素调控[6]、免疫应答[7]和细胞增殖[8]等生理过程中发挥着关键作用。因此,GPCR在新药发现中具有重要意义,是重要的药物靶标之一。目前,有超过30%的FDA认证上市药物以GPCR作为直接靶点[9]。由于GPCR与众多生理过程和疾病相关,因此它们为新药研发提供了巨大的潜力[1013]。

尽管在GPCR研究方面已经取得了显著的进展,但在解析GPCR功能和调控机制方面仍然存在许多挑战。比如,许多GPCR仍缺乏确定的内源性配体[14],而有些配体则具有选择性[15]。因此,有必要对GPCR与配体的相互作用机制进行研究。GPCR与配体结合后通常会发生构象变化[16],确定GPCR与配体相互作用的构象对药物合理设计至关重要。此外,考虑GPCR的序列多样性和功能差异性[17],对其进行分类研究也具有重要意义。

人工智能(AI)的发展在解决上述挑战和推动GPCR研究方面发挥了关键作用[18]。人工智能已经成为了一个强大的工具,使研究人员能够以前所未有的效率对GPCR生物学和配体发现等问题进行研究。机器学习和深度学习等人工智能方法通过对大规模数据的分析,改变了传统的GPCR研究范式。通过基于机器学习算法建立预测模型,实现了对化学结构、分子性质和生物活性等的预测[1921]。基于深度学习算法的方法,通过生成具有所需性质的新型分子结构,实现了配体的优化[2223]。生成模型能够学习GPCR配体的潜在特征分布,并生成具有类似性质的新分子[2425]。人工智能为研究人员认识GPCR复杂世界提供了新见解,为开发治疗多种疾病的创新疗法铺平了道路[26]。

目前,公共数据库中至少存储了数百万种天然产物,这些天然产物与人体中已鉴定出的800多个GPCR的潜在组合数量是一个天文数字。通过实验手段筛选和分析每种潜在组合,从时间、资源和成本角度讲是一项不可能完成的任务。开发基于人工智能的药物设计技术,以实现低成本、高效率的GPCR配体筛选方法,已成为GPCR领域内的重要研究方向。因此,本文提出了基于人工智能的GPCR配体筛选体系(图1)。同时,从GPCR和配体在线资源、GPCR及其配体的表征,以及人工智能在GPCR的配体发现等方面,论述了人工智能在GPCR配体发现领域的最新研究进展。最后,提出了基于人工智能方法整合多组学数据的GPCR配体筛选策略,以期促进基于人工智能的GPCR配体发现研究和药物研发。

2 基于人工智能的GPCR配体发现步骤

基于人工智能的GPCR配体发现包括数据收集、数据表征、模型选择和模型应用等步骤(图2)。

第一步是数据收集。GPCR、配体以及它们相互作用数据的收集、清洗和标准化是训练和构建人工智能模型的基础和首要步骤。

第二步是数据表征。将标准化后的数据转换为数字格式,以便人工智能算法进行有效处理。数据表征方法的选择取决于具体的任务和数据类型,不同类型的任务和数据需要不同的表征方法。

第三步是模型选择。通常需要根据任务复杂性、数据可用性、特征空间、可解释性、计算资源和性能指标来选择合适的人工智能模型。同时,还应权衡模型准确性、可解释性和资源需求之间的关系,以加速GPCR配体的发现进程。在基于人工智能的GPCR配体发现领域,常用的算法包括K最近邻(K-nearest neighbor, KNN)、支持向量机(support vector machine, SVM)、随机森林(random forest, RF)、循环神经网络(recurrent neural network, RNN)和卷积神经网络(convolutional neural network, CNN)[27]。

最后是模型应用,将开发的模型用于GPCR配体发现领域的具体任务,如亲和力预测、de novo设计等。下文将结合实例,详细介绍人工智能在GPCR配体发现领域的应用。

3 GPCR及其配体相关的在线资源

在线数据资源在基于人工智能的GPCR配体发现过程中扮演着关键的角色。通过应用人工智能算法进行虚拟筛选,可以加速GPCR配体的发现,提高药物的研发效率和成功率。GPCR相关数据库收录了GPCR的序列、结构、功能注释、配体-受体相互作用和信号通路等信息。配体数据库则提供了与GPCR相关的小分子的结构、性质、活性及结合亲和力等信息。表1 [17,2845]列举了一些与GPCR及其配体相关的代表性在线资源。

3.1 GPCR的在线资源

IUPHAR/BPS Guide to PHARMACOLOGY是由国际基础与临床药理学联盟/英国药理学会开发和维护的数据库,提供了关于GPCR的受体分类、表达谱、生理功能等药理学和功能信息,是进行GPCR研究的宝贵资源[28]。

美国密歇根大学张阳课题组先后开发了GPCR-ligand association(GLASS)[29]、GPCR-I-TASSER [30]、GPCR-RD [31]和GPCR-EXP [32]等一系列与GPCR相关的在线数据资源。

GPCRdb为研究GPCR提供了丰富的信息和工具[17],包括有关GPCR的序列、结构、功能、药理学和配体相互作用等方面的信息。此外,GPCRdb还提供了各种分析和可视化工具,有助于研究人员对GPCR进行序列分析、序列比对以及功能位点识别等研究。

GpDB是一个关于G蛋白及其与GPCR和效应分子关联的数据库[33],并对G蛋白和GPCR按照家族、亚家族等信息进行了分类。

GPCR-ModSim是一个基于氨基酸序列,采用同源建模技术模拟GPCR结构的网络服务器[34],同时还可以通过全原子分子动力学模拟的方式对GPCR结构进行详细分析。

GOMoDo(GPCR online modeling and docking)通过集成一系列的生物信息学工具,不仅能够对GPCR进行同源建模,还能实现GPCR与配体的分子对接分析[35]。

PDB(Protein Data Bank)数据库收录了部分GPCR的三级结构信息[36],研究人员不仅能够在该数据库中查阅GPCR的结构,还能分析其与配体和其他分子的相互作用情况。

除上述数据库之外,Uniprot [37]、MPStruc [38]和MemProtMD [39]等数据库也提供了与GPCR相关的信息和资源,对于研究人员深入了解GPCR的特性和功能起着关键的作用。

3.2 配体的在线资源

PubChem是一个由美国国家生物技术信息中心负责维护的数据库[40],提供了小分子生物活性数据。用户可以从该数据库中搜索特定的GPCR,并查找与其生物功能相关的小分子。

ChEMBL是一个收录了具有类药性生物活性分子的数据库[41],提供了小分子的生物活性数据以及与它们相互作用的靶点的信息。研究人员可以通过该数据库搜索特定的GPCR,并获取与其相关的小分子。

ZINC数据库收录了数百万种可商业化获得的小分子化合物[42],在虚拟筛选领域已被广泛使用。该数据库不仅提供了有关化合物结构、物理性质的信息,还提供了与这些小分子化合物相关的外部链接。

DrugBank是一个将药物数据与靶点信息相结合的“生物信息学和化学信息学”数据库,包含了药物的化学结构、药理性质、作用机制、适应症以及临床数据等信息[43]。

BindingDB是一个收录了蛋白质和配体相互作用亲和力的数据库[44],提供了通过实验测定的蛋白质-配体复合物的亲和力等方面的信息,有助于研究蛋白质-配体复合物间的相互作用。

DUD-E是一个经过校验的高质量的活性化合物和非活性化合物数据库,已被广泛用于评估虚拟筛选方法的性能[45]。

此外,IUPHAR/BPS Guide to PHARMACOLOGY数据库也提供了有关GPCR配体的结合亲和力、生物活性和结构等方面的信息。

4 数字化表征策略

GPCR及其配体的数字化表征,即将GPCR序列和配体分子编码为数值特征,不仅拓展了化学空间,同时也提高了数据的处理效率,是实现有效特征提取的基础,在基于人工智能的GPCR配体发现方面至关重要。

4.1 GPCR表征策略

将GPCR转化为计算机可读的数值特征是基于人工智能的GPCR配体发现的关键步骤。

氨基酸组分(AAC)是一种最直接的GPCR表征方法。AAC表示序列中各种氨基酸的相对频率,刻画了氨基酸的整体分布[46]。然而,AAC无法捕捉GPCR中氨基酸的关联或位置信息。为了描述序列中氨基酸的关联或位置信息,研究人员提出了位置特异性打分矩阵方法[47]。

GPCR还可以通过one-hot和词嵌入(比如Word2vec或transformers)编码方式进行表征。one-hot编码将每个氨基酸表示为一个二进制向量,如果某个氨基酸在特定位置出现,则向量中相应位置为1,其他位置为0 [48]。因此,GPCR序列中的每个氨基酸都用一个长度为20的向量表示,向量中只有一个元素为1,其余元素都为0。

Word2vec是一种常用的词嵌入算法,旨在从大型文本数据语料库中捕捉单词之间的语义和句法关系[49]。Word2vec通过利用Continuous Bag-of-Words(CBOW)或Skip-Gram模型,训练神经网络模型,预测上下文或目标单词来学习单词的分布式表示[50]。基于Word2vec方法,每个单词都会被表示为一个密集向量,相似的单词具有相似的向量表示,从而可以基于向量间的距离或余弦相似度来衡量单词之间的相似性。

与Word2vec不同,transformers在处理输入序列时动态地分配注意力权重[51],关注序列中不同位置的信息,从而更好地捕捉长距离的依赖关系。ProtBERT [51]和TAPE(transformer-based architectures for protein embedding)[52]利用transformers方法实现了对蛋白质序列中的重要特征的提取。

除了基于序列的特征之外,还可以利用二级结构、溶剂可及性和氨基酸的理化性质等对GPCR进行编码[53]。此外,Ballesteros-Weinstein残基编号规则也是GPCR研究领域常用的编码方法,为不同GPCR结构中的特定位置提供了统一标识,用于比较不同GPCR之间的结构、配体结合位点和功能基序等关键特征,对于理解GPCR的功能具有重要意义[54]。

4.2 配体表征策略

配体的表征在虚拟筛选和基于配体的药物发现中也至关重要。图3以对乙酰氨基酚为例,展示了SMILES、分子指纹和分子图等常用的配体表示策略。

SMILES即简化分子线性输入规范,是一种用于表示分子结构的美国信息交换标准代码(ASCII)字符[55]。SMILES通常被转换为one-hot编码,以对原子类型、键类型和连接信息进行表示,从而用于结构搜索和相似性计算。假设有一个SMILES字符串“CC(=O)NC1=CC=C(C=C1)O”(图3),由one-hot编码生成的向量表示了该字符串中每个字符的存在或缺失。需要指出,虽然异构SMILES与SMILES都使用简化的字符串表示分子的结构,但是异构SMILES中包含了立体化学信息,能够更准确地表示分子的结构。

相比于SMILES,国际化合物标识符(InChI)提供了对每种化学结构的独特和标准化编码。配体的InChI既可以从公共数据库获取,也可以使用InChI Trust软件(https://www.inchi-trust.org/)生成。例如,对乙酰氨基酚的InChI为“1S/C8H9NO2/c1-6(10)9-7-2-4-8(11)5-3-7/h2-5,11H,1H3,(H,9,10)”。InChI涵盖了配体的原子、化学键的连接、互变异构、同位素以及立体化学信息等多源信息。

尽管SMILES和InChI提供了配体的简化表示,但它们无法描述配体分子中原子的空间分布特征。分子指纹通过对分子中的原子、键和环等特征进行编码,从而生成一个具有固定长度的二进制字符串,以表达分子的结构信息。常用的分子指纹包括扩展连接指纹(ECFP)[56]、MACCS指纹[57]和摩根指纹[58]。扩展连接指纹通过考虑每个原子周围的原子邻域和键类型,在每个原子的特定半径内生成环形结构,描述每个原子一定距离内的结构信息。MACCS指纹基于一组预定义的结构片段,以二进制方式表示分子中这些结构片段的存在或缺失,不同的结构片段(比如环系统、官能团等)描述不同的特征。摩根指纹通过使用逐渐增加的半径,以环形亚结构编码分子中每个原子周围的局部化学环境,描述了分子中原子之间的空间关系,进而反映了分子的局部拓扑结构。摩根指纹通过对分子中每个原子初始化特征迭代并进行哈希处理后,最终生成二进制向量,反映了分子中特定结构是否存在。

分子图是一种基于图论的配体表征方法,图中的节点和边分别表示原子和化学键[59]。通过描述配体中原子之间的连接和拓扑关系,全面展示了配体的结构。

5 基于人工智能的GPCR配体发现

人工智能方法的应用将加速GPCR靶向药物的研发进程。然而,截至2022年,有关GPCR的研究中仅有3.6%使用了人工智能方法[60],说明在该领域中人工智能的应用相对较少。尽管如此,人工智能方已法在GPCR功能预测、配体-GPCR相互作用预测、配体设计、生物活性预测和激动剂识别等方面展现出了显著的潜力(图4)。

5.1 GPCR基因本体功能预测

GPCR基因本体(GO)的功能预测在药物发现和开发领域具有重要意义。通过理解GPCR的功能,研究人员可以深入了解其在信号通路和细胞过程中的作用,从而有助于发现新的药物靶点、设计治疗方案以及制定个性化治疗策略。

基因本体是一种用于注释和描述基因及其产物功能的术语[61]。Wu等[53]基于文本挖掘(TM)和归纳性矩阵补全(IMC)方法,开发了预测GPCR基因本体的方法TM-IMC(https://zhanglab.ccmb.med.umich.edu/TM-IMC)。TM-IMC基于Word2vec算法和多示例学习算法miFV [62]对GPCR和基因本体术语的文本信息进行编码,并使用IMC方法补全蛋白质功能关联矩阵,实现对GPCR功能的预测。

5.2 GPCR-配体相互作用预测

GPCR-配体相互作用具有高度的选择性和特异性,不同的配体对特定的GPCR具有特异性的亲和力。对GPCR-配体相互作用的研究对于理解GPCR信号传导机制和药物发现至关重要。尽管X射线晶体学、冷冻电子显微镜和核磁共振波谱法等实验技术可以确定配体-GPCR的相互作用,但这些方法的成本较高。人工智能方法在高维数据处理、复杂关系提取和大规模预测方面具有高效、便捷的特点,是研究GPCR-配体相互作用的有力工具。目前已有多个基于人工智能方法预测GPCR-配体相互作用的模型报道。

Seo等[63]基于包含303 587个配体-GPCR相互作用的数据集,提出了预测GPCR-配体相互作用的随机森林模型。该模型使用AAC和模体(motif)对GPCR进行编码,同时利用物理化学性质和基于分子图获取的特征对配体进行编码,不仅在性能上优于Cyscore [64],还准确地识别了前期未报道的GPCR-配体相互作用。这为GPCR-配体相互作用预测提供了新思路,对于结构未知的GPCR和孤儿GPCR配体筛选也具有重要意义。

此外,识别配体与GPCR的特异性结合区域对于理解GPCR-配体相互作用机制和促进药物设计至关重要。Rienzo等[65]提出了一种基于3D Zernike多项式的方法,用于识别GPCR中配体结合位点,并应用该方法预测了秀丽线虫中嗅觉神经元GPCR中的配体结合位点。该研究不仅提供了识别GPCR中配体结合位点的方法,还促进了人们对嗅觉受体的理解。

5.3 配体生物活性预测

半数抑制浓度(IC50)、半数效应浓度(EC50)、抑制常数(K i)和解离常数(K d)是描述配体生物活性的指标,反映了配体与GPCR作用的效价强度、亲和力和效能信息。基于这些指标,研究人员通过聚焦具有特定亲和力和效能的配体,增加了发现潜力先导化合物的机会。因此,确定配体的生物活性对于虚拟筛选和药物发现至关重要。尽管已有实验方法可用于配体的筛选,但其成本高、效率低。相比之下,人工智能方法能够快速、高效地进行具有生物活性配体的虚拟筛选。

Wu等[66]提出了一种用于预测GPCR配体生物活性的方法WDL-RF(https://zhanglab.ccmb.med.umich.edu/WDL-RF)。WDL-RF首先利用加权深度学习(WDL)方法生成分子指纹,随后采用随机森林方法预测配体生物活性。WDL-RF对26种GPCR配体生物活性预测的均方根误差和相关系数分别为1.33和0.80。

识别配体中与其生物活性相关的子结构对于虚拟筛选和药物研发也具有重要作用。通过确定与生物活性相关的子结构,研究人员能够深入了解配体与受体的相互作用方式,并据此设计具有更高活性的新型配体。因此,基于优化后的扩展连接指纹对配体进行编码,Wu等[67]开发了用于预测配体生物活性并识别与生物活性相关的子结构的深度神经网络模型SED。

通过基于图的特征对配体进行编码,Velloso等[68]提出了用于定量预测36种不同GPCR配体生物活性的模型pdCSM-GPCR。十折交叉验证和独立测试结果表明,pdCSM-GPCR在GPCR配体生物活性预测方面的性能优于WDL-RF。基于该模型,本文研究团队还确定了高效GPCR配体中包含的共同特征。因此,pdCSM-GPCR模型有望成为GPCR配体识别领域的有效工具。

5.4 配体设计

GPCR作为药物研发领域重要的药物靶点之一,其特异性配体的筛选和设计对新药研发具有指导意义[6971]。深度学习技术的迅猛发展为从头设计和优化化学结构提供了新工具,加速了药物研发进程。

利用强化学习技术,Liu等[72]提出了一种用于识别GPCR配体的RNN模型DrugEx。通过将探索策略与基于RNN的生成模型相结合,确保DrugEx在更广泛的化学空间内进行探索,从而增加了生成分子的多样性,促进了潜在药物的筛选。在人类腺苷受体A2AAR生物活性配体的设计任务中,DrugEx相较于REINVENT [73]表现更为出色。

通过将进化算法中的交叉和变异操作融入强化学习框架,本文研究团队将DrugEx进行了升级,开发了新方法DrugEx v2 [74]。与DrugEx相比,DrugEx v2能够针对多个靶标和特定靶标生成有效性和多样性配体。

然而,DrugEx和DrugEx v2均针对特定任务进行训练,并不允许用户输入任何先验信息。为了提高算法的通用性,Liu等[75]又提出DrugEx v3模型。通过引入针对原子和化学键的新编码策略,不仅扩展了transformer模型的架构,还确保了生成分子的新颖性。为了证明其有效性,本文研究团队利用DrugEx v3设计了人类腺苷受体A2AAR的配体,并将其性能与基于SMILES的方法进行了比较。结果显示,DrugEx v3生成分子的有效性为100%,且大多数分子对A2AAR都表现出了高亲和力。

5.5 GPCR配体识别与分类

正构调节和变构调节是生物活性配体与GPCR相互作用的两种主要调控模式[76]。正构调节是指配体结合到GPCR中内源性配体的结合部位,从而影响受体的信号传导途径。变构调节是指配体与受体中的不同位点结合,引起构象变化,从而影响正构配体的结合和下游信号传导。变构调节能够对受体进行选择性调节和微调,因此,变构配体的识别为GPCR领域的药物研发开辟了新途径。

Hou等[18]提出了可同时区分不同家族GPCR变构配体的多分类模型。本文研究团队通过比较不同的表征策略和机器学习算法的组合,获得了最佳模型。独立测试结果显示,模型在不同GPCR家族变构配体的分类和识别方面性能优异。

除了正构配体和异构配体外,激动剂和拮抗剂也是GPCR配体的重要组成部分[77]。激动剂是与GPCR结合并激活其信号通路的配体,具有类似于内源性配体的激动作用,能够促进由特定GPCR介导的细胞响应和生理功能。拮抗剂是与GPCR结合后不引起生物学效应的配体,但能够阻断该激动剂与GPCR的结合,从而抑制信号传导和生物效应[78]。因此,对GPCR激动剂和拮抗剂的识别对于药物研发和细胞信号传导机制的解析具有重要意义。

基于扩展连接指纹编码策略,研究人员提出了用于识别GPCR激动剂和拮抗剂的随机森林模型[79]。该模型在对美国食品药品监督管理局(FDA)批准的GPCR靶向药物进行识别时,准确率达到了70%,展现了其在识别GPCR激动剂和拮抗剂方面的潜力

6 基于多组学的整合筛选策略

多组学整合旨在整合来自不同层次和类型的生物学数据,以深入挖掘生物系统的复杂性[80]。通过分析和整合多个组学数据,研究人员能够以更全面的视角深入理解生物系统的复杂性。然而,多组学方法在GPCR配体发现领域的应用却鲜见报道。现有的研究大多集中在探讨GPCR配体的化学性质、分子相互作用和功能活性。

为此,本研究提出了一种整合多组学数据的GPCR配体筛选策略(图5),旨在促进对配体的发现、GPCR和配体相互作用方式的理解,并对配体功能进行预测。

首先,内源性表达GPCR或利用基因工程技术构建稳定表达GPCR的细胞系。然后用化合物或单个配体处理细胞。为确保实验结果的可靠性,对于内源性表达的细胞系,需选择GPCR缺失的细胞或使用能调节受体活性的药物作为对照。对于通过基因工程技术得到的细胞系,需选择经过相同基因编辑但缺乏GPCR插入的细胞以及未经基因编辑处理的细胞作为对照。

其次,在特定的时间点处理受试细胞系,利用高通量测序技术获取基因组学、转录组学、蛋白质组学和代谢组学数据。这些数据从多个维度刻画了GPCR-配体间的相互作用。基因组数据包含了GPCR基因中可能影响配体结合力或受体活性的遗传变异或突变。转录组学数据揭示了不同细胞系中GPCR及其相关信号分子的表达模式。蛋白质组学数据有助于识别参与GPCR信号通路及其翻译后修饰的蛋白质。代谢组学数据提供了与GPCR活性和下游信号传导相关的代谢物信息。

再次,为了确保多组学数据的质量,需要对原始数据进行质量控制、过滤、归一化和去除噪声等处理。质量控制用于评估数据的完整性并去除低质量的数据。标准化用于消除实验和技术差异,以确保数据在不同样本之间的可比性。去除噪声用于去除异常值和不相关的特征。这些处理降低了由于技术因素和人为因素造成的数据质量问题,使得下游分析更具有可靠性。

最后,对经过处理的多组学数据进行分析,识别与GPCR激活相关的差异表达基因、蛋白质和代谢物。在数据分析过程中,可以利用人工智能方法进行特征选择、数据降维、数据整合,以及构建人工智能模型以整合多组学数据,挖掘基因、蛋白质和代谢物之间的复杂关联和相互作用。

7 展望

人工智能在GPCR配体发现领域已经展示出了巨大的潜力。借助人工智能方法进行大规模数据分析,加速了GPCR配体的发现进程。然而,随着人工智能技术在该领域的广泛应用,一些挑战也应运而生。

人工智能技术依赖于海量数据。数据可用性和数据质量是该领域面临的首要挑战。相比研究领域,尽管与GPCR相关的数据量有所增加,但仍相对有限。GPCR是一个多样化的受体家族,具有结构和功能多样性[81],有关GPCR的实验数据仍然不足。数据共享、多源数据整合是解决这一挑战的有效措施。此外,还可以利用基于人工智能的数据增强技术生成新的更多样化的训练数据集,从而研发适用于GPCR配体发现的人工智能模型。

人工智能模型的可解释性是该领域面临的第二个挑战。GPCR具有复杂的结构和功能特征,理解配体与GPCR相互作用的分子机制对于药物设计至关重要。人工智能模型,尤其是深度学习模型,通常被视为黑匣子,难以解释底层特征和决策过程。为了解决这一挑战,应致力于开发能够提供可解释的人工智能模型。比如,借助注意力机制[48],研究人员能够识别出与模型性能相关的GPCR或配体中的特征。除了注意力机制外,特征重要性分析也能够增强模型的可解释性[82]。通过分析每个输入特征对模型的贡献,研究人员可以确定有效特征。

结构信息对于GPCR配体发现也至关重要[83]。人工智能模型中整合结构信息,不仅可以改善模型性能和基于结构的配体设计的准确率,同时还有助于识别配体-结合位点的拓扑结构、参与相互作用的关键残基以及配体结合后GPCR的构象变化。因此,模型中结构信息的整合也是基于人工智能的GPCR配体发现领域一个值得关注的方向。

基于经验的打分函数和基于力场的打分函数对于药物发现也具有重要作用。通过将打分函数与人工智能结合,研究人员可以优化配体-受体相互作用,从而加速药物研发进程[84]。打分函数与人工智能的结合可通过以下几种方式实现:利用人工智能模型从实验数据和分子结构中学习,从而创建更为准确和可靠的打分函数;利用人工智能模型整合基于经验的打分函数和基于力场的打分函数,发挥不同打分函数的优势,提高准确性和预测性能;采用主动学习策略进行模型的迭代优化,从而增强打分函数的预测性能。

人工智能与实验方法的结合是将理论结果成功应用于实际的关键。尽管人工智能可以加速GPCR配体的筛选和优化,但通过实验方法验证配体的安全性和有效性的环节是必不可少的。因此,人工智能研究人员与实验研究人员的紧密合作是弥合基于人工智能预测与实验验证之间差距的关键。

整合基因组学、转录组学、蛋白质组学和代谢组学等多组学数据,有助于深化对GPCR功能的理解并加速新配体的发现。多组学数据提供了有关GPCR的功能、表达模式和信号通路等多维度的信息。因此,解决数据整合、标准化和分析方法等方面的问题将有助于多组学数据的有效整合,最终实现对GPCR功能的理解和配体的发现。

参考文献

[1]

Yang D, Zhou Q, Labroska V, Qin S, Darbalaei S, Wu Y, et al. G protein-coupled receptors: structure- and function-based drug discovery. Signal Transduction Targeted Ther 2021;6(1):7. . 10.1038/s41392-020-00435-w

[2]

Nieto GA, McDonald PH. GPCRs: emerging anti-cancer drug targets. Cell Signaling 2017;41:65‒74. . 10.1016/j.cellsig.2017.09.005

[3]

Hauser AS, Attwood MM, Rask-Andersen M, Schiöth HB, Gloriam DE. Trends in GPCR drug discovery: new agents, targets and indications. Nat Rev Drug Discovery 2017;16(12):829‒42. . 10.1038/nrd.2017.178

[4]

Julius D, Nathans J. Signaling by sensory receptors. Cold Spring Harbor Perspect Biol 2012;4(1):a005991. . 10.1101/cshperspect.a005991

[5]

Hamm HE, Alford ST. Physiological roles for neuromodulation via Gi/o GPCRs working through Gβγ‒SNARE interaction. Neuropsychopharmacology 2020;45(1):221. . 10.1038/s41386-019-0497-2

[6]

Feng Z, Sun R, Cong Y, Liu Z. Critical roles of G protein-coupled receptors in regulating intestinal homeostasis and inflammatory bowel disease. Mucosal Immunol 2022;15(5):819‒28. . 10.1038/s41385-022-00538-3

[7]

Ge YJ, Liao QW, Xu YC, Zhao Q, Wu BL, Ye RD. Anti-inflammatory signaling through G protein-coupled receptors. Acta Pharmacol Sin 2020;41(12):1531‒8. . 10.1038/s41401-020-00523-1

[8]

Dorsam RT, Gutkind JS. G-protein-coupled receptors and cancer. Nat Rev Cancer 2007;7(2):79‒94. . 10.1038/nrc2069

[9]

Yasi EA, Kruyer NS, Peralta-Yahya P. Advances in G protein-coupled receptor high-throughput screening. Curr Opin Biotechnol 2020;64:210‒7. . 10.1016/j.copbio.2020.06.004

[10]

Sriram K, Insel PA. G protein-coupled receptors as targets for approved drugs: how many targets and how many drugs? Mol Pharmacol 2018;93(4):251‒8. . 10.1124/mol.117.111062

[11]

Eiger DS, Pham U, Gardner J, Hicks C, Rajagopal S. GPCR systems pharmacology: a different perspective on the development of biased therapeutics. Am J Physiol Cell Physiol 2022;322(5):C887‒95. . 10.1152/ajpcell.00449.2021

[12]

Zhao P, Furness SGB. The nature of efficacy at G protein-coupled receptors. Biochem Pharmacol 2019;170:113647. . 10.1016/j.bcp.2019.113647

[13]

Campbell AP, Smrcka AV. Targeting G protein-coupled receptor signalling by blocking G proteins. Nat Rev Drug Discovery 2018;17(11):789‒803. . 10.1038/nrd.2018.135

[14]

Raschka S. Automated discovery of GPCR bioactive ligands. Curr Opin Struct Biol 2019;55:17‒24. . 10.1016/j.sbi.2019.02.011

[15]

Powers AS, Pham V, Burger WAC, Thompson G, Laloudakis Y, Barnes NW, et al. Structural basis of efficacy-driven ligand selectivity at GPCRs. Nat Chem Biol 2023;19(7):805‒14. . 10.1038/s41589-022-01247-5

[16]

Frei JN, Broadhurst RW, Bostock MJ, Solt A, Jones AJY, Gabriel F, et al. Conformational plasticity of ligand-bound and ternary GPCR complexes studied by 19F NMR of the β1-adrenergic receptor. Nat Commun 2020;11(1):669. . 10.1038/s41467-020-14526-3

[17]

Pándy-Szekeres G, Caroli J, Mamyrbekov A, Kermani AA, Keserű GM, Kooistra AJ, et al. GPCRdb in 2023: state-specific structure models using AlphaFold2 and new ligand resources. Nucleic Acids Res 2023;51(D1):D395‒402. . 10.1093/nar/gkac1013

[18]

Hou T, Bian Y, McGuire T, Xie XQ. Integrated multi-class classification and prediction of GPCR allosteric modulators by machine learning intelligence. Biomolecules 2021;11(6):870. . 10.3390/biom11060870

[19]

Raschka S, Kaufman B. Machine learning and AI-based approaches for bioactive ligand discovery and GPCR‒ligand recognition. Methods 2020;180:89‒110. . 10.1016/j.ymeth.2020.06.016

[20]

Rataj K, Kelemen ÁA, Brea J, Loza MI, Bojarski AJ, Keserű GM. Fingerprint-based machine learning approach to identify potent and selective 5-HT2BR ligands. Molecules 2018;23(5):1137. . 10.3390/molecules23051137

[21]

Yadav P, Mollaei P, Cao Z, Wang Y, Farimani AB. Prediction of GPCR activity using machine learning. Comput Struct Biotechnol J 2022;20:2564‒73. . 10.1016/j.csbj.2022.05.016

[22]

Yin Y, Hu H, Yang Z, Jiang F, Huang Y, Wu J. AFSE: towards improving model generalization of deep graph learning of ligand bioactivities targeting GPCR proteins. Brief Bioinform 2022;23(3):bbac077. . 10.1093/bib/bbac077

[23]

Lee S, Kim S, Lee GR, Kwon S, Woo H, Seok C, et al. Evaluating GPCR modeling and docking strategies in the era of deep learning-based protein structure prediction. Comput Struct Biotechnol J 2022;21:158‒67. . 10.1016/j.csbj.2022.11.057

[24]

Sanchez-Lengeling B, Aspuru-Guzik A. Inverse molecular design using machine learning: generative models for matter engineering. Science 2018;361(6400):360‒5. . 10.1126/science.aat2663

[25]

Thomas M, Smith RT, O’Boyle NM, de Graaf C, Bender A. Comparison of structure- and ligand-based scoring functions for deep generative models: a GPCR case study. J Cheminform 2021;13(1):39. . 10.26434/chemrxiv.14138147

[26]

Zhavoronkov A, Ivanenkov YA, Aliper A, Veselov MS, Aladinskiy VA, Aladinskaya AV, et al. Deep learning enables rapid identification of potent DDR1 kinase inhibitors. Nat Biotechnol 2019;37(9):1038‒40. . 10.1038/s41587-019-0224-x

[27]

Chen W, Liu X, Zhang S, Chen S. Artificial intelligence for drug discovery: resources, methods, and applications. Mol Ther Nucleic Acids 2023;31:691‒702. . 10.1016/j.omtn.2023.02.019

[28]

Alexander SPH, Christopoulos A, Davenport AP, Kelly E, Mathie A, Peters JA, et al. The concise guide to pharmacology 2021/22: G protein-coupled receptors. Br J Pharmacol 2021;178():S27‒156.

[29]

Chan WKB, Zhang H, Yang J, Brender JR, Hur J, Özgür A, et al. GLASS: a comprehensive database for experimentally validated GPCR-ligand associations. Bioinformatics 2015;31(18):3035‒42. . 10.1093/bioinformatics/btv302

[30]

Zhang J, Yang J, Jang R, Zhang Y. GPCR-I-TASSER: a hybrid approach to G protein-coupled receptor structure modeling and the application to the human genome. Structure 2015;23(8):1538‒49. . 10.1016/j.str.2015.06.007

[31]

Zhang J, Zhang Y. GPCRRD: G protein-coupled receptor spatial restraint database for 3D structure modeling and function annotation. Bioinformatics 2010;26(23):3004‒5. . 10.1093/bioinformatics/btq563

[32]

Chan WKB, Zhang Y. Virtual screening of human class-A GPCRs using ligand profiles built on multiple ligand‒receptor interactions. J Mol Biol 2020;432(17):4872‒90. . 10.1016/j.jmb.2020.07.003

[33]

Theodoropoulou MC, Bagos PG, Spyropoulos IC, Hamodrakas SJ. gpDB: a database of GPCRs, G-proteins, effectors and their interactions. Bioinformatics 2008;24(12):1471‒2. . 10.1093/bioinformatics/btn206

[34]

Esguerra M, Siretskiy A, Bello X, Sallander J, Gutiérrez-de-Terán H. GPCR-ModSim: a comprehensive web based solution for modeling G-protein coupled receptors. Nucleic Acids Res 2016;44(W1):W455‒62. . 10.1093/nar/gkw403

[35]

Sandal M, Duy TP, Cona M, Zung H, Carloni P, Musiani F, et al. GOMoDo: a GPCRs online modeling and docking webserver. PLoS One 2013;8(9):e74092. . 10.1371/journal.pone.0074092

[36]

Burley SK, Bhikadiya C, Bi C, Bittrich S, Chao H, Chen L, et al. RCSB protein data bank (RCSB.org): delivery of experimentally-determined PDB structures alongside one million computed structure models of proteins from artificial intelligence/machine learning. Nucleic Acids Res 2023;51(D1):D488‒508.

[37]

Bateman A, Martin MJ, Orchard S, Magrane M, Ahmad S, Alpi E, et al. UniProt: the universal protein knowledgebase in 2023. Nucleic Acids Res 2023;51(D1): D523‒31.

[38]

White SH. Biophysical dissection of membrane proteins. Nature 2009;459(7245):344‒6. . 10.1038/nature08142

[39]

Newport TD, Sansom MSP, Stansfeld PJ. The MemProtMD database: a resource for membrane-embedded protein structures and their lipid interactions. Nucleic Acids Res 2019;47(D1):D390‒7. . 10.1093/nar/gky1047

[40]

Kim S, Chen J, Cheng T, Gindulyte A, He J, He S, et al. PubChem 2023 update. Nucleic Acids Res 2023;51(D1):D1373‒80. . 10.1093/nar/gkac956

[41]

Mendez D, Gaulton A, Bento AP, Chambers J, de Veij M, Félix E, et al. ChEMBL: towards direct deposition of bioassay data. Nucleic Acids Res 2019;47(D1): D930‒40. . 10.1093/nar/gky1075

[42]

Irwin JJ, Tang KG, Young J, Dandarchuluun C, Wong BR, Khurelbaatar M, et al. ZINC20—a free ultralarge-scale chemical database for ligand discovery. J Chem Inf Model 2020;60(12):6065‒73. . 10.1021/acs.jcim.0c00675

[43]

Wishart DS, Feunang YD, Guo AC, Lo EJ, Marcu A, Grant JR, et al. DrugBank 5.0: a major update to the DrugBank database for 2018. Nucleic Acids Res 2018;46(D1):D1074‒82. . 10.1093/nar/gkx1037

[44]

Liu T, Lin Y, Wen X, Jorissen RN, Gilson MK. BindingDB: a web-accessible database of experimentally determined protein‒ligand binding affinities. Nucleic Acids Res 2007;35(Database issue):D 198‒201. . 10.1093/nar/gkl999

[45]

Mysinger MM, Carchia M, Irwin JJ, Shoichet BK. Directory of useful decoys, enhanced (DUD-E): better ligands and decoys for better benchmarking. J Med Chem 2012;55(14):6582‒94. . 10.1021/jm300687e

[46]

Feng P, Liu W, Huang C, Tang Z. Classifying the superfamily of small heat shock proteins by using G-gap dipeptide compositions. Int J Biol Macromol 2021;167:1575‒8. . 10.1016/j.ijbiomac.2020.11.111

[47]

Khanh Le NQ, Nguyen QH, Chen X, Rahardja S, Nguyen BP. Classification of adaptor proteins using recurrent neural networks and PSSM profiles. BMC Genomics 2019;20():966. . 10.1186/s12864-019-6335-4

[48]

Zhang G, Tang Q, Feng P, Chen W. IPs-GRUAtt: an attention-based bidirectional gated recurrent unit network for predicting phosphorylation sites of SARSCoV-2 infection. Mol Ther Nucleic Acids 2023;32:28‒35. . 10.1016/j.omtn.2023.02.027

[49]

Buchan DWA, Jones DT. Learning a functional grammar of protein domains using natural language word embedding techniques. Proteins 2020;88(4):616‒24. . 10.1002/prot.25842

[50]

Ofer D, Brandes N, Linial M. The language of proteins: NLP, machine learning & protein sequences. Comput Struct Biotechnol J 2021;19:1750‒8. . 10.1016/j.csbj.2021.03.022

[51]

Elnaggar A, Heinzinger M, Dallago C, Rehawi G, Wang Y, Jones L, et al. ProtTrans: toward understanding the language of life through self-supervised learning. IEEE Trans Pattern Anal Mach Intell 2022;44(10):7112‒27. . 10.1109/tpami.2021.3095381

[52]

Rao R, Bhattacharya N, Thomas N, Duan Y, Chen X, Canny J, et al. Evaluating protein transfer learning with TAPE. Adv Neural Inf Process Syst 2019;32:9689‒701.

[53]

Wu J, Yin Q, Zhang C, Geng J, Wu H, Hu H, et al. Function prediction for G protein-coupled receptors through text mining and induction matrix completion. ACS Omega 2019;4(2):3045‒54. . 10.1021/acsomega.8b02454

[54]

Ballesteros JA, Weinstein H. Integrated methods for the construction of three-dimensional models and computational probing of structure-function relations in G protein-coupled receptors. Methods Neurosci 1995;25:366‒428. . 10.1016/s1043-9471(05)80049-7

[55]

SMILESWeininger D., a chemical language and information system. 1. Introduction to methodology and encoding rules. J Chem Inf Comput Sci 1988;28(1):31‒6. . 10.1021/ci00057a005

[56]

Rogers D, Hahn M. Extended-connectivity fingerprints. J Chem Inf Model 2010;50(5):742‒54. . 10.1021/ci100050t

[57]

Durant JL, Leland BA, Henry DR, Nourse JG. Reoptimization of MDL keys for use in drug discovery. J Chem Inf Comput Sci 2002;42(6):1273‒80. . 10.1021/ci010132r

[58]

Zagidullin B, Wang Z, Guan Y, Pitkänen E, Tang J. Comparative analysis of molecular fingerprints in prediction of drug combination effects. Brief Bioinform 2021;22(6):bbab291. . 10.1093/bib/bbab291

[59]

Wu Z, Wang J, Du H, Jiang D, Kang Y, Li D, et al. Chemistry-intuitive explanation of graph neural networks for molecular property prediction with substructure masking. Nat Commun 2023;14(1):2585. . 10.1038/s41467-023-38192-3

[60]

Nguyen ATN, Nguyen DTN, Koh HY, Toskov J, MacLean W, Xu A, et al. The application of artificial intelligence to accelerate G protein-coupled receptor drug discovery. Br J Pharmacol 2023 May::bph.16140.

[61]

Aleksander SA, Balhoff J, Carbon S, Cherry JM, Drabkin HJ, Ebert D, et al. The Gene Ontology knowledgebase in 2023. Genetics 2023;224(1):iyad031.

[62]

Wei XS, Wu J, Zhou ZH. Scalable algorithms for multi-instance learning. IEEE Trans Neural Netw Learn Syst 2017;28(4):975‒87. . 10.1109/tnnls.2016.2519102

[63]

Seo S, Choi J, Ahn SK, Kim KW, Kim J, Choi J, et al. Prediction of GPCR-ligand binding using machine learning algorithms. Comput Math Methods Med 2018;2018:6565241. . 10.1155/2018/6565241

[64]

Cao Y, Li L. Improved protein‒ligand binding affinity prediction by using a curvature-dependent surface-area model. Bioinformatics 2014;30(12):1674‒80. . 10.1093/bioinformatics/btu104

[65]

Di Rienzo L, de Flaviis L, Ruocco G, Folli V, Milanetti E. Binding site identification of G protein-coupled receptors through a 3D Zernike polynomials-based method: application to C. elegans olfactory receptors. J Comput Aided Mol Des 2022;36(1):11‒24. . 10.1007/s10822-021-00434-1

[66]

Wu J, Zhang Q, Wu W, Pang T, Hu H, Chan WKB, et al. WDL-RF: predicting bioactivities of ligand molecules acting with G protein-coupled receptors by combining weighted deep learning and random forest. Bioinformatics 2018;34(13):2271‒82. . 10.1093/bioinformatics/bty070

[67]

Wu J, Liu B, Chan WKB, Wu W, Pang T, Hu H, et al. Precise modelling and interpretation of bioactivities of ligands targeting G protein-coupled receptors. Bioinformatics 2019;35(14):i324‒32. . 10.1093/bioinformatics/btz336

[68]

Velloso JPL, Ascher DB, Pires DEV. pdCSM-GPCR: predicting potent GPCR ligands with graph-based signatures. Bioinform Adv 2021;1(1):vbab031. . 10.1093/bioadv/vbab031

[69]

Manglik A, Lin H, Aryal DK, McCorvy JD, Dengler D, Corder G, et al. Structure-based discovery of opioid analgesics with reduced side effects. Nature 2016;537(7619):185‒90. . 10.1038/nature19112

[70]

Kampen S, Rodriguez D, Jørgensen M, Kruszyk-Kujawa M, Huang X, Collins M Jr, et al. Structure-based discovery of negative allosteric modulators of the metabotropic glutamate receptor 5. ACS Chem Biol 2022;17(10):2744‒52. . 10.1021/acschembio.2c00234

[71]

Roth BL, Irwin JJ, Shoichet BK. Discovery of new GPCR ligands to illuminate new biology. Nat Chem Biol 2017;13(11):1143‒51. . 10.1038/nchembio.2490

[72]

Liu X, Ye K, van Vlijmen HWT, IJzerman AP, van Westen GJP. An exploration strategy improves the diversity of de novo ligands using deep reinforcement learning: a case for the adenosine A2A receptor. J Cheminform 2019;11(1):35.

[73]

Olivecrona M, Blaschke T, Engkvist O, Chen H. Molecular de-novo design through deep reinforcement learning. J Cheminform 2017;9(1):48. . 10.1186/s13321-017-0235-x

[74]

Liu X, Ye K, van Vlijmen HWT, Emmerich MTM, IJzerman AP, van Westen GJP. DrugEx v2: de novo design of drug molecules by Pareto-based multi-objective reinforcement learning in polypharmacology. J Cheminform 2021;13(1):85. . 10.1186/s13321-021-00561-9

[75]

Liu X, Ye K, van Vlijmen HWT, IJzerman AP, van Westen GJP. DrugEx v3: scaffold-constrained drug design with graph transformer-based reinforcement learning. J Cheminform 2023;15(1):24. . 10.1186/s13321-023-00694-z

[76]

Flor PJ, Acher FC. Orthosteric versus allosteric GPCR activation: the great challenge of group-III mGluRs. Biochem Pharmacol 2012;84(4):414‒24. . 10.1016/j.bcp.2012.04.013

[77]

Tyndall JDA, Sandilya R. GPCR agonists and antagonists in the clinic. Med Chem 2005;1(4):405‒21. . 10.2174/1573406054368675

[78]

Sum CS, Murphy BJ, Li Z, Wang T, Zhang L, Cvijic ME. Pharmacological characterization of GPCR agonists, antagonists, allosteric modulators and biased ligands from HTS hits to lead optimization. In: Markossian S, Grossman A, Brimacombe K, Arkin M, Auld D, Austin C, et al., editors. Assay guidance manual. Bethesda: Eli Lilly & Company and the National Center for Advancing Translational Sciences; 2004.

[79]

Oh J, Ceong HT, Na D, Park C. A machine learning model for classifying G-protein-coupled receptors as agonists or antagonists. BMC Bioinf 2022;23():346. . 10.1186/s12859-022-04877-7

[80]

Kang M, Ko E, Mersha TB. A roadmap for multi-omics data integration using deep learning. Brief Bioinform 2022;23(1):bbab454. . 10.1093/bib/bbab454

[81]

Lagerström MC, Schiöth HB. Structural diversity of G protein-coupled receptors and significance for drug discovery. Nat Rev Drug Discov 2008;7(4):339‒57. . 10.1038/nrd2518

[82]

Tang Q, Nie F, Zhao Q, Chen W. A merged molecular representation deep learning method for blood‒brain barrier permeability prediction. Brief Bioinform 2022;23(5):bbac357. . 10.1093/bib/bbac357

[83]

Odoemelam CS, Percival B, Wallis H, Chang MW, Ahmad Z, Scholey D, et al. G-protein coupled receptors: structure and function in drug discovery. RSC Adv 2020;10(60):36337‒48. . 10.1039/d0ra08003a

[84]

Guedes IA, Barreto AMS, Marinho D, Krempser E, Kuenemann MA, Sperandio O, et al. New machine learning and physics-based scoring functions for drug discovery. Sci Rep 2021;11(1):3198. . 10.1038/s41598-021-82410-1

AI Summary AI Mindmap
PDF (1763KB)

4273

访问

0

被引

详细

导航
相关文章

AI思维导图

/