文献解读|Nat Commun(15.7):血清蛋白质组学揭示脑瘫的诊断生物标志物和分子通路
✦ +
+
论文ID
原名:Serum Proteomics Reveals Diagnostic Biomarkers and Molecular Pathways in Cerebral Palsy
译名:血清蛋白质组学揭示脑瘫的诊断生物标志物和分子通路
期刊:Nature Communications
影响因子:15.7
发表时间:2025. 11.21
DOI号:10.1038/s41467-025-65110-6.
背 景
脑瘫(CP)是一种非进行性神经发育障碍(NDD),影响运动功能和脑发育,常伴有沟通障碍、感觉缺陷、认知缺陷和癫痫。其全球患病率为1.6‰,发展中国家的患病率更高。根据主要运动障碍类型,CP可分为痉挛型、运动障碍型和共济失调型CP。其中,痉挛型CP最为常见,约占所有病例的80%。粗大运动功能分级系统(GMFCS:I-V级)已成为评估CP运动障碍严重程度的金标准。CP的发病机制复杂,涉及遗传和环境风险因素,这给临床诊断和潜在病理机制的研究带来了巨大挑战。CP的早期诊断能够最大限度地发挥神经可塑性,并最大限度地减少对肌肉和骨骼发育的有害影响。在临床实践中,CP的诊断通常结合神经系统评估、发育评估和神经影像学技术,例如磁共振成像(MRI)。尽管MRI通过揭示结构异常提高了诊断敏感性,但约10%的CP患者的MRI结果正常,这凸显了单独依赖影像学的局限性。鉴于这些挑战,人们对分子生物标志物的兴趣日益浓厚。血清生物标志物能够检测疾病特异性改变,并在多种神经系统疾病中显示出诊断价值。然而,它们在CP中的应用仍然有限,这凸显了进一步研究以识别和验证用于早期诊断的血清生物标志物的必要性。
实验设计

结 果
01
CP患者血清蛋白质组学分析
为了对CP进行系统全面的蛋白质组学表征,研究团队收集了346例CP患者的血清样本,包括运动障碍型、痉挛型、共济失调型和混合型,以及190例健康对照者(HC)(图 1A)。CP患者的人口统计学和临床信息,包括临床亚型、年龄、性别、粗大运动功能分级系统(GMFCS)、MRI结果等(图 1B)所示。GMFCS用于评估疾病严重程度,包括I级(26.2%)、II级(24.4%)、III级(17.4%)、IV级(13.7%)和V级(18.3%)。采用MRI分类系统(MRICS)将脑部MRI结果分为五类:发育不良(6.1%)、以白质损伤为主(61.8%)、以灰质损伤为主(14.5%)、其他(9.8%)和正常(7.8%)。CP组和HC组的中位年龄分别为23个月和24个月。值得注意的是,CP组和HC组在年龄或性别分布方面均无显著差异。
他们采用基于质谱的高通量数据非依赖性采集(DIA)定量蛋白质组学方法来鉴定血清蛋白。为了确保定量结果的重现性并评估整个LC-MS/MS工作流程中的仪器稳定性,他们使用混合血清样本和HEK293T细胞样本作为质量控制(QC)样本。混合QC样本的平均Spearman相关系数为0.97,HEK293T QC样本的平均Spearman相关系数为0.98。进一步分析显示,混合QC样本和HEK293T QC样本的变异系数(CV)分别为17%和18%。这些结果表明整个工作流程和质谱平台具有良好的稳定性。
为了深入了解患者血清蛋白的变化,他们比较了CP患儿和HC的血清蛋白质组谱,他们发现CP患儿中有82蛋白质显著上调(例如ARHGEF10、ADAMTSL4),83个蛋白质显著下调(例如UBE2A、ADH1B)(图 1C)。CP患儿中上调的蛋白质显著富集于细胞外基质(ECM)(例如AGRN、VWF和FN1)、细胞黏附(例如SELL、BCAR1和ITGAM)以及糖代谢通路(例如HK2和HEXA)。相反,CP组中表达降低的蛋白质富集于钙信号通路(例如STIM1、ITPR3、GNAS)和促甲状腺激素通路(例如APEX1和STAT3)。这些发现提示细胞外基质组织、细胞信号传导和代谢通路存在系统性紊乱。
为了利用这些数据开发诊断模型,他们将536份血清样本随机分为训练集(n = 429)和测试集(n = 107),比例为4:1。为了防止信息泄露并确保模型的泛化能力,诊断蛋白的选择仅在训练集中进行,采用的是极限梯度提升(XGBoost)算法<sup> 25</sup>(图 1D)。他们选择了信息量最大的10个蛋白用于模型构建,其中包括6个在CP中上调的蛋白(DHX9、CUTA、LONP1、BCAR1、SPARC和ARHGEF10)和4个下调的蛋白(ANXA2、MME、GNAI3和MANBA)(图 1E)。值得注意的是,在校正年龄和性别后,这些蛋白在CP组和对照组之间的差异表达仍然具有统计学意义。基于这10个生物标志物,他们构建了一个多标志物诊断模型,该模型在测试集上取得了较高的性能(图 1F)。他们进一步评估了模型对异常值的鲁棒性。校正异常值后,该10个生物标志物预测模型表现出稳定的性能(AUC = 0.96),进一步验证了所选生物标志物的可靠性及其临床应用潜力。
鉴于痉挛型CP约占所有病例的80%,他们评估了亚型组成是否会影响诊断性能。为此,他们随机选取了66例痉挛型CP患者和66例非痉挛型CP患者,以及190例HC样本。采用XGBoost算法进行交叉验证,结果表明,包含10个蛋白质的诊断模型具有良好的诊断性能,AUC达到0.91。这些结果表明,该多标志物模型的诊断性能在不同CP亚型中保持一致,支持其在临床异质性CP人群中的潜在应用。为了评估这10个候选蛋白的跨平台预测性能,他们使用ELISA方法在一个包含38例CP患者和32例HC的独立队列中检测了它们的表达水平。所有10个蛋白在CP患者中均表现出显著的表达改变,与蛋白质组学结果一致(图 1G)。基于ELISA数据,他们使用XGBoost算法构建了一个包含10个蛋白的诊断模型,并进行了交叉验证,该模型取得了优异的性能(AUC = 0.98)(图1H)。

图1. CP儿童与健康对照者之间血清蛋白质组的研究设计及变化。
(A) 蛋白质组学工作流程概述了三个模块:样本采集、LC/MS分析和数据分析。(B) 饼图显示了 CP 样本的临床信息,包括临床亚型、MRI 结果、性别、GMFCS 分级和出生体重。(C) 热图和气泡图展示了区分 CP 组和健康对照组 (HC)的独特蛋白质和通路。(D) 示意图展示了用于开发分类器以识别 CP 组和健康对照组样本的机器学习框架。(E) 使用基于XGBoost 的模型区分 CP 组和健康对照组的特征重要性。(F) 基于蛋白质组学结果,受试者工作特征(ROC)曲线展示了多生物标志物模型在测试集中的性能。(G) 箱线图展示了 验证队列中,使用ELISA检测的CP组和HC组之间10个诊断蛋白的差异。(H) ROC曲线展示了多生物标志物模型在测试集中的性能。
02
遗传性CP患者在蛋白质水平上钙离子和突触通路的失调
鉴于在CP中发现的独特蛋白质组学特征,他们接下来研究了这些改变是否与可能导致该疾病的特定遗传变异相关。为了阐明遗传因素的作用,他们将来自321例CP患者的血清蛋白质组学数据与匹配的全外显子组测序(WES)数据整合在一起。鉴于其已确立的临床相关性,致病性和可能致病性(P/LP)变异通常与疾病易感性相关。因此,他们重点关注这些变异,并在65例患者中鉴定出76个P/LP变异,其中一些患者携带不止一个变异(图 2A)。值得注意的是,痉挛型中发现了ATP2B3(c.T2672C: p.M891T;c.A2209G: p.N737D)和WDR62 (c.C3406T: p.R1136X;c.C1684G: p.H562D)的变异。混合型中观察到GALC(c.G2041A: p.V681M;c.G1912A: p.G638S)和ARSA(c.G938A: p.R313Q;c.T746C: p.F249S)的变异。共济失调病例携带DNMT3A(c.1249delT: p.S417Lfs234)、CTNNB1(c.1789dupC: p.L598Ifs11)和CEP290(c.6012-2 A > G;c.4819dupA: p.M1607Nfs*19)的变异。在运动障碍亚型中,他们观察到PCDH12(c.G1067A: p.W356X)和ITPR1(c.C805T: p.R269W)的变异。
为了阐明这些基因及其LP/P变异在本研究队列中的生物学意义,他们进行了通路富集分析,结果显示它们与离子结合、突触相关信号传导、WNT信号传导和染色质组织通路存在显著关联(图 2B)。在钙信号通路中鉴定出的变异包括CACNA1A、CAMK2G、CACNA1D和CACNA1G,它们在调节神经递质释放和肌肉收缩中发挥着关键作用。类似地,EHMT1、DNMT3A、CHD4、EZH2、NSD1和SMARCA4等变异在染色质组织通路中富集,该通路调节DNA可及性和转录活性。此外,CTNNB1和TCF4变异与WNT信号传导相关,该通路对胚胎发育和组织稳态至关重要。
为了评估本研究队列中CP的遗传病因(即携带已知致病基因P/LP变异的个体)是否影响其蛋白质组,他们将队列分为遗传性CP组、非遗传性CP组和HC亚组。对这些组进行比较分析,共鉴定出663个表达异常的蛋白质(图 2C)。其中,177个蛋白质在遗传性CP组中表达最高,在HC组中表达最低;而167个蛋白质则呈现相反的趋势(图 2D)。通路富集分析显示,上调的蛋白质显著富集于蛋白质结合通路(例如EFTUD2、CSNK2A3和EIF3L)和RAC1 GTP酶循环通路(例如RAC1、DOCK10和CDC42BPA)(图 2E)。下调蛋白在信号通路中显著富集,包括多巴胺能突触通路(例如 CALM3、ITPR3 和 GNAI3)和钙信号通路(例如 STIM1、CAMK1D 和 MYLK)(图 2E )。值得注意的是,下调通路与变异富集通路之间可能存在一致性。例如,在钙信号通路中,下调蛋白 ITPR3、CAMK1D 和 CALM3 与钙相关变异(例如CACNA1A和CACNA1G)相关。类似地,在突触信号通路中,GNAI3 蛋白的下调与突触相关变异(例如GNAO1和GABBR2 )相关(图 2F)。
此外,根据单样本基因集富集分析(ssGSEA),多巴胺能突触和骨骼肌信号通路与GMFCS评分呈负相关(图 2G)。这表明这些通路的下调可能损害神经和肌肉功能,进而导致运动功能障碍加重。总之,整合基因组学和蛋白质组学分析表明,遗传变异主要富集于钙离子和神经信号通路,这些通路与钙离子和骨骼肌相关血清蛋白表达的改变有关。有必要在更大规模、遗传多样性更高的队列中进行进一步验证。

图2. CP 中鉴定的 P/LP 变异概述。
(A) 临床亚型中鉴定出的遗传变异频率。(B) 条形图显示76个变异的富集通路。(C) 差异蛋白质分析。(D) 折线图显示遗传型CP中上调和下调的血清蛋白。(E) 条形图显示在遗传型CP中蛋白质水平上检测到的显著差异蛋白的富集通路。(F) 由变异和蛋白质构建的变异-蛋白质相互作用网络在变异型CP中发生了显著改变。(G) 散点图展示了GMFCS分级与通路ssGSEA评分之间的关联。
03
蛋白质基因组学分析揭示了与临床风险因素相关的分子改变
除了遗传因素外,他们还评估了已知CP临床风险因素对蛋白质组的影响。已知的影响神经发育的临床风险因素包括早产、围产期窒息和宫内感染。然而,目前对于这些风险因素与遗传变异和蛋白质之间的关联知之甚少。首先根据既往报道将CP样本分为几个风险亚型:孕前(例如,母亲不良妊娠史)、产前(例如,先兆流产和妊娠并发症)、围产期(例如,低出生体重和早产)、产后(例如,病理性黄疸)以及未知(无风险因素)(图 3A)。
在所有临床风险亚型中均发现了LP/P变异(图 3B)。在孕前组中,代表性变异包括PCDH12、EHMT1和CACNA1A 。产前亚型的特征是ARSA、GALC、CTNNB1、TCF4、ALS2和GABBR2等变异,这些变异富集于鞘脂代谢、WNT信号通路、肌肉收缩和黏附连接通路(图 3C)。在围产期亚型中,发现了17个P/LP变异,包括CAMK2G、PDHA1、SYNGAP1、FRMPD4和KCNH1,这些变异显著富集于胰高血糖素信号通路和突触后通路。在产后组中发现了7个变异,在未知组中发现了16个变异,这些变异主要与突触信号通路相关。
为了进一步分析不同风险亚型的生物学特征,他们进行了蛋白质水平的ssGSEA分析。孕前亚型显示脂肪酸β氧化通路和长时程抑制通路上调(图3D)。产前亚型在蛋白质水平上富集肌动蛋白细胞骨架重组和Rhoh GTP酶通路(图 3D)。围产期亚型显示核糖体通路上调(图 3D)。产后亚型表现出参与慢性炎症反应和钙依赖性磷脂结合通路的蛋白质表达增加(图 3D),未知亚型显示中性粒细胞活化通路上调(图 3D)。有趣的是,他们观察到在产前亚型中β-catenin/TCF复合物组装通路、黏附连接通路和突触后组织通路均下调,这与变异富集通路相一致(图3D-E)。包括SPARC、DSG2和NRCAM在内的几种黏附蛋白显著下调,并发现它们与FGFR1和CTNNB1基因相互作用。这些发现表明,产前亚型中与WNT信号通路和黏附连接通路相关的遗传变异可能导致下游通路在蛋白水平上的改变。

图3. 与各种风险因素类型相关的变异和血清蛋白的特征。
(A) 热图按时间顺序展示了各种CP类型中的风险因素。(B) 风险因素亚型中识别出的遗传变异频率。(C) 气泡图展示了不同风险亚型中P/LP遗传变异的显著富集通路。(D) 气泡图展示了不同风险因素亚型在蛋白质水平上的富集通路。(E) 基于产前亚型中显著改变的变异和蛋白质构建的变异-蛋白质相互作用网络。
04
蛋白质组学分析揭示低出生体重和早产与脂质代谢相关
为了进一步探究风险因素与临床亚型之间的关联,他们进行了比值比分析,以评估各种风险因素如何影响CP亚型的生物学改变(图 4 A-B)。值得注意的是,脑室周围白质软化(PVL)、低出生体重(LBW)和早产在痉挛型CP中显著富集,而运动障碍型CP则与病理性黄疸的关联更强。其中,低出生体重和早产的富集程度最高,表明其与临床亚型具有很强的相关性(图 4C)。
鉴于其重要性,他们进一步探讨了低出生体重和早产对痉挛型患者的影响。首先,他们根据患者运动障碍的严重程度,按照先前研究中的方法,将其分为两类。将运动障碍较重(IV-V级)的儿童归为“高GMFCS组”,而运动障碍较轻(I-III级)的儿童则归为“低GMFCS组”。值得注意的是,他们观察到高GMFCS组的出生体重和胎龄显著低于低GMFCS组,表明低出生体重或低胎龄(LGA)的个体表现出更严重的运动功能障碍(图4D-E)。
为了更清晰地了解与LBW和大体重(LGA)相关的蛋白质水平变化,他们分析了痉挛亚型中出生体重、胎龄和蛋白质表达之间的相关性(图4F)。与LBW或LGA相关的蛋白质显著富集于脂质代谢(例如APOC2、APOH和PLTP)、氧化还原酶复合物(例如NDUFA10、CYB5R3、PRDX6和PRDX5)以及抗原结合(例如HLA-H和HLA-A)通路(图 4G-H)。相反,与高出生体重或高胎龄相关的蛋白质则显著富集于细胞解毒(AKR7L和AKR7A3)和间隙连接(例如TUBA1A和TUBB1)等信号通路(图 4G-H)。ssGSEA进一步表明,脂质相关信号通路与体重和妊娠期呈显著负相关,表明 LBW/LGA 病例表现出独特的代谢特征。
在脂质代谢蛋白中,APOC2 是一个关键分子,其与出生体重呈负相关,与 GMFCS 严重程度呈正相关(图 4I)。与 APOC2 呈正相关的蛋白显著富集于脂质代谢通路(例如 APOE、APOB)和细胞因子生成通路(例如 IFI16 和 MIF)(图 4J)。此外,脂质代谢通路与单核细胞相关的炎症通路呈显著正相关(图 4K),提示脂质代谢紊乱可能影响痉挛型CP的免疫反应。此外,脂质代谢和炎症相关蛋白均与 GMFCS 评分呈正相关,与出生体重和胎龄呈负相关(图 4L)。这些研究结果表明,伴有低出生体重或巨大儿的痉挛性CP病例可能导致脂质代谢和免疫途径失调,而这两种情况都与更严重的运动功能障碍有关(图 4M)。

图4. 低出生体重和早产儿CP的分子特征。
(A) 热图显示临床亚型(列)与风险类型(行)之间的关系。(B) 热图显示风险因素与临床亚型之间关联的优势比。(C) Fisher 精确检验中临床信息与风险因素之间关系的排序 p 值。(D) 条形图显示痉挛亚型与其他亚型中低出生体重的患病率。(E) 条形图显示痉挛亚型和其他亚型中早产的发生率,箱线图显示痉挛亚型中不同 GMFCS 等级的胎龄。(F) 散点图显示蛋白质与两个关键因素(出生体重和胎龄)之间的相关性。(G) 条形图显示与出生体重或胎龄呈正相关或负相关的蛋白质所富集的通路。(H) 由与低出生体重或低胎龄呈正相关的蛋白质形成的蛋白质-蛋白质相互作用网络。(I) 蛋白质 与GMFCS之间的相关性。(J) 气泡图显示与APOC2蛋白呈正相关的蛋白质所富集的通路。(K) 散点图显示血清脂蛋白组装、单核细胞聚集和细胞因子生成通路评分之间的相关性。(L) 与APOC2呈正相关的蛋白质。(M) 代谢紊乱与低体重、早产和高GMFCS的相关性示意图。
05
血清蛋白共表达网络揭示了CP中免疫球蛋白与GMFCS等级之间的关联
为了研究血清蛋白质组学特征与CP临床特征之间的关联,他们进行了加权基因共表达网络分析(WGCNA),将蛋白质分为七个在蛋白质水平上高度共表达的模块特征基因(ME):MEbrown、MEgreen、MEblue、MEyellow、MEturquoise、MEred 和 MEgrey(图 5A)。不同的模块与临床指标均表现出显著相关性。具体而言,MEblue 模块与CP的常见并发症(包括癫痫以及听力和视力障碍)显著相关。MEturquoise 模块在智力障碍患者中富集。MEred 模块与共济失调亚型呈负相关,而 MEred 和 MEgreen 均在运动障碍亚型中富集。此外,MEgreen 和 MEbrown 模块均与粗大运动功能分级系统(GMFCS)等级呈正相关(图 5A)。
通路富集分析揭示了不同模块蛋白的多种生物学功能(图 5B)。MEblue富集于脂蛋白代谢和补体级联通路(图 5B)。MEyellow的特征是与肌动蛋白细胞骨架相关的通路,而MEred富集于细胞对热应激的反应和Rho GTPase信号通路(图 5B)。MEgreen和MEturquoise分别与免疫球蛋白基因家族IGHV、IGKV和IGLV共表达(图 5B)。考虑到不同的模块富集了特定的免疫球蛋白,他们在蛋白质水平上对IGHV、IGLV和IGKV进行了ssGSEA评分。CP 患者血清样本与健康对照血清样本的比较显示,CP 患者血清中 IGHV 相关免疫球蛋白显著上调(图 5C)。此外,IGHV ssGSEA 评分与 GMFCS 等级也呈显著正相关(图 5D)。
鉴于IGHV评分与GMFCS分级呈正相关,他们进一步研究了IGHV评分对疾病病理的影响。通路富集分析显示,与IGHV评分呈正相关的蛋白主要富集于细胞因子通路(例如HMGB1、MIF)、胆固醇代谢通路(例如APOE、APOB和APOC2)以及蛋白酶体降解通路(例如PSMB10、PSME2和PSMD3),而呈负相关的蛋白主要富集于吞噬体通路(例如RAB7A和EEA1)、谷胱甘肽代谢通路(例如GPX1和GPX3)以及紧密连接信号通路(例如CTTN和ACTN4)(图 5 E-F)。这些结果强调了IGHV评分相关蛋白参与炎症、脂质代谢和细胞结构完整性等关键生物学过程,可能影响CP的病理。
最后,他们开发了一种基于血清蛋白谱的预测模型,以改进GMFCS分级的准确性。CP样本按4:1的比例随机分为训练集和验证集。采用XGBoost算法和交叉验证评估蛋白质特征的重要性(图 5G)。选取前10个蛋白质构建多标志物预测模型,该模型的AUC为0.76,准确率为0.75,加权精确率为0.76,加权召回率为0.75,加权F1值为0.75(图 5H)。总之,本研究发现了血清蛋白共表达网络(尤其是免疫球蛋白)与CP患者GMFCS水平之间的关联。

图5. WGCNA 揭示了 IGHV 相关蛋白模块与较高 GMFCS 水平之间的关联。
(A) 热图显示了WGCNA分析获得的模块与各种临床结果之间的相关性。(B) 不同模块在蛋白质水平上的富集通路。(C) 箱线图显示了CP组和健康对照组在蛋白质水平上IGHV、LGLV和IGKV的ssGSEA评分。(D) 散点图显示了IGHV评分与GMFCS之间的Spearman相关性。(E) 火山图显示了IGHV评分与蛋白质之间的Spearman相关性。(F) 条形图显示了在蛋白质水平上与IGHV ssGSEA评分显著相关的蛋白质中富集的通路。(G) 条形图显示了使用基于XGBoost的模型筛选出的特征重要性排名前10的蛋白质。(H) 图形总结突出了对346名CP儿童和190名健康对照者的血清蛋白质组进行整合分析的关键分子发现。(I) 示意图总结了结果。
+ + + + + + + + + + +
结 论
本研究对346例脑瘫患者和190例健康对照者的血清蛋白质数据进行了分析,并构建了一个包含10个蛋白质的多标志物检测组合,用于脑瘫的诊断。通过整合血清蛋白质组数据和全外显子组测序结果,本研究发现携带致病变异的脑瘫患者在蛋白质水平上表现出突触和钙信号通路的下调。此外,本研究还探讨了临床危险因素对蛋白质组的影响,发现低出生体重和低胎龄与脂质代谢紊乱相关。IGHV家族与较高的粗大运动功能分级系统(GMFCS)等级呈正相关。总而言之,本研究为脑瘫的早期诊断提供了一种有价值的工具,可作为标准临床和基因组评估的补充,并提示了与脑瘫发病机制相关的潜在分子机制,强调了遗传、环境和蛋白质网络因素之间的相互作用。
+ + + + +



English

