首页研究 › BRIEF BIOINFORM | 同济大学王海芸/上海交大郑小琪: 基于miRNA特征的血清外泌体肿瘤纯度反卷积模型

BRIEF BIOINFORM | 同济大学王海芸/上海交大郑小琪: 基于miRNA特征的血清外泌体肿瘤纯度反卷积模型

外泌体携带癌细胞分泌的肿瘤特征生物分子,在肿瘤发生发展中具有关键作用。由于在癌症患者的液体活检中,癌细胞来源的外泌体通常与健康细胞来源的外泌体混合,因此准确测量癌细胞来源的外泌体纯度不仅对早期检测十分重要,而且对诊断生物标志物的正确检出也至关重要。
近日,同济大学王海芸教授团队联合上海交通大学郑小琪团队Briefings in Bioinformatics杂志(IF=13.944)发表了题目为“ExosomePurity: tumour purity deconvolution in serum exosomes based on miRNA signatures”的文章(DOI: 10.1093/bib/bbad119)。该项研究提出了ExosomePurity模型,基于miRNA-Seq数据预测癌症患者血清外泌体中的肿瘤纯度,ExosomePurity能够推动癌症无创早期诊断和跟踪癌症进展的相关研究。同济大学生命科学与技术学院博士研究生吴涛和硕士研究生代瑶为该论文的共同第一作者,同济大学王海芸教授、上海交通大学郑小琪教授为该论文的共同通讯作者。

111

该论文开发了肿瘤纯度反卷积模型ExosomePurity(图1),作者利用miRNA-Seq数据对癌细胞系来源的外泌体和健康细胞来源的外泌体进行差异分析,鉴定出外泌体中癌细胞和健康细胞特异的miRNA特征谱。以该特征谱和癌症患者的外泌体miRNA表达谱为输入,作者建立了肿瘤纯度反卷积模型来量化血清中癌症外泌体和正常外泌体的比例。反卷积模型公式为T=Eα+ε,T表示癌症患者血清外泌体miRNA表达谱;E为癌细胞系和健康细胞来源外泌体的miRNA特征谱,α为癌细胞系和健康细胞外泌体的比例矩阵。此后该模型在11种癌症类型的模拟数据和真实数据中进行了系统的性能评估。
  222图1. 肿瘤纯度反卷积模型ExosomePurity和模型评估数据
首先,作者鉴定出了各类癌症外泌体miRNA特征(图2),其中在乳腺癌、肺癌和结直肠癌中分别鉴定出49个、63个和48个miRNAs;在胶质母细胞瘤和前列腺癌鉴定的miRNA数量最多,头颈部鳞癌、胰腺癌和卵巢癌数量较少。这些miRNAs在癌细胞与健康细胞外泌体中的平均表达构成每种癌症的miRNA特征谱。
333图2. 癌症外泌体的miRNA特征
其次,作者运用模拟数据对模型进行了性能评估(图3),通过皮尔森相关系数(PC)评估模拟肿瘤纯度与预测肿瘤纯度的一致性。结果显示,当模拟肿瘤纯度在0到1之间时,模型具有很好的预测效果。为了评估该模型的早期诊断能力,作者设计了肿瘤纯度从0到0.1之间的模拟数据,发现模拟纯度和预测纯度之间仍然实现了高度相关性。为了进一步评估模型的稳健性,作者在模拟数据中加入了不同程度的噪声,并通过预测纯度和模拟纯度之间的PC和平均绝对误差(MAE)两个指标进行评估。结果表明,该模型在不同噪声水平都趋于稳定,PC值达到0.9以上,并且随着噪声水平的增加,PC值也保持在较高水平,MAE值总体上也非常低。因此,模型对噪声具有较好的稳健性。
444图3. 基于模拟数据评估ExosomePurity模型的性能
然后,作者运用两种类型的真实数据(数据集Θ和外部数据集Φ)对模型进行了评估(图4)。作者将数据集Θ中的样本分成5份,其中1份(Θ0)作为独立队列,其余4部分(Θ1)进行3倍交叉验证。结果表明,模型在3倍交叉验证和独立队列Θ0中具有良好的区分两组样本的能力,即癌细胞来源外泌体的预测纯度接近1,健康细胞来源外泌体的预测纯度接近0,这表明该模型的准确性。此外,作者使用外部数据集Φ(包括9 种癌症类型患者和健康对照的外泌体数据)作为另一独立队列对模型进行了评估。结果表明,不同癌症样本的纯度差异很大(0.5~1),健康对照接近于 0。并且模型还能很好区分不同的疾病状态,如前列腺癌患者的肿瘤纯度中位数接近 0.6,显著高于良性前列腺增生患者;在肺癌和肺肉芽肿患者间也观察到相似的差异结果。作者进一步使用 Precision、Recall、Specificity和 F1评估模型的预测性能,结果表明模型具有零假阴性和可接受的假阳性。
由于不同癌症间共享部分相同的miRNA特征,作者进一步生成并评估了泛癌纯度反卷积模型(图5)。作者选择至少5种癌症共有的46个miRNA作为特征构建泛癌症纯度反卷积模型。结果表明,当模拟数据纯度在0到1以及0 到 0.1范围内时,泛癌纯度模型预测的纯度与模拟纯度的PC较高。在真实数据中,泛癌模型很好区分了癌细胞来源和健康细胞来源的外泌体样本。此外,在不同的噪声水平下,泛癌模型的PC值均在0.9以上,具有较高的稳定性。因此,由46个miRNAs特征组成的泛癌模型具有出色的预测性能,适用于任何癌症类型。
最后,由于癌症外泌体的肿瘤纯度各不相同,如果在差异分析中不考虑肿瘤纯度将导致差异表达miRNA的鉴定有偏差。因此,作者开发了一种使用肿瘤纯度校正差异基因分析的方法。纯度校正后,在结直肠癌、胶质母细胞瘤、胰腺癌、胃癌和前列腺癌鉴定出新的差异表达miRNAs。通过对新鉴定miRNAs的靶基因进行KEGG分析,发现其富集于MAPK信号通路和PI3K-Akt信号通路。结果表明,经过纯度校正后鉴定的差异表达miRNAs具有生物学意义。
555图4. 基于真实数据评估ExosomePurity模型的性能
 666图5. 基于模拟数据和真实数据评估泛癌外泌体纯度模型的性能
总之,肿瘤纯度是肿瘤样本的重要指标,通过测定血清中的肿瘤纯度可应用于癌症无创早期诊断和进展监测。该论文开发了血清外泌体肿瘤纯度反卷积模型ExosomePurity,基于miRNA特征预测患者血清外泌体中癌细胞分泌的外泌体纯度,促进了该领域的研究并具有潜在的临床转化价值。然而,癌症外泌体携带的特定生物分子在患者和不同癌症阶段具有异质性,随着更多测序数据集的出现,需要在miRNA特征优化和样本合理分层等方面改善。此外,模型可包括癌前病变组织的样本,以此提高其早期检测能力。

外泌体资讯网 BRIEF BIOINFORM | 同济大学王海芸/上海交大郑小琪: 基于miRNA特征的血清外泌体肿瘤纯度反卷积模型

上一篇: