单细胞NMF非负矩阵分解降维及亚群分析应用

单细胞NMF非负矩阵分解降维及亚群分析应用

NMF非负矩阵分解是一种降维技术,可以应用在高维数据如单细胞数据(104基因乘以105细胞)、空转数据邻域分析:squidpy+stSME+NMF分解中的分析方法。以单细胞转录组数据为例,它可以从稀疏的单细胞表达矩阵提取有意义的一组非负数据向量的特征,从而达到分解scRNA-seq数据,有效减少大型矩阵复杂程度的目的。(之前也介绍了空转NMF降维分群)

NMF其实是一种通用的数学分解方法,一开始并不是专门为了单细胞数据分析而开发。标准NMF的计算过程如下,对一个非负矩阵A(比如基因 × 细胞的表达矩阵)而言:

𝑨 ≈ 𝑊 × 𝐻

𝑊:基因 × 成分(每个成分是一组共表达基因)

𝐻:成分 × 细胞(每个细胞中各成分的活性)

约束条件是三个矩阵中的所有元素都应为零或正数

对输入数据、归一化方式、k 的选择都非常敏感。同时不局限于单一组学,比如bulk、单细胞、空间转录组都可以可以的。在单细胞里,一个“成分”通常被解释为一个gene-program。特点是完全无监督。不关心你这个成分是 cell cycle、stress、hypoxia还是技术噪声。

基于这样的背景,2024年5月一篇发表在bioRxiv预印本的文章**《Wounding triggers invasive progression in human basal cell carcinoma》提出了一个新的分析R包“GeneNMF”**。GeneNMF包利用非负矩阵分解(NMF)从 scRNA-seq 数据中简化基因程序的识别。在scRNA-seq数据的情况下,A 是大小为 g×c 的观察基因表达矩阵(其中 g 是基因数量,c 是细胞数量);H 是大小为 k×c 的嵌入矩阵(其中 k 是基因程序的数量),包含低维空间中细胞的坐标;W 是大小为 g×k 的特征加载矩阵,包含每个基因在每个程序中的系数。

其在单细胞数据分析过程中的应用场景包括了:

(1)数据降维;

(2)基因表达数据中的特征模块识别,换句话说可以得到一系列具有共表达模式的基因模块;

(3)样本间批次效应去除,例如我们可以将其应用在肿瘤样本中,NMF通过对每个样本分别分析,可以在不做批次校正的情况下提取基因程序,这避免了在癌症数据中把真实的肿瘤异质性错误地当成技术噪声消除掉,因此特别适合用于癌细胞的基因程序分析。

因此接下来我们结合两个示例数据,分别来源于8例PBMC血液样本以及11例基底细胞癌恶性细胞样本的数据,分别应用NMF非负矩阵分解方法进分析。以展示其在降维分群、特征模块识别和批次效应去除方面的作用。

学习手册部分图片集锦:

优惠订阅资料或参与课程请联系[Biomamba_zhushou]

更多生信教程可见:为什么我们敢开放终身订阅

-Biomamba

所见即所得

以html格式提供学习手册,可在浏览器中打开并翻阅学习:‍

教程目录:

零、欢迎关注Biomamba生信基地

一、前言

二、包的安装和加载

三、数据准备

四、NMF用于降维

4.1 runNMF参数解读

4.2 数据降维

五、在多个样本中保持一致性的NMF分析结果

5.1 参数解读

5.2 多样本NMF分析

六、GSEA富集分析

七、基因集合评分

八、基于NMF基因集合评分结果重新降维

九、NMF在肿瘤样本中的应用

9.1 数据准备

9.2 识别多个肿瘤样本间一致的NMF程序

9.3 提取meta-programs结果

9.4 可视化meta-programs之间相似性

十、下游分析

10.1 meta-programs过滤

10.2 meta-programs阈值调整

10.3 配色优化

10.4 查看核心meta-programs的驱动基因

10.5 富集、评分和重新降维聚类

10.6 亚群细分

十一、小结

十二、软件版本

十三、参考

十四、单细胞教程全收录

十五、欢迎致谢

文末下载链接中包含以下内容:

测试文件,总大小442.00MB

**

持续更新中~

解锁前需阅读:2026订阅须知

订阅后解锁下方学习手册链接: