2026 每日阅读｜NEMAT：用 GROMACS 拆开膜蛋白药物亲和力的“障眼法”

2026/7/2 5:57:15

如果一个小分子特别喜欢钻进脂质膜，它在膜蛋白附近的浓度自然会升高。此时实验看见的“结合更强”，究竟来自真正的蛋白-配体相互作用，还是因为膜先把配体富集到了受体旁边？

这是今天这篇论文最有意思的问题。

2026 年 5 月，Journal of Chemical Information and Modeling发表了 NEMAT：一套基于 GROMACS 的自动化非平衡自由能计算框架。它不满足于告诉我们“配体在模拟中没有跑掉”，而是尝试把膜蛋白配体的表观亲和力拆成两个部分：进入膜的贡献与真正识别受体的贡献。

本文是“每日一篇新文献”读书日记。目标不是逐句翻译论文，而是把研究问题、方法、关键结果和局限讲清楚。

今日论文卡片

项目	内容
题目	NEMAT: An Automated Nonequilibrium Free-Energy Framework for Predicting Ligand Affinity in Membrane Proteins
作者	Albert Ortega-Bartolomé、Ramon Crehuet
期刊	Journal of Chemical Information and Modeling
在线发表	2026 年 5 月 13 日
DOI	10.1021/acs.jcim.5c03089
研究对象	P2Y1 受体与 BPTU 类拮抗剂
核心工具	GROMACS 2024.2、pmx、ACPYPE、GAFF2、BAR
开源代码	QTC-IQAC/NEMAT

先给结论

我认为这篇论文真正值得记住的不是“又有一个自动化脚本”，而是下面三点：

膜蛋白配体的表观亲和力不只由蛋白决定。配体进入脂质膜的倾向，可能显著改变实验观察到的结合。
NEMAT 把一个亲和力变化拆成膜分配与受体识别两个部分。这比只给出一个总分更有机制解释力。
在 P2Y1/BPTU 基准中，NEMAT 大体复现实验排序，但还远未达到“输入化合物，自动得到可靠答案”的程度。单一 GPCR、单一 POPC 膜、有限配体系列和若干内部数值不一致，都要求我们保持克制。

为什么普通的蛋白-配体思维在膜蛋白上可能失灵

处理可溶性蛋白时，我们经常把配体从水相进入结合位点看作主要过程。膜蛋白多了一层麻烦：配体可能先从水进入膜，再沿着膜侧进入受体口袋。

这意味着实验观察到的结合自由能可以写成：

ΔGobs = ΔGmem + ΔGint

ΔGobs：实验最终观察到的总体结合自由能；
ΔGmem：配体从水相进入脂质膜的自由能；
ΔGint：配体从膜环境进入受体位点、形成特异相互作用的自由能。

如果一个分子非常亲脂，ΔGmem 可能很有利。即使它对蛋白口袋的特异识别一般，膜的富集效应也可能让总体结合看起来不错。反过来，一个对蛋白识别很好的分子，如果不愿进入膜，也可能难以到达膜侧口袋。

图 1｜NEMAT 的热力学循环。配体 0 与配体 1 分别在水、膜和膜蛋白环境中进行炼金转换。程序实际模拟纵向的 ΔG 路径，再组合得到 ΔΔGobs、ΔΔGmem 与 ΔΔGint。图源：原论文 Figure 1，CC BY 4.0。

这张图是全文的灵魂。NEMAT 不直接模拟配体漫长的结合过程，而是比较两个相似配体之间的“炼金变化”：在计算机中逐渐关闭配体 A 的部分原子，同时逐渐打开配体 B 的对应原子。

这种路径并不真实存在，但只要热力学循环闭合，就可以得到两个配体之间的相对结合自由能。

NEMAT 到底自动化了什么

NEMAT 是 Python3 与 Bash 组成的工作流，底层模拟由 GPU 加速的 GROMACS 完成。它将一对配体的计算拆成三个并行环境：

水相；
纯脂质膜；
含目标膜蛋白的脂质膜。

配体之间的最大公共子结构由 RDKit/pmx 映射；ACPYPE/Antechamber 使用 GAFF2 生成小分子参数；正向与反向非平衡功分布最后通过 Bennett Acceptance Ratio（BAR）估算自由能差。

图 2｜NEMAT 工作流。用户提供配体、纯膜和膜蛋白体系；NEMAT 处理公共子结构映射、混合拓扑、GROMACS 正反向转换以及功分布分析。图源：原论文 Figure 2，CC BY 4.0。

它自动化的主要步骤包括：

根据最大公共子结构生成配体映射；
用 pmx 建立同时包含真实原子和 dummy atoms 的混合拓扑；
为每条 transformation edge 建立三个环境；
运行多重复平衡、生产模拟和正反向非平衡转换；
分析功分布并输出相对自由能及误差。

不过，“自动化”不等于“无需判断”。膜蛋白结构、膜组成、质子化状态、配体构象和力场兼容性仍需研究者负责。论文也明确建议：先在少量 transformation edges 上调节参数，检查正反向功分布重叠和误差，再扩大计算。

非平衡 FEP，可以怎样直观理解

传统平衡 FEP/TI 往往需要在多个 λ 窗口之间逐步采样。NEMAT 采用 NEQ-FEP：先分别为 λ=0 与 λ=1 的端点跑平衡生产轨迹，然后从多个快照出发，快速执行 A→B 与 B→A 的非平衡转换。

图 3｜非平衡 FEP 的直观示意。从两个端点的生产轨迹抽取快照，执行正反向快速转换，再由两组功分布估计 ΔG。图源：原论文 Figure 3，CC BY 4.0。

这里必须盯住两个质量信号：

正向与反向功分布是否有足够重叠；
独立重复之间是否给出一致结果。

如果两组分布离得很远，BAR 可能仍输出一个数字，但这个数字未必值得相信。NEMAT 默认采用 3 个独立重复，并允许增加重复数来降低统计不确定性。

这篇论文实际跑了什么

作者选择 P2Y1 受体的膜侧变构口袋作为 benchmark。BPTU 及其类似物恰好位于蛋白-脂质界面，非常适合检验“膜分配”和“蛋白识别”能否被拆开。

核心体系设置如下：

参数	设置
膜蛋白结构	P2Y1-BPTU，PDB 4XNV，2.2 Å
蛋白力场	Amber ff19SB
膜	233 个 POPC，Lipid21
水与离子	TIP3P，0.15 M NaCl
小分子	GAFF2，AM1-BCC 电荷
GROMACS	2024.2
独立重复	3
生产轨迹	每个端点 20 ns
非平衡转换	50 次，均匀取样，每次 100 ps
时间步长	2 fs

补充材料还给出了几个很实用的工程数字：三个环境和三个重复可以高度并行；使用 A100 GPU 与 GROMACSmultidir时，转换阶段相对串行执行约快 15 倍；每条 transformation edge 约需要 15 GB 存储空间。

作者测试了不同参数后认为：

5 ns 与 20 ns 的生产轨迹均可给出接近结果，但 20 ns 能让抽取快照间隔更大；
50 次转换后继续增加到 80 或 100 次，收益有限；
50 ps 转换明显不够，100 ps 与 200 ps 更一致，因此默认采用 100 ps。

这些默认值是起点，不是通用定律。柔性更高的配体、复杂膜或慢构象变化都可能需要更长采样。

Benchmark 结果：好到什么程度

作者最终重点分析了 14 个有膜分配参考数据的 BPTU 类拮抗剂，并分成以 11a 和 6a 为中心的两个系列。

在 11a 系列中，NEMAT 对所有配体都预测对了亲和力变化方向；
在 6a 系列中，若把两个接近零的实验差异考虑在内，方向预测正确率为 87.5%；
总体排序相关性为 Kendall τ=0.42，r²=0.44。

图 4｜计算与实验绝对结合自由能的比较。虚线为理想一致关系，蓝点与红点来自两个配体子系列。图中报告 RMSD=1.51 kcal/mol、MUE=1.28 kcal/mol。图源：原论文 Figure 4，CC BY 4.0。

这个结果足以说明 NEMAT 能提供有用的先后排序，但不能说已经“精准预测”所有分子。r²=0.44 代表仍有大量变异没有被模型解释，图中也能看到几处明显偏离理想线的点。

更值得注意的是，论文正文写的是 RMSD=1.69 kcal/mol、MUE=1.39 kcal/mol，而 Figure 4 与补充 Figure S13 显示 RMSD=1.51、MUE=1.28。两组 Kendall τ 和 r² 一致。这很可能来自分析版本或绘图数据更新未同步，但作者没有解释。写博客时我选择把两组数字都列出来，而不是悄悄替作者决定哪一个才对。

我认为最有价值的结果，不是总体 ΔG

NEMAT 最有意思的输出其实是 ΔΔGmem 和 ΔΔGint。

假设两个新化合物的 ΔΔGobs 都比先导物更有利：

化合物 A 的提升主要来自 ΔΔGmem，说明它更容易进入膜；
化合物 B 的提升主要来自 ΔΔGint，说明它对受体口袋的特异识别更强。

从药物优化角度看，这两种“变强”完全不是一回事。过度提高亲脂性可能带来非特异膜富集、溶解度下降和药代问题；真正改善蛋白特异相互作用通常更接近我们想要的选择性优化。

遗憾的是，目前缺少可以分别验证 ΔΔGmem 和 ΔΔGint 的实验数据。论文只能用 logP 与 ΔΔGmem 的方向一致性做定性检查。因此，这个分解在机制上很诱人，但精度还不能被独立确认。

这篇论文的优点

1. 问题选得好

膜侧口袋是自由能计算中经常被简化的区域。论文没有假装膜只是背景，而是把膜本身纳入热力学循环。

2. 不只发布概念，还发布可运行工作流

代码、输入、分析脚本和复现实例均在 GitHub 提供，论文 benchmark 可以通过nemat example建立。相比只给一张流程图却不公开参数，这一点很扎实。

3. 参数测试比较务实

作者没有只报一个默认值，还测试了生产时间、转换次数和转换长度，并给出并行效率与存储成本。这些信息对真正准备上机的人很有价值。

我保留意见的地方

1. Benchmark 仍然很窄

只有一个 class A GPCR、一个脂质暴露口袋和 14 个重点配体。它是否适用于内嵌口袋、转运体、离子通道或化学差异更大的配体，尚未证明。

2. 膜模型仍然简化

研究使用单组分 POPC。真实细胞膜包含胆固醇、鞘脂和多类磷脂，且常具有不对称性。对膜侧配体而言，这不是小细节。

3. 柔性配体和慢膜过程仍可能采样不足

20 ns 生产轨迹对某些体系够用，但不能自动解决慢构象变化。作者也承认，必要时可能需要延长生产段或引入增强采样。

4. 三重复的加权方式值得检查

NEMAT 默认用高斯权重降低离群重复的贡献。它能减少异常值影响，但若离群重复代表真实的另一种构象状态，自动降权也可能掩盖问题。使用者应同时查看每个重复，而不是只读最终平均值。

5. 论文内部数字没有完全同步

正文和 Figure 4 对 RMSD/MUE 的报告不一致。这不改变总体结论，却提醒我们：任何自动化 pipeline 的最终数字仍需要人工审阅。

如果我是使用者，我会怎样开始

我不会一上来就计算几十个化合物，而会这样做：

选择 3-5 个有实验亲和力、结构变化较小的配体；
检查膜蛋白结构、质子化状态、膜组成与结合姿势；
审核配体 MCS 映射、AM1-BCC 电荷和 GAFF2 参数；
先跑少量 edges，检查每个环境的正反向功分布；
比较三个独立重复，不让加权平均掩盖异质性；
对 ΔΔGobs、ΔΔGmem、ΔΔGint 分别解释，并与实验 SAR 对照；
最后才扩大到完整配体系列。

今日读书日记

今天最大的收获，是重新理解了“膜蛋白的结合亲和力”。

以前看到一个膜蛋白-配体体系，我容易把注意力全部放在口袋里的氢键、疏水作用和 RMSD 上。NEMAT 提醒我，配体抵达口袋之前，膜已经参与了选择。一个分子是因为真正认出了受体，还是因为先被膜吸了过去，这两件事必须分开讨论。

这篇论文还让我确认了一件老生常谈却很容易忘记的事：计算方法的自动化可以减少手工错误，但不能替代科学判断。工作流可以自动生成拓扑、提交任务和画图，却不会替你判断采样是否充分、膜是否真实、离群重复是否有物理意义。

如果后续 NEMAT 能扩展到复杂不对称膜、更多力场和不同类型膜蛋白，它会很有潜力成为膜蛋白药物设计中实用的一层基础设施。现在的它，更适合被视为一个公开、可复现、值得继续验证的起点。

原文与资源

论文：NEMAT: An Automated Nonequilibrium Free-Energy Framework for Predicting Ligand Affinity in Membrane Proteins
PubMed：PMID 42130012
PMC 开放全文：PMC13213831
GitHub：QTC-IQAC/NEMAT
文档：NEMAT Documentation

如果你也在做 GPCR、膜蛋白、小分子结合或 GROMACS 自由能计算，想找我们做复现或者新的研究，欢迎私信我，或者前往博客《智澈乐尚网络工作平台》阅读一下，下一篇读书日记，我会继续沿着“膜环境如何改变药物结合”这条线往下读。

2026 每日阅读｜NEMAT：用 GROMACS 拆开膜蛋白药物亲和力的“障眼法”

今日论文卡片

先给结论

为什么普通的蛋白-配体思维在膜蛋白上可能失灵

NEMAT 到底自动化了什么

非平衡 FEP，可以怎样直观理解

这篇论文实际跑了什么

Benchmark 结果：好到什么程度

我认为最有价值的结果，不是总体 ΔG

这篇论文的优点

1. 问题选得好

2. 不只发布概念，还发布可运行工作流

3. 参数测试比较务实

我保留意见的地方

1. Benchmark 仍然很窄

2. 膜模型仍然简化

3. 柔性配体和慢膜过程仍可能采样不足

4. 三重复的加权方式值得检查

5. 论文内部数字没有完全同步

如果我是使用者，我会怎样开始

今日读书日记

原文与资源

最新新闻

日新闻

周新闻

月新闻

今日论文卡片

先给结论

为什么普通的蛋白-配体思维在膜蛋白上可能失灵

NEMAT 到底自动化了什么

非平衡 FEP，可以怎样直观理解

这篇论文实际跑了什么

Benchmark 结果：好到什么程度

我认为最有价值的结果，不是总体 ΔG

这篇论文的优点

1. 问题选得好

2. 不只发布概念，还发布可运行工作流

3. 参数测试比较务实

我保留意见的地方

1. Benchmark 仍然很窄

2. 膜模型仍然简化

3. 柔性配体和慢膜过程仍可能采样不足

4. 三重复的加权方式值得检查

5. 论文内部数字没有完全同步

如果我是使用者，我会怎样开始

今日读书日记

原文与资源

相关新闻

游戏运营的核心资产：当玩家信任成为长线运营的胜负手

AI重构地下检测行业：垂直大模型如何破解地下病害识别难题

Kimi LeetCode 3455. 最短匹配子字符串 Python3实现

最新新闻

日新闻

周新闻

月新闻