流体动力学中的机器学习：批判性评述

2026/7/2 6:44:43

本文并非常规综述，而是流体机器学习领域的冷静式行业体检报告。
2012—2022 年，流体领域机器学习论文数量爆发式增长，大量深度学习模型被应用于流场重构、湍流闭合、流动控制、超分辨率重建；但 2022 年后会议论文数量增长陷入平台期。
作者否定了 “领域热度衰退” 这一浅层结论，给出核心判断：机器学习已经褪去噱头，从小众新奇工具，融入流体力学常规研究工具箱，行业正式告别野蛮生长的热潮，进入规范化转型的青春期。
长远目标：让数据驱动流体力学成长为与理论流体、实验流体、CFD 计算流体并列的流体力学第四大支柱分支。

想要站稳 “第四分支” 的地位，仅靠更低的预测误差、更炫酷的流场可视化效果、堆叠更深的神经网络远远不够，必须补齐六大基础短板，建立和传统流体研究同等严苛的学术规范。

二、六大核心议题拆解（文章主体逻辑）

议题 1：科学问题的数学表述，优先级高于网络模型选型

1.行业通病
大量研究本末倒置：盲目追逐 Transformer、扩散模型等前沿网络结构，却模糊了研究目标，混淆插值预测与外推预测、短时演化与长期统计、图像重构与流动守恒。损失函数、数据集划分、物理约束随意设置，导致模型结论只适用于特定数据集，不具备科研价值。

2.作者核心主张

先明确任务边界：是流场图像插值，还是跨雷诺数外推？是还原空间结构，还是保证动能、涡量等物理守恒量不变？
合理设计目标函数：物理方程残差约束不可滥用，过度施加守恒约束会扼杀模型非线性拟合能力；
研究遵循由简到繁：先在标准经典算例完成标准化测试，再迁移到分离流、高雷诺数湍流等复杂工程流动。
一句话总结：任务定义决定可信度，模型只是实现手段。

议题 2：预测精度≠物理洞察，区分工程应用与机理研究

**尖锐批评：**当前绝大多数流体深度学习只做到了 “精准拟合数据”，没有产出新的流体机理认知。
即便模型把流场预测误差降到最低，如果无法对应涡演化、剪切层失稳、能量级串、流动分岔等物理规律，只能算作工程数值工具，无法推动流体基础研究进步。

可解释性的辩证观点
早期 POD 模态分解也曾被贴上 “黑箱标签”，随着物理映射建立，最终成为经典流动分析手段。深度神经网络同理：不必强求网络每一层具备直观物理意义，只要潜变量、注意力区域、学习得到的闭合项能够对应流动状态转变、涡结构生成、气动极值事件，就可以形成有效物理洞察。

评价标尺
优秀的数据驱动研究，必须能回答：模型捕捉到了哪一类流动不稳定机制？学到的经验规律能否和尺度分析、经典流动理论相互印证？

议题 3：跨工况泛化能力，是流体机器学习无法绕开的硬门槛

行业痛点
雷诺数、几何外形、边界条件、入流扰动一旦改变，很多神经网络会出现断崖式失效。多数模型仅能在训练数据分布内做插值，根本不具备物理外推能力。很多看似不错的跨条件预测，仅仅是模型在自身流形空间内插值，并没有真正学习流动普适规律。

可行发展路径
迁移学习、流体基础大模型是解决泛化问题的重要方向：先用海量跨参数流动数据训练通用底层表征，再针对具体湍流建模、流动控制任务微调。
同时必须建立严格测试标准：不能只在训练工况附近测试，必须把跨雷诺数、跨构型、抗测量噪声作为硬性考核指标。

议题 4：坚持奥卡姆剃刀，拒绝无意义的模型复杂化

**核心准则：**成熟的物理模型一定是精简紧凑的。控制方程、湍流理论都追求最简表达，机器学习模型也不能无限堆砌参数。

**乱象批判：**不少研究动辄构建百万级参数网络，仅仅用来预测简单层流、低雷诺数尾迹流动，模型复杂度远超传统 CFD 数值方案，额外的参数没有换来泛化能力与物理解释，只是把物理问题隐藏进黑箱。

优化方向
大力发展稀疏识别、局部建模、方程发现类方法，自动剔除无关项，精简网络结构；研究必须设置低复杂度基线模型，证明复杂网络具备不可替代的优势，避免为了提升零点几个百分点误差盲目增大模型规模。

议题 5：开放数据集与开源代码，是领域长久发展的公共基础设施

现实矛盾
DNS 大涡模拟、PIV 实验流场数据成本极高，单个课题组无法持续产出海量多样化样本。如果各组闭门造车、数据集互不通用，模型性能就失去横向对比基准，研究成果无法复用。

数据集建设标准
公共基准库必须兼顾：丰富的流动形态、严格的数据质量控制、均衡的参数分布，规避 “低雷诺数数据泛滥、高雷诺数实测数据稀缺” 带来的训练偏差。文中高度肯定霍普金斯湍流数据库，呼吁建立面向机器学习的多工况流动开源数据库。

可复现性规范
仅上传可一次性运行的代码远远不够，必须配套版本环境、数据集划分规则、调参记录、不确定性分析，对标 CFD 领域的验证与确认（V&V）体系，杜绝依靠随机数据切分、反复调参制造虚高精度。

议题 6：跨代际人才培养，决定整个领域的发展上限

**最大短板：**大量算法研究者只懂神经网络，不熟悉数值离散误差、实验测量噪声、网格收敛性，极易把数据噪声当成流动规律学习；传统流体学者又对数据驱动工具缺乏了解，形成两极割裂。

2.教育改革方案
课程体系融合：将数据驱动建模嵌入流体力学本科、研究生主干课程，而不是单独开设独立选修课，让学生自然把机器学习和 POD、DMD、湍流建模结合使用；

弥合代际鸿沟：面向资深流体学者开设算法入门工作坊，面向年轻博士生补充流体物理基础，打通理论 — 实验 —CFD— 数据驱动四个分支的学术语言，避免领域沦为单纯的算法竞赛。

三、对大模型、生成式 AI 的理性展望

作者没有盲目吹捧流体大模型与扩散生成模型，给出客观判断：
生成模型、流体基础模型在稀疏数据补全、极端稀有流动预测、多尺度流场生成上具备巨大潜力，有望攻克传统数值方法难以求解的多物理耦合、强非线性难题；
即便 AI 算力持续迭代，物理先验约束依然是流体机器学习的核心根基。在实测样本稀缺的高雷诺数工程场景下，纯数据驱动模型很难单独成立，必须融合 N-S 方程、守恒律、无量纲相似准则；

未来算法迭代会和新一代 GPU、量子计算硬件深度绑定，如同当年 CFD 依托超级计算机崛起。

四、全文最终结论（核心主旨升华）

行业阶段总结
流体机器学习已经走完概念验证热潮，迈入规范化转型的青春期。不再需要反复证明 “机器学习能用在流体力学”，接下来要对标传统三大分支的学术准则，接受严格审查，努力建成流体力学第四分支。

成果评价新标准
一篇合格的数据驱动流体研究，要么揭示全新流动机理，要么提出具备强泛化能力、简洁可靠的建模新方案。仅仅依靠大容量网络在有限数据集里小幅降低预测误差，不足以形成长期学术价值。

长期建设路径
从问题规范化、物理解释、跨工况泛化、模型精简、开源数据生态、跨学科人才教育六大维度补齐短板，让数据驱动真正和理论、实验、CFD 形成互补闭环，而不是独立的算法孤岛。

五、适合人群的落地启示

做流场重构、超分辨率、PIV 补全：严控数据集分布，重点测试跨分辨率、带噪声条件下的鲁棒性，拒绝只展示高清流场效果图；
做湍流闭合、降阶建模：优先尝试稀疏方程识别，严控模型参数量，重点考核外推至更高雷诺数的表现；
做流动控制、强化学习：清晰区分插值优化与全新工况泛化，把流动稳定性机理作为核心评价指标，不只看控制收益；
课题立项避坑：先把科学问题界定清楚，再选择模型，不要一上来就套用最新深度学习架构。

原文标题：Machine learning in fluid dynamics: A critical assessment

期刊：Physical Review Fluids

年份与卷页：2025，Volume 10，090701

文章类型：Perspective，Invited Articles