100、NPU的ARM架构集成:Ethos系列NPU分析 NPU的ARM架构集成:Ethos系列NPU分析从一次诡异的推理延迟抖动说起去年做智能IPC项目,海思方案外挂一颗Ethos-U55。板子跑起来,白天正常,一到晚上红外补光开启,推理延迟从稳定的8ms跳变到15ms,偶尔飙到30ms。查了三天,最后发现是NPU的AXI总线优先级被IR LED的PWM中断抢占了带宽。ARM的Ethos系列NPU在系统集成时,总线拓扑和中断优先级配置远比想象中敏感——这不是芯片本身的问题,而是ARM架构下NPU作为“外来户”与CPU、GPU、DSP共享内存系统时的天然矛盾。Ethos NPU的架构基因:从Mali GPU继承的“分块计算”思想Ethos系列(U55/U65/U85)的核心理念不是堆算力,而是“用最小的数据搬运代价完成推理”。它的计算单元是权重压缩引擎+MAC阵列的组合,但最关键的架构特征是显式的数据流控制。看U55的框图,你会发现它没有传统NPU那种巨大的SRAM缓存,而是采用紧耦合的SRAM Tile结构——每个计算簇(Compute Engine)配一块小容量SRAM(通常64KB-256KB),数据在Tile之间通过专用总线流水线传递。这设计思路来自ARM的Mali GPU的“分块渲染”(Tile-based Rendering),只不过把渲染换成了卷积。这里踩过坑:如果你把U55当成普通DSP来用,直接往它的全局S