博主实测爆火的 Sakana Fugu,发现它还不如一个GPT?
一个日本AI团队,最近把模型圈又搅动了一下。
这家公司叫 Sakana,推出的新系统叫 Fugu。它最吸引眼球的地方,在于它声称可以把 GPT-5.5、Claude Opus 4.8、Gemini 3.1 Pro 这类前沿模型组织起来,像一个总导演一样,把不同任务分给不同模型,再把结果整合成一个答案。
如果官方基准成绩可信,Fugu 在部分编码任务上的表现非常靠前,甚至能压过不少顶级模型。于是问题来了:一个靠“模型编排”工作的AI系统,真的能比单个最强模型更强吗?
最近,YouTube上的一位科技博主Bijan Bowen做了一轮实测。他没有只看跑分,也没有只复述官方说法,而是把 Fugu 放进自己常用的测试体系里,连续跑了网页应用、3D 场景、小游戏、视觉还原、前端设计和飞行模拟等任务。测试之后,他给出的判断相当克制:Fugu 很有意思,但现在还没有证明自己能稳定超过 GPT 或 Claude 单独出手。
Fugu到底是什么:一个会“指挥模型”的模型
Sakana Fugu 这个项目主要由公司 CEO David Ha 与联合创始人 Llion Jones 主导。值得一提的是,Llion Jones 还是Transformer 架构的奠基之作《Attention Is All You Need》的共同作者之一,可以说 Fugu 从诞生之初就带着浓厚的技术基因。
按照 Sakana 的介绍,Fugu 更像一个“模型路由与编排系统”。用户表面上只是在调用 Fugu,实际上系统内部可能会调用多个前沿模型参与任务,包括 GPT-5.5、Claude Opus 4.8、Gemini 3.1 Pro 等。
Fugu 自己也不是空壳。它有一套训练出来的调度能力,可以判断用户任务需要哪些模型参与,给不同模型安排什么角色,中间结果怎样验证和合并,最终再生成一个统一答案。
这个思路很像一个AI项目经理:它不一定亲自完成每一个细节,但它要知道谁适合写代码,谁适合做视觉,谁适合补充推理,最后把多人协作变成一个完整成品。
为了验证这个思路,他分别测试了普通版 Fugu 和更强的 Fugu Ultra High。前者用于第一个任务,后续更复杂的任务基本都交给更贵的 Ultra 版本。
第一轮:普通Fugu做了一个“浏览器OS”
第一个任务,是让 Fugu 生成一个类似浏览器操作系统的网页应用。里面要有桌面、窗口、应用、终端、笔记工具、壁纸工具,还要包含一个类似 GTA 的小游戏。
普通版 Fugu 大约 6 分钟完成任务。费用也不高,从原来的 4 美分涨到 9 美分,整个任务大约花了 5 美分。
生成结果属于可用级别。界面完整,有应用图标,有窗口交互,也有一个能开的小游戏。小车可以移动,地图里有建筑、警车、漂浮现金,捡到现金后还会弹出提示。建筑虽然是透明的,但也设置了碰撞体,车不会直接穿过去。另一个“时间胶囊”功能也能保存窗口状态,再恢复出来。
这轮测试给人的第一印象是:Fugu 的完成度不错,至少没有明显翻车。
但他也发现了一个有趣细节。这个界面的视觉风格非常像 GPT-5.x 系列,背景渐变、窗口设计、UI结构都有明显的“GPT味”。这意味着,Fugu 背后的编排很可能会让某些底层模型的风格渗出来。
第二轮:Fugu Ultra做3D地铁站,干净但不惊艳
第二个任务开始,Bowen切换到 Fugu Ultra High。这个版本强调更高质量、更深编排,也意味着更高费用和更长等待时间。
他先让 Fugu Ultra 生成一个精致的 3D 地铁站场景。结果里有站台、轨道、长椅、标识、灯光、垃圾桶,甚至还出现了交通锥。整体空间结构比较合理,元素摆放也符合真实地铁站的基本逻辑。
从完成度看,这个结果不差。场景能运行,移动也流畅,空间布局清楚,没有出现严重混乱。
但如果把它放在“高端AI模型评测”的语境里,它就显得有些保守。材质不够丰富,氛围不够强,细节也没有特别出彩的地方。Bowen用的评价很直接:它很干净,也很有序,但没有让人“哇!”的时刻。
更现实的问题是成本。由于模型在后期不断尝试截图和检查结果,这个任务费用从 9 美分涨到了 3.54 美元,单次大约花了 3.45 美元。这个价格已经不适合随便试错。
第三轮:把地铁站改成射击游戏,细节开始暴露
接下来,他要求 Fugu Ultra 在已有地铁站基础上继续改造,把它变成一个第一人称射击游戏,加入类僵尸敌人、武器、音效、奔跑和换弹机制。
这次结果依然能跑。敌人有上臂、下臂、上腿、下腿,造型不是简单方块。枪口闪光会映射到周围环境,音效也有,R键换弹、冲刺等基础交互都做了出来。
这一轮说明 Fugu Ultra 确实有不错的工程执行能力。它能接住一个复杂的后续需求,也能把静态场景改造成可玩的交互游戏。
可问题还是出现在细节。他特别提到,子弹打到环境上没有留下弹孔。这个细节听起来很小,但在他长期做模型评测的体系里,它是判断模型有没有“多做一步”的重要信号。很多顶级模型在类似任务中,会主动补上弹孔、破坏痕迹、环境反馈等沉浸式细节。
Fugu Ultra 做到了能玩,但没有把游戏体验打磨到更高级。
第四轮:C++滑板游戏,合格但离顶级还有距离
随后,他又让 Fugu Ultra 写一个自包含的 C++ 滑板游戏。他还特意拒绝模型使用 Raylib 这类简化开发的库,因为那会降低任务难度。
这个任务花费明显更高。费用从 4.99 美元涨到 8.81 美元,单次大约花了 3.82 美元。
最终生成的游戏有海边木板路、商店、行人、棕榈树、海水、坡道和滑板动作。玩家可以移动、加速、跳跃,也可以执行一些滑板动作。街道两侧的商店会循环出现,比如 motel、donuts、records、diner、tattoo、surf、pizza 等,画面元素算是完整。
但它的缺点也很清楚。角色动作有些僵硬,速度偏快,部分坡道嵌进了商店,动作表现不够自然。Bowen拿它和此前测试过的 Fable 5 结果相比,认为它明显没有达到那个级别。
这也是整轮测试里反复出现的感受:Fugu Ultra 很少彻底失败,但也很少真正惊艳。它像一个稳定的执行者,能把任务完成到及格线以上,却经常缺少顶级模型单独发挥时的细腻和灵气。
第五轮:照片还原3D模型,Fugu开始“偷懒”
为了测试视觉理解和空间还原能力,他又给 Fugu Ultra 一个照片文件夹,里面是一台复古小笔记本外壳的多角度照片。他要求模型根据这些图片生成一个 3D 复刻版本,并且键盘要能点击。
第一次生成的结果很有意思。模型抓住了图片里的颜色,桌面、背景、笔记本色调都比较接近,键盘也能响应输入。但问题在于,它没有真正做成3D,更像一个有立体错觉的 2.5D 纸片模型。
他不满意,又追加提示,要求它必须做成真正的3D。第二次结果确实改进了,笔记本可以旋转,盖子可以关闭,也保留了一些房间元素。只是键盘方向出现反转,整体仍有瑕疵。
这轮测试很能说明 Fugu Ultra 的一个习惯:它能理解需求,也能修正错误,但在复杂视觉任务里,容易先给出一个“看起来差不多”的方案。对于普通用户,这也许已经够用;对于严肃评测,它就会被放大。
横向对比:手表官网暴露了核心差距
最关键的一轮测试,是高端手表品牌官网。
他要求 Fugu Ultra 做一个精致的手表官网首页,核心区域要有一个高端手表模型,放在桌面上,并做出类似 KeyShot 渲染的镜头环绕效果。为了对比,他把同样提示词分别交给 GPT-5.5、Claude Opus 4.8 和 Gemini 3.1 Pro。
Gemini 做了两个版本,有一定3D感和反射效果,但产品卡片里的模型质量一般。Claude 的表盘细节很漂亮,产品卡片也有质感,不过主视觉里的手表出现了半透明、漂浮等问题。
Fugu Ultra 的结果看起来混合了多种模型风格:导航有 GPT 味,浅色布局又有一些 Claude 的感觉。手表本身做得不错,秒针也在运动,但核心问题再次出现:它没有真正完成高质量 3D 手表,更像 2.5D 的视觉方案。
最强结果来自 GPT-5.5 单独生成的版本。它做出了更完整的手表模型,皮革表带有缝线,表带孔位也做了出来,产品卡片里还生成了不同材质的款式。虽然表盘方向仍有小瑕疵,但整体完成度明显领先。
这轮对比让Bowen的判断变得非常明确:在这类复杂创造型任务里,直接使用 GPT-5.5 或 Claude Opus,可能比通过 Fugu Ultra 编排更便宜、更直接,结果也更好。
最后一轮:飞行战斗模拟器没能扭转印象
最后,他又跑了一个飞行战斗模拟器任务。这个任务同样使用 Fugu Ultra。
结果里有一些基本元素,但整体表现没有达到预期。他认为,如果单独调用那些可能被 Fugu 调度的底层模型,效果大概率会更好。
到测试结束时,他一共充值了 40 美元,整轮测试花掉 21.57 美元。除了第一个 browser OS 用普通 Fugu,其余复杂任务基本都跑在 Fugu Ultra 上。考虑到多数结果只是“稳定完成”,这个成本很难说有明显优势。
模型编排有价值,但Fugu还没打穿
Bowen最终给出的判断,其实很克制。
Fugu 的技术路线值得关注。它代表了一种新形态:用户不再直接选择某一个模型,而是把任务交给一个智能调度系统,由它决定调用谁、怎么分工、如何整合结果。随着模型越来越多,这种“模型编排”很可能会成为AI应用的重要方向。
但至少在这次测试里,Fugu Ultra 还没有证明自己能稳定超过单个顶级模型。
它比 OpenRouter Fusion 这类编排方案表现更好,任务完成度更高,也更稳定。可一旦进入复杂网页、3D、游戏、视觉还原等任务,它经常停留在“干净、完整、能用”的层面。
OpenRouter Fusion 可以理解为更早一批“模型融合”尝试。它的思路同样不是让用户只依赖某一个模型,而是试图在多个模型之间做选择和组合,让系统自动找到更合适的回答路径。听起来这和 Fugu 很接近,但实际体验里,两者的差别很明显。OpenRouter Fusion 更像是在模型之间做一次相对简单的路由,某些特定任务可能会有亮点,但整体稳定性和复杂任务的交付质量并不算突出。
Fugu 的进步在于,它不只是把请求转交给某个模型,而是围绕任务搭建一个更复杂的协作框架,让不同模型承担不同角色,再由系统综合输出结果。所以在这次测试里,Fugu 至少证明了自己比 OpenRouter Fusion 更像一个真正的“模型编排系统”。
然而相比之下,GPT-5.5 或 Claude Opus 单独出手,反而更容易做出有细节、有风格、有完成度的结果。
至顶AI实验室洞察
这次测试真正提醒人的地方在于:AI系统强不强,不能只看它背后调度了多少模型,也不能只看官方基准成绩。真正的判断标准,还是具体任务里的成品质量、交互细节、成本和稳定性。
Fugu 像是一个提前露面的新物种。它展示了模型编排的未来形状,也暴露了今天这条路线的现实限制。对于开发者和内容创作者来说,它值得观察,但现在还没到可以替代 GPT-5.5、Claude Opus 这类顶级模型的程度。
END本文来自至顶AI实验室,一个专注于对AI计算机、工作站及各类AI相关硬件设备,开展基于真实使用场景评测的研究机构。