博主实测爆火的 Sakana Fugu，发现它还不如一个GPT？

2026/6/25 13:51:37

一个日本AI团队，最近把模型圈又搅动了一下。

这家公司叫 Sakana，推出的新系统叫 Fugu。它最吸引眼球的地方，在于它声称可以把 GPT-5.5、Claude Opus 4.8、Gemini 3.1 Pro 这类前沿模型组织起来，像一个总导演一样，把不同任务分给不同模型，再把结果整合成一个答案。

如果官方基准成绩可信，Fugu 在部分编码任务上的表现非常靠前，甚至能压过不少顶级模型。于是问题来了：一个靠“模型编排”工作的AI系统，真的能比单个最强模型更强吗？

最近，YouTube上的一位科技博主Bijan Bowen做了一轮实测。他没有只看跑分，也没有只复述官方说法，而是把 Fugu 放进自己常用的测试体系里，连续跑了网页应用、3D 场景、小游戏、视觉还原、前端设计和飞行模拟等任务。测试之后，他给出的判断相当克制：Fugu 很有意思，但现在还没有证明自己能稳定超过 GPT 或 Claude 单独出手。

Fugu到底是什么：一个会“指挥模型”的模型

Sakana Fugu 这个项目主要由公司 CEO David Ha 与联合创始人 Llion Jones 主导。值得一提的是，Llion Jones 还是Transformer 架构的奠基之作《Attention Is All You Need》的共同作者之一，可以说 Fugu 从诞生之初就带着浓厚的技术基因。

按照 Sakana 的介绍，Fugu 更像一个“模型路由与编排系统”。用户表面上只是在调用 Fugu，实际上系统内部可能会调用多个前沿模型参与任务，包括 GPT-5.5、Claude Opus 4.8、Gemini 3.1 Pro 等。

Fugu 自己也不是空壳。它有一套训练出来的调度能力，可以判断用户任务需要哪些模型参与，给不同模型安排什么角色，中间结果怎样验证和合并，最终再生成一个统一答案。

这个思路很像一个AI项目经理：它不一定亲自完成每一个细节，但它要知道谁适合写代码，谁适合做视觉，谁适合补充推理，最后把多人协作变成一个完整成品。

为了验证这个思路，他分别测试了普通版 Fugu 和更强的 Fugu Ultra High。前者用于第一个任务，后续更复杂的任务基本都交给更贵的 Ultra 版本。

第一轮：普通Fugu做了一个“浏览器OS”

第一个任务，是让 Fugu 生成一个类似浏览器操作系统的网页应用。里面要有桌面、窗口、应用、终端、笔记工具、壁纸工具，还要包含一个类似 GTA 的小游戏。

普通版 Fugu 大约 6 分钟完成任务。费用也不高，从原来的 4 美分涨到 9 美分，整个任务大约花了 5 美分。

生成结果属于可用级别。界面完整，有应用图标，有窗口交互，也有一个能开的小游戏。小车可以移动，地图里有建筑、警车、漂浮现金，捡到现金后还会弹出提示。建筑虽然是透明的，但也设置了碰撞体，车不会直接穿过去。另一个“时间胶囊”功能也能保存窗口状态，再恢复出来。

这轮测试给人的第一印象是：Fugu 的完成度不错，至少没有明显翻车。

但他也发现了一个有趣细节。这个界面的视觉风格非常像 GPT-5.x 系列，背景渐变、窗口设计、UI结构都有明显的“GPT味”。这意味着，Fugu 背后的编排很可能会让某些底层模型的风格渗出来。

第二轮：Fugu Ultra做3D地铁站，干净但不惊艳

第二个任务开始，Bowen切换到 Fugu Ultra High。这个版本强调更高质量、更深编排，也意味着更高费用和更长等待时间。

他先让 Fugu Ultra 生成一个精致的 3D 地铁站场景。结果里有站台、轨道、长椅、标识、灯光、垃圾桶，甚至还出现了交通锥。整体空间结构比较合理，元素摆放也符合真实地铁站的基本逻辑。

从完成度看，这个结果不差。场景能运行，移动也流畅，空间布局清楚，没有出现严重混乱。

但如果把它放在“高端AI模型评测”的语境里，它就显得有些保守。材质不够丰富，氛围不够强，细节也没有特别出彩的地方。Bowen用的评价很直接：它很干净，也很有序，但没有让人“哇！”的时刻。

更现实的问题是成本。由于模型在后期不断尝试截图和检查结果，这个任务费用从 9 美分涨到了 3.54 美元，单次大约花了 3.45 美元。这个价格已经不适合随便试错。

第三轮：把地铁站改成射击游戏，细节开始暴露

接下来，他要求 Fugu Ultra 在已有地铁站基础上继续改造，把它变成一个第一人称射击游戏，加入类僵尸敌人、武器、音效、奔跑和换弹机制。

这次结果依然能跑。敌人有上臂、下臂、上腿、下腿，造型不是简单方块。枪口闪光会映射到周围环境，音效也有，R键换弹、冲刺等基础交互都做了出来。

这一轮说明 Fugu Ultra 确实有不错的工程执行能力。它能接住一个复杂的后续需求，也能把静态场景改造成可玩的交互游戏。

可问题还是出现在细节。他特别提到，子弹打到环境上没有留下弹孔。这个细节听起来很小，但在他长期做模型评测的体系里，它是判断模型有没有“多做一步”的重要信号。很多顶级模型在类似任务中，会主动补上弹孔、破坏痕迹、环境反馈等沉浸式细节。

Fugu Ultra 做到了能玩，但没有把游戏体验打磨到更高级。

第四轮：C++滑板游戏，合格但离顶级还有距离

随后，他又让 Fugu Ultra 写一个自包含的 C++ 滑板游戏。他还特意拒绝模型使用 Raylib 这类简化开发的库，因为那会降低任务难度。

这个任务花费明显更高。费用从 4.99 美元涨到 8.81 美元，单次大约花了 3.82 美元。

最终生成的游戏有海边木板路、商店、行人、棕榈树、海水、坡道和滑板动作。玩家可以移动、加速、跳跃，也可以执行一些滑板动作。街道两侧的商店会循环出现，比如 motel、donuts、records、diner、tattoo、surf、pizza 等，画面元素算是完整。

但它的缺点也很清楚。角色动作有些僵硬，速度偏快，部分坡道嵌进了商店，动作表现不够自然。Bowen拿它和此前测试过的 Fable 5 结果相比，认为它明显没有达到那个级别。

这也是整轮测试里反复出现的感受：Fugu Ultra 很少彻底失败，但也很少真正惊艳。它像一个稳定的执行者，能把任务完成到及格线以上，却经常缺少顶级模型单独发挥时的细腻和灵气。

第五轮：照片还原3D模型，Fugu开始“偷懒”

为了测试视觉理解和空间还原能力，他又给 Fugu Ultra 一个照片文件夹，里面是一台复古小笔记本外壳的多角度照片。他要求模型根据这些图片生成一个 3D 复刻版本，并且键盘要能点击。

第一次生成的结果很有意思。模型抓住了图片里的颜色，桌面、背景、笔记本色调都比较接近，键盘也能响应输入。但问题在于，它没有真正做成3D，更像一个有立体错觉的 2.5D 纸片模型。

他不满意，又追加提示，要求它必须做成真正的3D。第二次结果确实改进了，笔记本可以旋转，盖子可以关闭，也保留了一些房间元素。只是键盘方向出现反转，整体仍有瑕疵。

这轮测试很能说明 Fugu Ultra 的一个习惯：它能理解需求，也能修正错误，但在复杂视觉任务里，容易先给出一个“看起来差不多”的方案。对于普通用户，这也许已经够用；对于严肃评测，它就会被放大。

横向对比：手表官网暴露了核心差距

最关键的一轮测试，是高端手表品牌官网。

他要求 Fugu Ultra 做一个精致的手表官网首页，核心区域要有一个高端手表模型，放在桌面上，并做出类似 KeyShot 渲染的镜头环绕效果。为了对比，他把同样提示词分别交给 GPT-5.5、Claude Opus 4.8 和 Gemini 3.1 Pro。

Gemini 做了两个版本，有一定3D感和反射效果，但产品卡片里的模型质量一般。Claude 的表盘细节很漂亮，产品卡片也有质感，不过主视觉里的手表出现了半透明、漂浮等问题。

Fugu Ultra 的结果看起来混合了多种模型风格：导航有 GPT 味，浅色布局又有一些 Claude 的感觉。手表本身做得不错，秒针也在运动，但核心问题再次出现：它没有真正完成高质量 3D 手表，更像 2.5D 的视觉方案。

最强结果来自 GPT-5.5 单独生成的版本。它做出了更完整的手表模型，皮革表带有缝线，表带孔位也做了出来，产品卡片里还生成了不同材质的款式。虽然表盘方向仍有小瑕疵，但整体完成度明显领先。

这轮对比让Bowen的判断变得非常明确：在这类复杂创造型任务里，直接使用 GPT-5.5 或 Claude Opus，可能比通过 Fugu Ultra 编排更便宜、更直接，结果也更好。

最后一轮：飞行战斗模拟器没能扭转印象

最后，他又跑了一个飞行战斗模拟器任务。这个任务同样使用 Fugu Ultra。

结果里有一些基本元素，但整体表现没有达到预期。他认为，如果单独调用那些可能被 Fugu 调度的底层模型，效果大概率会更好。

到测试结束时，他一共充值了 40 美元，整轮测试花掉 21.57 美元。除了第一个 browser OS 用普通 Fugu，其余复杂任务基本都跑在 Fugu Ultra 上。考虑到多数结果只是“稳定完成”，这个成本很难说有明显优势。

模型编排有价值，但Fugu还没打穿

Bowen最终给出的判断，其实很克制。

Fugu 的技术路线值得关注。它代表了一种新形态：用户不再直接选择某一个模型，而是把任务交给一个智能调度系统，由它决定调用谁、怎么分工、如何整合结果。随着模型越来越多，这种“模型编排”很可能会成为AI应用的重要方向。

但至少在这次测试里，Fugu Ultra 还没有证明自己能稳定超过单个顶级模型。

它比 OpenRouter Fusion 这类编排方案表现更好，任务完成度更高，也更稳定。可一旦进入复杂网页、3D、游戏、视觉还原等任务，它经常停留在“干净、完整、能用”的层面。

OpenRouter Fusion 可以理解为更早一批“模型融合”尝试。它的思路同样不是让用户只依赖某一个模型，而是试图在多个模型之间做选择和组合，让系统自动找到更合适的回答路径。听起来这和 Fugu 很接近，但实际体验里，两者的差别很明显。OpenRouter Fusion 更像是在模型之间做一次相对简单的路由，某些特定任务可能会有亮点，但整体稳定性和复杂任务的交付质量并不算突出。

Fugu 的进步在于，它不只是把请求转交给某个模型，而是围绕任务搭建一个更复杂的协作框架，让不同模型承担不同角色，再由系统综合输出结果。所以在这次测试里，Fugu 至少证明了自己比 OpenRouter Fusion 更像一个真正的“模型编排系统”。

然而相比之下，GPT-5.5 或 Claude Opus 单独出手，反而更容易做出有细节、有风格、有完成度的结果。

至顶AI实验室洞察

这次测试真正提醒人的地方在于：AI系统强不强，不能只看它背后调度了多少模型，也不能只看官方基准成绩。真正的判断标准，还是具体任务里的成品质量、交互细节、成本和稳定性。

Fugu 像是一个提前露面的新物种。它展示了模型编排的未来形状，也暴露了今天这条路线的现实限制。对于开发者和内容创作者来说，它值得观察，但现在还没到可以替代 GPT-5.5、Claude Opus 这类顶级模型的程度。

END本文来自至顶AI实验室，一个专注于对AI计算机、工作站及各类AI相关硬件设备，开展基于真实使用场景评测的研究机构。‍