MIAOYUN | 每周AI新鲜事儿 260612

本周AI领域新品、技术与行业动态密集更新:高德、中科院、Google、小米、讯飞、Anthropic等相继发布多款大模型,覆盖3D建模、海洋预报、多模态、医疗、语音翻译等方向;腾讯、小米、Kimi推出多款AI智能体与办公、编程类应用工具,美团、阿里云等也上线AI实用产品与成本管控功能。技术层面,京东、腾讯、OpenAI接连开源框架、算法并升级记忆架构,多项技术实现提速增效。行业方面,官方警示AI中转站安全风险,微信开放AI生态接入通道,SpaceX推出太空算力卫星,同时硅谷也暴露出盲目比拼Token消耗的乱象,一起来回顾本周发生的AI新鲜事儿吧!

AI 大模型

高德发布全球首个3D原生城市世界模型「ABot-Earth0.5」

6月8日,高德正式发布全球首个3D原生城市世界模型「ABot-Earth0.5」,该模型已覆盖全球190多个国家和地区,依托AI技术,仅需一张图片就能在消费级GPU上10分钟内生成公里级3D城市场景,大幅提升建模效率、降低成本,其产出的可编辑3D素材可无缝对接主流游戏引擎,还能应用于具身智能机器人训练、应急救援等领域,目前该模型已开启内测。

参考:高德发布世界模型——ABot-Earth0.5!一张图,10分钟就能生成一座3D城市

中科院发布自研全球海洋现象智能预报大模型「琅琊2.0」

6月8日,中国科学院海洋研究所正式发布自主研发的全球海洋现象智能预报大模型「琅琊2.0」。该版本在1.0基础上升级,针对台风、降水、风暴潮、海冰等六类复杂海洋现象打造专属垂直模型,相较传统数值预报模式,实现了计算速度与预报精度的双重提升,可有效强化台风路径强度预判、极端降水预警、北极海冰预测等能力,将为海洋防灾减灾、航运与极地航行安全、应对全球气候变化等工作提供智能化技术支撑,也标志着我国海洋预报迈入复杂海洋现象智能预报新阶段。

参考:算得更快更准 全球海洋现象智能预报大模型“琅琊”2.0发布 | 新闻联播

Google DeepMind推出「Gemma 4 12B」多模态模型

6月8日,Google DeepMind推出「Gemma 4 12B」多模态模型,采用免编码器的统一架构,可直接接入视觉、音频输入,性能接近26B混合专家模型,内存占用大幅降低,仅需16GB内存就能在普通笔记本本地运行。该模型搭载多Token预测草稿模型以减少推理延迟,遵循Apache 2.0协议开源,也是首款原生支持音频输入的端侧中型模型,目前Gemma 4系列整体下载量已超1.5亿次。

参考:正式推出 Gemma 4 12B: 一款统一、免编码器的多模态模型

小米联合推出「UltraSpeed」模式,万亿模型推理突破1000 tokens/s

6月9日,小米MiMo联合TileRT推出MiMo-V2.5-Pro「UltraSpeed」模式,依托FP4混合量化、DFlash投机解码及专属推理系统优化,在通用8卡GPU节点上首次实现万亿参数模型1000 tokens/s输出速度,推理效率大幅提升。该能力以申请制限时开放API与对话体验,定价为原版3倍,可赋能代码开发、实时风控、医疗辅助等低延迟场景,相关模型权重也已对外开源。

参考:Xiaomi MiMo 携手 TileRT|1T 模型首次突破 1000 tokens/s 输出速度

讯飞医疗发布基于全国产算力训练的「星火医疗大模型V3.5」

6月9日,讯飞医疗发布基于全国产算力训练的「星火医疗大模型V3.5」,深度融合语音识别、影像辅诊与医学语义理解,远场多说话人识别、病历与影像报告生成首次跨越实用门槛;率先实现DSA与MTP长文本高效训练,医疗长上下文推理吞吐量提升4.5倍,关键任务表现超越GPT-5.5等多款主流大模型,可全面赋能临床诊疗与居民健康管理场景。

参考:讯飞星火医疗大模型V3.5,面向医疗行业刚需升级发布

Anthropic推出同底层架构的「Claude Fable 5」与「Claude Mythos 5」

6月10日,Anthropic推出同底层架构的双旗舰大模型「Claude Fable 5」与「Claude Mythos 5」,「Fable 5」面向公众、配有安全防护,长任务、编码、视觉交互、科研等能力顶尖;「Mythos 5」放开部分安全限制、性能更强,仅对特定机构开放,在网络安全与前沿科研领域表现优异。两款模型统一降价,收费标准为每百万输入代币10美元、每百万输出代币50美元,现阶段部分用户可免费体验「Fable 5」。业内认可其能力大幅提升,也有人对价格和升级幅度存有争议。

参考:Anthropic 祭出双旗舰模型 Fable、Mythos,屠榜所有基测!网友:除了贵没毛病

Google开源「DiffusionGemma」文本模型,扩散技术赋能提速4倍

6月11日,Google开源「DiffusionGemma」文本模型,将图像扩散技术用于文本生成,摒弃传统自回归逐Token输出模式,可并行生成文本,推理速度较同类模型提升4倍。该模型为26B参数MoE架构,推理仅激活3.8B参数,消费级显卡即可本地运行,还具备双向注意力、实时纠错的特点,在复杂文本任务上表现亮眼。它遵循Apache 2.0协议可商用,不过文本质量略逊于常规Gemma 4,主打速度敏感的本地交互场景,也是Google探索下一代模型形态的实验项目。

参考:Mythos阴影里谷歌悄悄发模型,速度暴涨4倍

Google推出「Gemini 3.5 Live Translate」实时语音翻译模型

6月11日,Google推出「Gemini 3.5 Live Translate」实时语音翻译模型,打破传统翻译“说完再译”的模式,可支持70余种语言边听边译,延迟仅数秒且能还原原话语速、语调,适配嘈杂环境,还具备128K token音频上下文处理能力。该功能已上线Google翻译移动端,同时面向开发者开放API、在Google Meet开启企业私测,落地于出行、直播、在线会议等诸多场景;不过该模型在面对重口音、多人抢话等复杂场景时,翻译表现仍存在一定局限。

参考:谷歌干掉了「等你说完才翻译」!70+语言边听边译

AI Agent

腾讯云推出「WorkBuddy」企业版与办公智能体套件「Agent Suite」

6月5日,腾讯云在AI产业应用大会上推出「WorkBuddy」企业版与办公智能体套件「Agent Suite」,助力企业完成AI原生组织转型。该企业版搭载数字员工、人机协同项目模式、企业管理后台三大核心模块,支持多种部署方式与安全防护,套件打通腾讯文档、网盘等办公生态;同时亮相CodeBuddy、Miora、Ardot等垂类智能体,并同步发布Buddy AI生态共创计划。

参考:WorkBuddy企业版发布!连接超级个体,打造超级团队

腾讯文档携手WorkBuddy,推出首创「人机双写」办公能力

6月5日,腾讯文档宣布与WorkBuddy深度融合,推出行业首创的「人机双写」能力,AI可直接进入文档和用户同屏实时协作编辑,覆盖文档、表格、PPT、智能表等全品类办公场景,能完成内容续写、数据处理、图表生成、版式美化等操作。双方打通数据与功能链路,文档可作为WorkBuddy的原生组件,AI可读取存量资料、自动归档产出内容,同时腾讯文档还开放接口与技能,支持第三方AI助手调用其能力,全面打造人机协同的AI办公新形态。

参考:深度联手WorkBuddy:AI 进文档,跟你同框办公

Kimi启动世界杯赛事预测,300个Agent研判104场对决

6月8日,Kimi宣布将借助300个子Agent组成的集群,从多维度分析并公开预测本届美加墨世界杯全部104场赛事,同时进行赛前预判与赛后复盘;模型认为西班牙、法国是夺冠热门,且德国队夺冠概率被市场低估,存在爆冷可能。此次活动设置万亿Token奖池回馈用户,同步推广Kimi Work工具,Kimi还宣布世界杯每进一球便捐赠Token助力国内基层足球发展。该活动旨在公开展示AI在复杂场景下的能力与局限,提醒用户理性观赛,预测结果不构成投注依据。

参考:Kimi 将公开预测 104 场世界杯赛事:德国队或爆冷夺冠

小米发布并开源终端AI编程助手「MiMo Code V0.1.0」

6月11日,小米正式发布并开源终端AI编程助手「MiMo Code V0.1.0」,基于OpenCode二次开发,采用MIT协议,可自由使用与二次开发。它内置限时免费的MiMo-V2.5多模态模型,也支持接入DeepSeek、Kimi等主流模型;依靠独立子代理构建持久记忆体系,搭配专属Harness系统与Compose模式,可自主完成编程全流程,还具备定期记忆沉淀、语音操控等能力,在专业编程测试集上的表现优于Claude Code,综合编程效率与实用性突出。

参考:MiMo Code 发布并开源|模型 Agent 协同优化,迈向自进化时代

AI 工具

HTML版剪映!Open Design推出开源工具「html-video」

6月7日,Open Design团队耗时3天编写3万行代码,推出开源工具「html-video」,堪称“HTML版剪映”,基于Hyperframes可插拔渲染框架打造,可在本地将HTML转化为MP4视频,无需云端渲染。它内置21套可商用视频模板,覆盖产品宣传、数据可视化等诸多场景,支持粘贴公众号、GitHub等链接或文字描述来生成视频,具备分页预览、逐帧编辑、多尺寸输出等实用功能,还能自动识别并切换14款主流AI Agent,同时接入MiniMax实现AI配音配乐,也提供CLI工具便于集成到自动化流程中,大幅降低视频制作门槛与成本。

参考:HTML版剪映来了!Open Design 团队最新开源力作,3天时间,写了3万行代码!

美团发布免费AI浏览器「Tabbit 1.0」,集成多款国产大模型

6月9日,美团历经100天公测的AI浏览器「Tabbit 1.0」正式上线,核心功能永久免费。该浏览器内置多款国内主流大模型并支持灵活切换,具备记忆用户偏好、延续对话上下文的能力,还设有包含三百余项自动化工具的妙招广场,可自动完成资料整理、视频转笔记、代码编写、信息核验、外语阅读、PPT制作等各类任务。官方同步开启妙招大赛,用户可前往官网下载体验并参与活动。

参考:你好,我是Tabbit,一款能自动干活的免费AI浏览器

大模型测试工具「TokenPlay」正式开源

6月9日,开发者开源了大模型测试工具「TokenPlay」(前身为CodingPlan Test),该工具可接入多家主流大模型平台,具备批量测试、单独对话、群聊、AI对战、密钥加密管理等功能,能直观检测不同模型的Token消耗、运行速度、响应效果等指标,上手简单且支持用户二次开发。

参考:模型照妖镜!Tokens纯度检测器,TokenPlay开源了!

阿里云AI网关上线「FinOps」(云财务运营)能力

6月10日,阿里云AI网关上线「FinOps」(云财务运营)能力,针对企业大模型调用成本管控难题,推出消费者配额功能,支持灵活设置Token使用额度、动态管理规则,并提供多维度用量与费用监控,实现AI调用成本事前管控、全程可追溯,助力企业精细化治理AI使用成本。

参考:阿里云 AI 网关 FinOps 能力正式上线丨让每一个 Token 的消耗都“看得见、管得住”

深度原理旗下面向科研人员的AI Scientist平台「Mira」全面开放

6月10日,深度原理旗下面向科研人员的AI Scientist平台「Mira」正式全面开放。该平台推出专家小队、科研画布、知识库WIKI三大核心功能,可自定义科研协作流程、集中管理比对各类文件数据、自动沉淀梳理项目知识,打造假设、实验、观察、迭代的全链路科研闭环,践行全新人机协作科研理念,有效降低工具切换带来的认知损耗,提升整体科研效率。

参考:产品再升级,首款面向科研人的AI Scientist平台 Mira 开放使用

腾讯混元开源工业级大模型推理算子库「HPC-Ops」,更新五大核心算子

6月11日,腾讯混元AI Infra团队开源升级后的工业级大模型推理算子库「HPC-Ops」,推出Attention、Router GEMM、FusedMoE、Fused AllReduce+Norm、Sampler五大核心算子,围绕动态负载适配与多算子联合优化两大思路,针对性解决大模型推理中的长尾延迟、显存搬运、跨卡通信、后处理低效等工程难题。其中Attention可让长文本推理最高加速2.95倍,端到端QPM提升17%;Router GEMM依托双BF16方案兼顾精度与性能,较CuBLAS FP32最高提速3.22倍;FusedMoE相较vLLM、SGLang等主流框架性能提升1.2x-1.6x;融合通信与计算的Fused AllReduce+Norm最高提速1.68x;Sampler将十余算子整合为2个CUDA Kernel,相比vLLM提速4.0x-7.5x,各项指标均优于业界主流开源方案,助力搭建高吞吐、低时延的大模型推理服务。

参考:腾讯混元 AI Infra 新开源:HPC-Ops 推理核心算子全面升级

技术突破

京东正式推出并开源「JoyAI-Echo」长音视频生成框架

6月5日,京东正式推出并开源「JoyAI-Echo」长音视频生成框架,凭借跨模态音视频记忆库、记忆驱动后训练、Director Agent对话式编辑、轻量化实时超分四大创新技术,攻克了长视频生成角色形象与音色不稳定、生成速度慢等行业痛点,生成速度提升7.5倍,还支持局部镜头修改与高清输出。实测显示其各项核心指标与用户认可度均位居行业前列,目前代码和权重已对外开放,可应用于动漫制作、数字人直播、影视创作等多个领域,也标志着京东长视频生成技术迈入全球第一梯队。

参考:进入全球第一梯队!京东开源JoyAI-Echo框架 长视频生成“所想即所得”时代到来

腾讯混元推出「Stem」稀疏注意力算法及配套HPC算子库

6月5日,腾讯混元推出「Stem」稀疏注意力算法及配套HPC算子库,相关成果被ICML-26收录并已开源。该算法针对传统稀疏注意力短板,依托Token位置衰减、输出感知度量两大创新优化算力分配与Token筛选,仅用25%算力就能接近稠密注意力精度;搭配深度优化的HPC-Stem与HPC-BSA算子,大幅降低运算开销,在长文本场景下可将模型首字延迟降低3.6倍以上,兼顾推理速度与输出精度,为大模型超长上下文推理提供了全新的全栈加速方案。

参考:首字延迟降低3.6倍,腾讯混元提出Stem稀疏注意力算法,长文推理加速新SOTA

OpenAI推出ChatGPT全新「Dreaming V3」记忆架构

6月7日,OpenAI推出ChatGPT全新「Dreaming V3」记忆架构,完成记忆能力重大升级。该架构可在后台自动梳理、更新对话记忆,在事实召回、用户偏好遵循、时间感知三大维度的表现大幅提升,还新增记忆摘要页面,支持用户自主查看、修改和管理记忆;此次优化将相关算力降低约五倍,该「做梦」记忆功能正式向数亿免费用户开放,Plus与Pro订阅用户的记忆容量也实现翻倍。回顾发展历程,ChatGPT记忆功能历经三年迭代,从被动记录升级为主动整理的底层架构,这也是其迈向高阶通用智能的重要一步。

参考:ChatGPT记忆大升级,十亿人免费用!

市场动态

国家安全部发布《“AI中转站”,风险要防范》

6月8日,国家安全部发布《“AI中转站”,风险要防范》,指出AI中转站是整合多家大模型API的中转服务,具备一站式调用、价格低廉、支付便捷等特点,还可绕过相关使用限制,但这类平台普遍存在资质缺失、防护薄弱的问题,潜藏隐私泄露、模型造假、恶意植入程序、违规跨境传输数据等多重风险。目前中央网信办已开展专项整治行动,文章也提醒用户优先选择正规合规平台,做好数据脱敏与密钥管理,遇到异常及时处理,发现危害国家安全的线索可通过官方渠道举报。

参考:“AI中转站”,风险要防范

微信开放平台发布《关于开发者接入微信AI生态的指引》

6月8日,微信开放平台发布《关于开发者接入微信AI生态的指引》,开发者可在「小程序管理后台-AI能力」主动授权接入微信AI,平台提供自动、开发两种可选且可同时开启的接入模式,分别适配零开发快速接入、自主个性化开发的不同需求,全部关闭则小程序无法被微信AI推荐和调用。

参考:关于开发者接入微信AI生态的指引

SpaceX推出首款太空AI算力卫星「AI-1」

6月9日,SpaceX推出首款太空AI算力卫星「AI-1」,等效于地面顶级AI服务器机柜,依靠大面积太阳能板实现24小时持续供电,采用高温散热、液冷防护等特殊设计解决太空散热难题,卫星间可激光互联并对接星链网络,还能借助星舰批量发射,有望开启太空算力新时代。

参考:太空算力:SpaceX首颗AI算力卫星“AI-1”

月耗千亿Token仍非全球第一,硅谷陷入算力比拼乱象

6月9日,OpenAI CEO Sam Altman透露,公司内部月度token消耗最高达1000亿,较六年前暴涨百万倍,但该数据并非全球第一。当下硅谷兴起比拼token消耗量的风气,Meta、亚马逊等企业甚至出现为冲榜单盲目消耗token、却未产出实际价值的“tokenmaxxing”现象。不过也有从业者合理利用海量token驱动AI持续工作、创造实际成果,业内由此形成讨论:比拼token消耗并无意义,能否高效运用算力、让海量token转化为实际价值,才是衡量AI能力的关键,而未来自主运行的AI也会让算力成本管控与价值挖掘变得更为重要。

参考:奥特曼认输:全球第一,根本不在OpenAI!