云耀计算AI-Claura,在树莓派运行的AI

模型下载地址:https://gitee.com/jiasiqi2025/Open-Claura

官方网站:https://bksy.top

正文

Claura这个项目有意思的地方在于,它把一个能对话的AI塞进了400MB,跑在树莓派和15年前的老爷电脑上。不是靠魔法,是靠几项扎实的压缩技术。

核心指标:2亿参数(0.2B),FP16半精度量化,模型文件约400MB,纯CPU推理(无需GPU、无需NPU、无需任何加速卡),基于T5架构重构。


模型蒸馏

Claura不是从零训练的,而是从一个更大的模型那里"学"来的。蒸馏的核心逻辑是:大模型(教师)在大量数据上做推理,生成软标签(概率分布),小模型(学生)直接拟合这些软标签,而不是拟合原始数据。

这样做的好处是,软标签包含了教师对类间相似性的理解,信息密度比硬标签高得多。学生不用从头摸索,直接继承教师的判断边界。参数从几百亿压到2亿,智能水平掉得不算太狠,靠的就是这手。

架构砍层

T5原生结构对树莓派来说太重了。Claura做了几件事:削减Transformer层的数量,缩小隐藏层维度,精简注意力头的个数。本质上是在模型深度和宽度上同时动刀。

但也不是瞎砍。层数少了,模型的表达能力下降,但推理速度线性提升;头数少了,注意力矩阵的计算量呈平方级下降。这个权衡的结果就是,模型能跑,但复杂任务明显吃力——写诗只能憋出一句,就是因为深层语义关联能力被削了。

FP16量化

Claura用的是FP16,不是INT8。FP16把每个参数从32位浮点压缩到16位,体积直接减半。2亿参数 × 2字节 = 400MB,刚好对上。

为什么选FP16而不是INT8?INT8体积更小(2亿参数 × 1字节 = 200MB),但精度损失大,推理时输出质量明显下滑。FP16在体积和性能之间取了个折中,精度损失控制在可接受范围内,推理时也不需要额外的反量化步骤,CPU跑起来更省事。

CPU推理

Claura最反潮流的地方是:它完全放弃GPU加速。在模型设计阶段就把"纯CPU运行"当成硬约束,所有算子都避开CUDA依赖,只调用CPU原生的数学运算库。

这就意味着推理速度慢——树莓派上每秒也就几个token。但也意味着兼容性拉满:不需要显卡驱动,不挑CUDA版本,ARM架构的树莓派能跑,x86的15年老电脑也能跑,甚至某些嵌入式Linux设备也能跑。在这个靠显卡吃饭的AI时代,Claura反手一套纯CPU方案,等于告诉所有人:我不跟你们卷算力,我卷的是"有CPU就能跑"。

屏蔽脏话

这不是模型的一部分,是外面套的一层过滤网。实现方式很简单:一个敏感词表 + 正则匹配。输入和输出都会过一遍,命中就替换或拒绝。和模型本身无关,纯工程手段,但实用。Claura不走流式输出,而是提前生成一个候选回复池,再从中选一条最合适的整句输出。这样做的好处是,在树莓派的弱CPU上,逐字流式输出反而容易卡顿,预生成+整句输出让体验更连贯。坏处是响应延迟固定,不管问题难易都得等那么久。

我正在研究如何让ai模型在不损失智商或轻微轻损失智商的情况下运行在弱性能设备上,如果你感兴趣那么请联系我2134286739@qq.com