云耀计算AI-Claura，在树莓派运行的AI

2026/6/23 22:52:30

模型下载地址：https://gitee.com/jiasiqi2025/Open-Claura

官方网站：https://bksy.top

正文

Claura这个项目有意思的地方在于，它把一个能对话的AI塞进了400MB，跑在树莓派和15年前的老爷电脑上。不是靠魔法，是靠几项扎实的压缩技术。

核心指标：2亿参数（0.2B），FP16半精度量化，模型文件约400MB，纯CPU推理（无需GPU、无需NPU、无需任何加速卡），基于T5架构重构。

模型蒸馏

Claura不是从零训练的，而是从一个更大的模型那里"学"来的。蒸馏的核心逻辑是：大模型（教师）在大量数据上做推理，生成软标签（概率分布），小模型（学生）直接拟合这些软标签，而不是拟合原始数据。

这样做的好处是，软标签包含了教师对类间相似性的理解，信息密度比硬标签高得多。学生不用从头摸索，直接继承教师的判断边界。参数从几百亿压到2亿，智能水平掉得不算太狠，靠的就是这手。

架构砍层

T5原生结构对树莓派来说太重了。Claura做了几件事：削减Transformer层的数量，缩小隐藏层维度，精简注意力头的个数。本质上是在模型深度和宽度上同时动刀。

但也不是瞎砍。层数少了，模型的表达能力下降，但推理速度线性提升；头数少了，注意力矩阵的计算量呈平方级下降。这个权衡的结果就是，模型能跑，但复杂任务明显吃力——写诗只能憋出一句，就是因为深层语义关联能力被削了。

FP16量化

Claura用的是FP16，不是INT8。FP16把每个参数从32位浮点压缩到16位，体积直接减半。2亿参数 × 2字节 = 400MB，刚好对上。

为什么选FP16而不是INT8？INT8体积更小（2亿参数 × 1字节 = 200MB），但精度损失大，推理时输出质量明显下滑。FP16在体积和性能之间取了个折中，精度损失控制在可接受范围内，推理时也不需要额外的反量化步骤，CPU跑起来更省事。

CPU推理

Claura最反潮流的地方是：它完全放弃GPU加速。在模型设计阶段就把"纯CPU运行"当成硬约束，所有算子都避开CUDA依赖，只调用CPU原生的数学运算库。

这就意味着推理速度慢——树莓派上每秒也就几个token。但也意味着兼容性拉满：不需要显卡驱动，不挑CUDA版本，ARM架构的树莓派能跑，x86的15年老电脑也能跑，甚至某些嵌入式Linux设备也能跑。在这个靠显卡吃饭的AI时代，Claura反手一套纯CPU方案，等于告诉所有人：我不跟你们卷算力，我卷的是"有CPU就能跑"。

屏蔽脏话

这不是模型的一部分，是外面套的一层过滤网。实现方式很简单：一个敏感词表 + 正则匹配。输入和输出都会过一遍，命中就替换或拒绝。和模型本身无关，纯工程手段，但实用。Claura不走流式输出，而是提前生成一个候选回复池，再从中选一条最合适的整句输出。这样做的好处是，在树莓派的弱CPU上，逐字流式输出反而容易卡顿，预生成+整句输出让体验更连贯。坏处是响应延迟固定，不管问题难易都得等那么久。

我正在研究如何让ai模型在不损失智商或轻微轻损失智商的情况下运行在弱性能设备上，如果你感兴趣那么请联系我2134286739@qq.com