我们成功地将Gemini 3.1工具调用功能压缩到一个仅2600万参数的’简单注意力网络’模型中，该模型甚至可以在Mac/PC上本地微调。在生产环境中，Needle在Cactus上以每秒6000个token的预填充速度和每秒1200个token的解码速度运行。模型权重完全开源，数据集生成代码也一并公开。 – 该模型采用d=512维度，8头注意力/4键值缓存，BPE分词器大小为8192 – 架构包含编码器x12层和解码器x8层，支持跨注意力机制 – 预训练在16台TPU v6e上运行200亿tokens（27小时），后训练在20亿tokens的单次函数调用数据集上（45分钟） – 实验性应用：重新定义消费设备上的小型AI，适用于手机、手表、眼镜等 – 虽然在小设备上表现出色，但相比FunctionGemma-270m、Qwen-0.6B等大型模型在对话场景中仍有差距