我们成功地将Gemini 3.1工具调用功能压缩到一个仅2600万参数的’简单注意力网络’模型中,该模型甚至可以在Mac/PC上本地微调。在生产环境中,Needle在Cactus上以每秒6000个token的预填充速度和每秒1200个token的解码速度运行。模型权重完全开源,数据集生成代码也一并公开。 – 该模型采用d=512维度,8头注意力/4键值缓存,BPE分词器大小为8192 – 架构包含编码器x12层和解码器x8层,支持跨注意力机制 – 预训练在16台TPU v6e上运行200亿tokens(27小时),后训练在20亿tokens的单次函数调用数据集上(45分钟) – 实验性应用:重新定义消费设备上的小型AI,适用于手机、手表、眼镜等 – 虽然在小设备上表现出色,但相比FunctionGemma-270m、Qwen-0.6B等大型模型在对话场景中仍有差距

来源:Hacker News (分数: 327)

作者:cactus-compute

主要内容

  • 翻译内容: – …

原文链接:https://github.com/cactus-compute/needle


本文由AI自动翻译并发布

评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

更多文章