微调激活大型语言模型的逐字回忆：版权书籍内容泄露风险研究

作者：

在

研究人员发现对大型语言模型进行微调会激活对版权书籍内容的逐字回忆能力。该研究通过微调GPT-4o、Gemini-2.5-Pro和DeepSeek-V3.1等模型，测试其对《路》这部小说的记忆能力。研究显示，微调后的模型能够生成与训练材料高度相似的文本片段，存在显著的版权侵犯风险。论文提出了四种记忆度评估指标：BMC@k、最长连续记忆块、最长连续重现跨度等。实验结果表明，不同模型的微调都会产生不同程度的逐字复制现象。

技术细节：研究使用了Cormac McCarthy的小说作为测试材料。采用了LoRA（低秩适配）微调方法，秩为32，学习率为5e-4。生成了每个摘录100个温度值为1.0的完成样本进行测试。评估指标包括：BMC@k（覆盖至少k个匹配单词的分数）、最长连续记忆块等。

微调激活大型语言模型的逐字回忆：版权书籍内容泄露风险研究

评论

发表回复 取消回复

更多文章

发表回复取消回复