”
– 这个项目创建了一个名为talkie-1930-13b的130亿参数语言模型,专门训练于1930年之前的文本数据
– 研究目标是通过”复古语言模型”来理解AI的演进,这些模型只使用历史文本训练,而非现代网络数据
– 研究发现,尽管没有数字计算机的知识,这些复古模型能够学会编写简单的Python程序,显示出一定的泛化能力
– 项目挑战包括时间泄漏检测(确保训练数据不包含截止日后的信息)和OCR转录质量改进
– 团队计划继续扩大规模,目标是创建一个GPT-3级别的复古语言模型,预计今年夏天发布
– 这种研究方法有助于理解语言模型的训练数据来源如何影响其能力和行为特征
“
发表回复