分类: 未分类

  • Talkie:一个来自1930年的13B参数复古语言模型

    Talkie是一个创新的130亿参数复古语言模型,专门训练于1930年之前的英语文本。这个项目由Claude Sonnet 4.6驱动,创造了一个独特的对话体验。

    ### 项目背景与研究价值
    复古语言模型(Vintage Language Models)是AI研究的新方向,通过训练只包含历史文本的模型,我们可以与”过去的人”进行对话。这种模型不仅有趣,还能帮助我们理解AI的演进过程。

    ### 技术特点与创新
    – **大规模历史语料**:使用2600亿个1930年之前的英语标记训练
    – **知识预测能力**:能够评估模型对未来事件的预测准确性
    – **编程能力测试**:尽管缺乏现代计算机知识,模型仍能学习Python编程
    – **防污染优势**:由于完全基于历史数据,避免了现代数据的污染问题

    ### 研究成果展示
    研究发现,尽管Talkie在标准语言模型评估中表现不如现代模型,但在核心语言理解和数学任务上与现代模型表现相似。这为理解不同数据源对AI模型的影响提供了宝贵见解。

    ### 未来发展规划
    项目团队计划继续扩大模型规模,目标是训练达到GPT-3级别的复古语言模型,并扩展到多语言支持。

  • “微软与OpenAI终止独家收入分成协议”


    – 微软宣布修改与OpenAI的合作伙伴关系,取消双方的独家协议和收入分成安排

    – 新协议要点包括:微软仍是OpenAI的主要云合作伙伴,但OpenAI产品现在可以在任何云提供商上部署;微软获得非独占的OpenAI知识产权许可至2032年

    – 微软将不再向OpenAI支付收入分成,但OpenAI将继续向微软支付分成至2030年,设有总额上限

    – 这一变更旨在为两家公司提供更灵活的合作框架,同时保持技术合作的连续性

    – 双方将继续在数据中心扩展、下一代硅片合作、网络安全AI应用等方面开展合作

  • “Talkie:一个来自1930年的13B参数复古语言模型”


    – 这个项目创建了一个名为talkie-1930-13b的130亿参数语言模型,专门训练于1930年之前的文本数据

    – 研究目标是通过”复古语言模型”来理解AI的演进,这些模型只使用历史文本训练,而非现代网络数据

    – 研究发现,尽管没有数字计算机的知识,这些复古模型能够学会编写简单的Python程序,显示出一定的泛化能力

    – 项目挑战包括时间泄漏检测(确保训练数据不包含截止日后的信息)和OCR转录质量改进

    – 团队计划继续扩大规模,目标是创建一个GPT-3级别的复古语言模型,预计今年夏天发布

    – 这种研究方法有助于理解语言模型的训练数据来源如何影响其能力和行为特征

  • “4TB语音样本被盗:4万名AI标注员遭遇安全危机”


    – 黑客组织Lapsus$泄露了Mercor公司的4TB语音数据,涉及超过4万名AI训练数据标注员

    – 泄露内容包括语音生物识别数据和对应的政府身份证件扫描件,这对语音克隆攻击极具价值

    – 现代高质量语音克隆工具现在只需要约15秒干净的参考音频,而Mercor的数据平均包含2-5分钟的录音室级语音

    – 攻击者可利用这些数据实现银行验证绕过、冒充雇主电话诈骗、保险索赔欺诈等

    – 受影响者应立即采取的措施包括:清理公开音频足迹、与家人金融联系人设置语音验证码、更换已注册语音识别的系统

    – ORAVYS提供免费深度伪造检测服务帮助受害者验证可疑录音

  • 早间大模型新闻 – 2026年4月28日

    1. Microsoft and OpenAI end their exclusive and revenue-sharing deal

    – Microsoft与OpenAI终止独家合作协议及收入分成协议
    – 此举标志着两家公司长期合作关系的重大转折
    – 微软此前向OpenAI投资数十亿美元,享有独家API访问权
    – OpenAI将获得更多自主权,可能与其他科技公司建立合作关系
    – 这对AI行业格局可能产生深远影响,引发市场竞争新格局

    原文链接: https://bloomberg.com/news/articles/microsoft-openai-deal-ended

    2. Talkie: a 13B vintage language model from 1930

    – 推出一款复古语言模型Talkie,参数规模达130亿
    – 模型灵感来源于1930年的语言处理技术
    – 采用创新的架构设计,在保持历史特色的同时提升性能
    – 为研究早期自然语言处理方法提供新的视角
    – 展示了AI技术在不同时代的适应性和演进路径

    原文链接: https://talkie-lm.com

    3. China blocks Meta’s acquisition of AI startup Manus

    – 中国监管部门阻止Meta收购AI初创公司Manus的交易
    – 这是中国在科技领域加强监管的最新举措
    – 涉及数据安全和人工智能技术出口管制等考量因素
    – 反映了中国对关键技术领域的控制力度不断加强
    – 对国际科技公司的在华业务发展带来新的挑战

    原文链接: https://cnbc.com/china-blocks-meta-acquisition-manus

  • EvanFlow – 为Claude Code设计的TDD驱动迭代反馈循环

    EvanFlow – 为Claude Code设计的TDD驱动迭代反馈循环

    – EvanFlow是一个为软件开发设计的TDD驱动迭代反馈循环,包含16个协同技能+2个自定义子代理
    – 该循环从头脑风暴开始,经过计划、执行(TDD)、迭代,最后停止
    – 循环是引导者,而不是自动驾驶:在设计批准、计划批准和每次迭代后都有真实的检查点
    – 该代理在每个git操作前都会停止等待您的指示,不会自动提交,不会强制仪式,也不会有”必须调用技能”的税
    – 循环建立在复合纪律之上,而不是单次生成,每个步骤都有一个门控下一个步骤的检查点

    原文链接:https://github.com/evanklem/evanflow

  • TurboQuant:第一原理走查

    TurboQuant:第一原理走查

    – TurboQuant是一种向量压缩技术,可以在不损失精度的情况下将AI向量压缩到每个数字2-4位
    – 现代语言模型存储大量的高维向量表:KV缓存、嵌入、注意力键
    – TurboQuant通过为这些向量的每个坐标设计一个一次性的码本,然后为每个输入重用该码本,从而压缩每个坐标
    – 关键思想是在高维空间中,随机旋转可以将每个输入向量转换为具有已知固定分布的坐标
    – 这种技术可以应用于KV缓存、嵌入和注意力键等,实现高效的向量量化

    原文链接:https://arkaung.github.io/interactive-turboquant/

  • 人工智能应该提升你的思维,而不是取代它

    人工智能应该提升你的思维,而不是取代它

    – 在与科技行业巨头的工程管理人员交谈时,很明显软件工程正在开始将人们分成两个模糊的群体
    – 第一组人将使用AI来消除繁琐工作,更快地推进,并将更多时间投入到真正重要的事情上,即制定问题框架、做出权衡、识别风险、创造清晰度和产生原创见解
    – 第二组人将使用AI来避免思考。他们会将提示粘贴到框中,收集精美的输出,并呈现为似乎反映了他们自己的推理。这看起来像是生产力,甚至可能是才能,但这是一个死胡同
    – 未来最有价值的软件工程师不是那些自己做所有事情的人。他们是那些拒绝在AI可以为他们做的事情上浪费时间,同时仍然理解他们代表他们所做的一切的人
    – 他们利用节省的时间在更高的层面上运作。他们通过严谨性而不是外包来提升他们的思维过程

    原文链接:https://www.koshyjohn.com/blog/ai-should-elevate-your-thinking-not-replace-it/

  • 自更新截图技术

    ## TurboQuant向量压缩技术详解

    ### 主要内容

    – **技术突破**:将AI向量压缩至2-4位/数,同时保持精度
    – **核心算法**:基于随机旋转的量化方法
    – **关键技术点**:
    – 利用高维空间几何特性
    – 随机旋转使坐标分布均匀化
    – 设计通用码本实现高效压缩
    – **应用场景**:适用于KV缓存、嵌入向量、注意力键值等AI模型的存储优化

    **原文链接**: https://interblah.net/self-updating-screenshots

  • TurboQuant:第一性原理详解

    ## TurboQuant向量压缩技术详解

    ### 主要内容

    – **技术突破**:将AI向量压缩至2-4位/数,同时保持精度
    – **核心算法**:基于随机旋转的量化方法
    – **关键技术点**:
    – 利用高维空间几何特性
    – 随机旋转使坐标分布均匀化
    – 设计通用码本实现高效压缩
    – **应用场景**:适用于KV缓存、嵌入向量、注意力键值等AI模型的存储优化

    **原文链接**: https://arkaung.github.io/interactive-turboquant/