一篇详细的量化技术教程介绍了模型压缩的核心原理。文章解释了从FP32到INT8等不同精度格式的转换机制,以及量化如何大幅降低模型显存需求。以Qwen 3.5 27B为例,FP16精度需要54GB显存,而Q4量化后仅需16GB,使得在消费级GPU(如RTX 3090)上运行成为可能。教程还讨论了GPU硬件对不同精度格式的支持情况,以及量化对模型质量的影响。
原文链接:https://ngrok.com/blog/quantization
🕐 发布于: 2026年03月26日 12:04
一篇详细的量化技术教程介绍了模型压缩的核心原理。文章解释了从FP32到INT8等不同精度格式的转换机制,以及量化如何大幅降低模型显存需求。以Qwen 3.5 27B为例,FP16精度需要54GB显存,而Q4量化后仅需16GB,使得在消费级GPU(如RTX 3090)上运行成为可能。教程还讨论了GPU硬件对不同精度格式的支持情况,以及量化对模型质量的影响。
原文链接:https://ngrok.com/blog/quantization
🕐 发布于: 2026年03月26日 12:04
一项数据分析揭示了Claude Code等AI编程工具生成代码的实际去向。研究显示,约90%的AI辅助代码输出最终流向了GitHub上星数低于2的仓库,其中98%的仓库仅有0到1颗星。这一现象反映了AI编程工具主要服务于个人项目和小规模代码仓库的现实,同时也引发了关于代码质量和Dunning-Kruger效应的讨论。
🕐 发布于: 2026年03月26日 12:04
根据claudescode.dev的数据统计,Claude AI编程助手生成的代码绝大多数最终进入了GitHub仓库。
🕐 发布于: 2026年03月26日 08:04
Ente推出了Ensu,一款可以在设备上完全离线运行的本地LLM应用,主打隐私和零成本。
原文链接:https://ente.com/blog/ensu/
🕐 发布于: 2026年03月26日 08:04
Google Research推出了TurboQuant,这是一种全新的压缩算法,能够实现高压缩率而几乎不影响模型精度。该技术主要针对AI模型中的键值缓存(KV Cache)瓶颈和向量搜索效率问题。
原文链接:https://research.google/blog/turboquant-redefining-ai-efficiency-with-extreme-compression/
🕐 发布于: 2026年03月26日 08:04
Hypura是一款面向Apple Silicon的存储层级感知LLM推理调度器,可将模型张量分布在GPU、RAM和NVMe之间。
原文链接:https://github.com/t8/hypura
🕐 发布于: 2026年03月25日 18:04
Arm近日发布了Arm AGI CPU,这是其35年历史上首次推出的自研硅产品,基于Arm Neoverse平台打造。
原文链接:https://newsroom.arm.com/blog/introducing-arm-agi-cpu
🕐 发布于: 2026年03月25日 18:04
Google Research近日发布了TurboQuant,这是一种突破性的压缩算法,能够在向量量化过程中消除内存开销。研究团队还同时发布了QJL和PolarQuant两种技术。
原文链接:https://research.google/blog/turboquant-redefining-ai-efficiency-with-extreme-compression/
🕐 发布于: 2026年03月25日 18:03
开发者基于 Google Gemini Embedding 2 构建了一款名为 SentrySearch 的工具,实现对行车记录仪视频的亚秒级语义搜索。
原文链接:https://github.com/ssrajadh/sentrysearch
🕐 发布于: 2026年03月25日 12:02
Arm 正式发布 Arm AGI CPU,这是该公司 35 年历史上首次推出自主品牌的硅产品。
原文链接:https://newsroom.arm.com/blog/introducing-arm-agi-cpu
🕐 发布于: 2026年03月25日 12:02