Interfaze公司发布了全新的模型架构,在多个基准测试中超越了Gemini-3-Flash、Claude-Sonnet-4.6、GPT-5.4-Mini和Grok-4.3等主流模型。
该架构的关键特点:
– 结合CNN/DNN的专业化能力和Transformer的泛化能力
– 支持1M tokens的上下文窗口和32k tokens的最大输出
– 多模态输入:文本、图像、音频、文件
– 具备推理能力(默认关闭)
性能优势:
– OCRBench V2: 70.7% vs 55.8%
– olmOCR: 85.7% vs 75.3%
– RefCOCO: 82.1% vs 75.2%
– 语音转文本速度是Deepgram Nova-3的1.5倍
定价策略与Gemini-3-Flash相当,为.50/百万输入token和.50/百万输出token。主要应用场景包括OCR、对象检测、网络提取、语音处理和翻译等确定性任务。
**原文链接**: https://interfaze.ai/blog/interfaze-a-new-model-architecture-built-for-high-accuracy-at-scale