正文
一、被”二次方诅咒”困住的大模型
如果你关注过大模型的技术进展,会发现一个有意思的现象:参数规模在膨胀,上下文窗口在膨胀,但有个东西始终在”拖后腿”——计算复杂度。
这背后是个老生常谈的问题:注意力机制的二次方复杂度。
简单来说,当你的上下文从1万个token扩展到100万个token时,Transformer需要进行的计算量会增加100倍,而不是10倍。这种”暴脾气”的增长曲线,让长上下文处理成为了一场算力军备竞赛。
企业想处理一本《战争与和平》的完整上下文?要么掏巨额算力费用,要么面对慢到令人发指的响应时间。这就是所谓的”二次方诅咒”。
2026年,这个诅咒正在被打破。
二、Subquadratic的破局思路
总部位于迈阿密的初创公司Subquadratic发布了一项引人注目的技术突破——SSA(Subquadratic Selective Attention,亚二次选择性注意力)架构。
这个架构的核心思路说起来并不复杂:不是所有token都需要被同等关注。
传统Transformer对每个token都进行全局注意力计算,即使某些token与当前任务完全无关。相比之下,SSA引入了选择性机制,让模型学会”该看哪里”。
具体实现上,SSA采用了几项关键技术:
稀疏注意力模式:通过动态评估token之间的相关性,只对高价值token对进行精细计算,跳过低相关区域。这不是简单的随机采样,而是基于语义关联度的智能筛选。
线性增长内存管理:传统注意力需要存储完整的注意力矩阵(n×n),SSA则通过流式处理和增量更新,将内存占用控制在O(n)级别。
硬件友好设计:SSA的算法结构对现代GPU/TPU的并行计算特性做了优化,避免了稀疏操作常见的”内存跳跃”问题。
三、实测数据:52倍速提升意味着什么
Subquadratic公布的基准测试结果相当震撼:
在100万token的场景下,SSA的运行速度比传统稠密注意力快了52倍。这不是实验室里的理想环境数据,而是接近实际部署的测试结果。
更值得关注的是1200万token窗口下的表现。在这个量级,传统Transformer几乎已经”动弹不得”,而SSA的”大海捞针”检索准确率仍然达到了92.1% 。
作为对比,在同等条件下,OpenAI的GPT-5.5模型的表现也相当不错,但SSA在超长上下文任务中展现出了明显的优势。
这意味着什么?
以一个实际的场景为例:法律文档分析。一份复杂的商业合同可能包含数万条条款、数十个附录,涉及数百个实体的定义和引用关系。用传统模型处理,需要等待数十秒甚至更长时间;用SSA架构,响应时间可以压缩到秒级。

四、竞争格局:不是一个人在战斗
SSA并非孤军奋战。2026年的长上下文推理优化赛道,已经呈现出多点开花的态势。
DeepSeek V4的混合注意力机制
4月底发布的DeepSeek V4,将混合注意力作为核心技术卖点。其稀疏注意力与重度压缩注意力的组合设计,在100万token场景下实现了计算量降低73%、KV缓存占用降至10% 的突破。
不同于SSA的”选择性跳过”思路,DeepSeek V4更像是”智能压缩”——不是跳过计算,而是用更少的资源完成等效计算。
腾讯混元Hy3的快慢思考融合
腾讯混元Hy3采用了另一种策略:快慢思考融合的MoE架构。总参数2950亿,但单次推理只激活210亿。
这套架构的设计哲学是”让专业的专家处理专业的问题”——简单任务调用”快专家”快速响应,复杂推理启动”慢专家”深度处理。
首次响应速度提升54%,任务平均完成时间缩短40%以上。
三种方案的对比
表格
| 方案 | 核心思路 | 100万token加速 | 超长上下文表现 | 适用场景 |
|---|---|---|---|---|
| Subquadratic SSA | 选择性注意力 | 52倍 | 1200万token/92.1% | 超长文档分析 |
| DeepSeek V4 | 混合压缩 | 3.4倍 | 100万token/高准确 | 通用长文本 |
| 混元Hy3 MoE | 动态路由 | 2倍 | 100万token/高效 | 实时交互 |
三种方案各有侧重,没有绝对的优劣之分。选择取决于具体业务场景的优先级。
五、技术深一度:为什么是现在
SSA的出现并非偶然。它是多个技术趋势汇合的产物。
稀疏计算硬件成熟:英伟达的Ampere和Hopper架构引入了对稀疏张量运算的原生支持,使得”选择性跳过”不再是性能陷阱。
kv-cache工程化突破:过去几年,KV缓存管理从理论研究走向工程成熟,为SSA的线性内存占用提供了基础设施保障。
应用需求的倒逼:大模型落地过程中,企业发现长上下文处理是刚需。法律、医疗、金融、代码生成……这些场景天然需要处理大量上下文。需求端的压力,推动了供给端的技术突破。
学术与产业的协同:Subquadratic的SSA论文引发了学术界跟进,而DeepSeek等大厂的技术方案也在被学术界研究。这种双向流动加速了技术迭代。
六、落地展望:谁会是第一批受益者
技术突破的价值,最终要靠落地场景来兑现。
法律行业:合同审查、判例分析、法律法规检索。律师和法务人员每天处理大量长文档,SSA带来的效率提升可以直接转化为生产力。
医疗领域:病历分析、医学文献综述、药物相互作用查询。医疗场景对准确性要求极高,长上下文的稳定表现是关键。
代码开发:大型代码库的语义分析、跨文件依赖理解、遗留代码重构。软件开发正变得越来越复杂,长上下文能力直接影响AI辅助编程的效果。
学术研究:论文综述、跨领域知识整合、实验数据分析。研究者需要处理大量文献资料,长上下文能力可以大幅提升研究效率。
金融分析:招股说明书分析、行业报告综合研判、财务数据横向对比。金融场景文档长度惊人,处理效率直接影响决策速度。
七、挑战与展望
SSA并非万能解药。
精度与速度的权衡:选择性跳过必然带来信息损失。SSA在多数任务上表现优异,但在某些需要全局信息的任务上,极端稀疏可能导致关键信息遗漏。Subquadratic正在通过自适应阈值机制来缓解这个问题。
硬件适配成本:SSA的特殊算法结构需要针对性地优化编译器和运行时。目前仅支持主流GPU平台,对国产芯片的适配还在进行中。
规模化部署:实验环境下的性能表现不代表大规模生产环境同样出色。高并发、分布式部署等场景下的稳定性有待验证。
尽管如此,SSA代表的方向值得关注:不是用更多的算力解决问题,而是用更聪明的算法解决问题。
当AI行业从”暴力堆参数”转向”效率优先”,这类技术突破的价值会更加凸显。
八、写在最后
回顾大模型的发展历程,注意力机制的二次方复杂度曾被视为”理所当然”的限制。Transformer的成功建立在它之上,但它的代价也在累积。
Subquadratic SSA的出现,是一个信号:这个行业正在学会用更聪明的方式处理复杂问题。
52倍速提升只是开始。当亚二次注意力、混合压缩、动态路由这些技术路线不断演进,长上下文的成本会持续下降,更多场景会被解锁。
法律文书、医疗记录、商业合同、代码库……这些曾经”太长”的内容,很快就会变得”刚刚好”。
这不是关于一个公司的技术突破,而是关于整个行业效率革命的又一步。
参考资料:
- Subquadratic SSA技术白皮书(2026年5月)
- DeepSeek V4技术报告
- 腾讯混元Hy3 Preview发布公告
- OpenRouter平台基准测试数据

发表回复