SSA架构颠覆Transformer:SubQ用1200万Token撕开AI算力困局

SubQ SSA架构颠覆Transformer封面

作者:

想象一个场景:你要让AI读完一整套大型代码库、几十本长篇小说、或者整个企业数年的文档记录,然后回答一个关于其中某个细节的问题。现实中,这类需求往往会让AI”力不从心”——不是因为它不够聪明,而是底层架构撑不住。

2026年5月,这个困境正在被打破。

从”勤快”到”聪明”:Transformer的九年困局

要理解Subquadratic带来的变革,首先需要回溯大模型架构的底层逻辑。

2017年,谷歌发表了那篇改变AI走向的论文《Attention Is All You Need》,Transformer架构自此成为行业基石。从GPT到Claude、从Gemini到国产大模型,所有前沿模型都建立在同一个核心机制之上:注意力机制(Attention Mechanism)。

这套机制的工作方式相当”勤快”:每个词(token)都要和上下文里所有其他词逐一比较,才能理解彼此的语义关系。这种”all-pairs”(全量比对)的设计让模型变得无比强大,却也埋下了一个隐患——计算成本随上下文长度呈二次方增长

用更直观的数字来理解这个困境:

  • 1,000个Token:需要计算100万次注意力
  • 10,000个Token:需要计算1亿次注意力
  • 1,000,000个Token:需要计算1万亿次注意力

更关键的是,上下文每翻一倍,计算量不是翻两倍,而是翻四倍。这种恐怖的增速曲线,让超长上下文成为大厂”炫技”的噱头,却难以变成普通人随便用的日用品。

九年来,业界尝试了各种”曲线救国”的方案:

  • RAG(检索增强生成) :把长文档切碎、检索、压缩,再喂给模型。但模型拿到的只是碎片化信息,失去了全局理解能力。
  • 滑动窗口注意力(Longformer) :每个Token只关注附近窗口内的Token。问题是,如果关键信息不在窗口范围内,模型就”看不见”了。
  • 状态空间模型(Mamba/RWKV) :用循环机制压缩历史信息。代价是压缩过程有损,精度会下降。
  • 混合架构(Jamba/Qwen3-Next) :大部分层用高效注意力,少量层用密集注意力。但保留的密集层仍然是O(n²)复杂度,治标不治本。

这些方案本质上是”带着镣铐跳舞”——它们在特定场景下有效,但都牺牲了某种必要能力,没有从根本上解决二次方复杂度的问题。

SSA与Transformer性能对比配图

SSA架构:跳过99%的无效计算

2026年5月5日,Subquadratic交出了一份不同的答卷。

这家总部位于迈阿密的初创公司宣布推出SubQ模型,核心是基于一种名为亚二次选择性注意力(Subquadratic Selective Attention,SSA) 的全新架构。CTO Alex Whedon用一句话概括了SSA的核心理念:

“传统Transformer的做法是:如果有1000个单词,就会查看这1000个单词之间所有可能的关联,产生100万种组合。而SSA的核心思想是:只有一部分关联是真正有意义的,我们只处理这些有意义的部分。”

这个看似朴素的思路,背后却是对注意力机制本质的重新思考。

在训练好的模型中,研究者发现一个有趣的现象:绝大多数注意力权重都趋近于零。也就是说,模型实际上并不需要”平等地看”所有Token——它只需要精准定位那些真正承载语义信息的位置。

SSA的解决方案是内容依赖的选择机制(Content-Dependent Selection)

  • 对于每一个Query,模型先判断序列中哪些位置值得关注
  • 然后只在这些被选中的位置上精确计算注意力
  • 跳过的位置完全不参与计算,既不占用算力,也不消耗内存

这意味着SSA不再假设”任意一对Token都可能重要”,而是让模型根据语义内容自主判断”该去哪里看”。关键信息出现在序列开头、结尾,还是第1100万个Token附近,理论上都能被精准定位。

SSA实现了三个关键突破:

表格

特性传统TransformerSSA架构
计算复杂度O(n²),二次方增长O(n),线性扩展
内存占用O(n²)O(n)
选择机制无差别全量计算内容相关动态选择

性能实测:52倍速提升背后的数据

Subquadratic公布的基准测试数据相当吸睛:

MRCR v2多参考检索基准(衡量长上下文信息检索能力的核心测试):

  • SubQ研究版:83.0分
  • GPT-5.5:74.0分
  • Claude Opus 4.7:32.2分

SWE-Bench软件工程基准(衡量代码理解和修改能力):

  • SubQ:82.4%
  • Claude Opus 4.6:81.42%
  • Gemini 3.1 Pro:80.6%

RULER 128K长上下文测试

  • SubQ:95.0%
  • Claude Opus 4.6:94.8%

更令人印象深刻的是速度数据。在B200 GPU上对比FlashAttention-2标准实现:

表格

上下文长度SSA加速倍数
128K Token7.2倍
256K Token13.2倍
512K Token23.0倍
1M Token52.2倍

随着上下文长度增加,SSA的优势呈指数级放大。在1200万Token规模下,Subquadratic宣称注意力计算量比标准稠密注意力减少近1000倍。

成本对比更为直观。以RULER 128K基准的API调用成本为例:

  • SubQ:约8美元
  • Claude Opus:约2600美元
  • 差距:超过300倍

13人团队如何撬动这场革命

Subquadratic的团队规模堪称”迷你”:两位创始人加上11位来自Meta、Google、牛津、剑桥、字节跳动、Adobe的PhD研究人员,总计13人。

CEO Justin Dangel是一位连续创业者,履历横跨健康科技、保险科技和消费品领域。CTO Alex Whedon此前在Meta担任软件工程师,之后在TribeAI出任生成式AI负责人,主导过多个企业级AI项目。

就是这样一支小团队,在种子轮获得了2900万美元融资,估值达5亿美元。投资方阵容颇为豪华:由Tinder联合创始人Justin Mateen旗下JAM Fund与前软银愿景基金合伙人Javier Villamizar领投,跟投方包括Anthropic、OpenAI、Stripe、Brex的早期投资人。

这个融资规模在AI领域并不算夸张,但它传递的信号足够清晰:即便在巨头林立的AI赛道,架构层面的创新仍然被资本市场看好

质疑与审视:革命还是营销?

然而,SubQ的亮相也伴随着不少质疑声。

首先是权重来源问题。 前OpenAI Sora团队成员、AI工程师Will Depue指出,SubQ”几乎可以肯定是对Kimi或DeepSeek稀疏注意力的微调”。Subquadratic CTO Alex Whedon随后回应确认,公司确实将开源模型的权重作为起点,”这是基于我们目前的资金规模和公司发展阶段做出的选择”。

这意味着SubQ并非从零训练的全新模型,而是在已有开源架构基础上的优化迭代。这个信息立即引发业界讨论:SSA宣称的核心创新,有多少真正属于原创?

其次是基准测试的独立性问题。 Subquadratic公布的部分数据来自”第三方验证的生产版”(65.9%),与研究版(83%)存在明显差距。更关键的是,12M token的完整基准测试只有”大海捞针”(Needle in a Haystack)一项,这是长上下文测试中最简单的场景,只考察能否找到特定信息,并不评估多跳推理或证据整合等复杂能力。

清华大学交叉信息研究院博士游嘉诚也在社交平台指出,SSA宣称的”线性内存扩展”特性并非独有——FlashAttention早已实现这一点,却被Subquadratic列为SSA的三大独有优势之一。

第三是选择机制的循环悖论。 有研究者提出质疑:要判断某个Token是否值得参与注意力计算,本质上需要先将它与Query比较一次。但”比较”这个动作本身的代价,正是二次方复杂度的来源。SSA如何绕开这个逻辑矛盾,目前官方披露的技术细节尚不足以完全解答。

落地路径:从API到垂直场景

尽管质疑重重,Subquadratic已经开始商业化布局。

目前公司推出三款产品进入私测阶段:

SubQ API:提供完整的1200万Token上下文窗口,允许开发者将超长文档直接喂给模型,无需RAG切分。

SubQ Code:面向代码场景的智能体,能够理解整个代码仓库的结构和依赖关系,完成跨文件重构、bug定位、测试生成等任务。

SubQ Search:深度研究工具,适合需要分析大量论文、报告、合同等长文档的场景。

公司还宣布,计划在2026年第四季度推出支持5000万Token上下文窗口的模型,并为企业客户提供自定义后训练工具。

架构革命的深层意义

无论SubQ最终能否经受住独立验证,SSA架构的出现在AI发展史上都有其标志性意义——它将”算力效率”这个议题推到了台前。

过去几年,行业默认的演进路径是:模型更强→更多参数→更多数据→更多显卡→更多电费。这种”大力出奇迹”的逻辑让AI能力飞速提升,却也造成了资源消耗的急剧膨胀。GPT-5.5一次训练的碳排放,相当于数十辆汽车一年的排放量;头部AI公司的算力支出动辄数十亿美元。

如果类似SSA的线性复杂度架构能够成熟并普及,AI竞争的天平可能会从”谁堆更多GPU”转向”谁更会省算力”。这对于中小企业、研究机构、发展中国家的AI发展,都是利好消息。

更重要的是,SSA证明了架构层面的创新仍有巨大空间。Transformer统治AI九年,不是因为它完美,而是因为没有人找到足够好的替代方案。当二次方复杂度成为行业痛点,当算力成本成为普及门槛,总有人会去啃这块硬骨头。

Subquadratic不是第一个尝试者,也不会是最后一个。但它的出现至少说明:在AI领域,小团队凭借架构创新,同样可以挑战巨头的技术护城河

展望:混合架构与长期演进

SSA和Transformer的关系,更可能是共存而非替代。

IBM的Granite 4.0已经采用了一种9:1混合架构——90%的层用状态空间模型(SSM)处理长距离上下文,10%的层用Transformer进行精细的局部解析。这种设计逻辑很清晰:用高效注意力处理超长序列的建模需求,用稠密注意力处理需要精确回忆的任务。

未来三到五年,主流模型可能会走向混合架构:日常任务用SSA降本增效,极端长上下文场景用稠密注意力保精度。RAG不会被完全淘汰,而是退居极端场景的”最后防线”。

长期来看,如果SSA或其他线性复杂度架构能够解决训练稳定性、生态系统成熟度等问题,AI架构的版图可能会迎来真正的变革。但这一天何时到来,目前仍无定论。

结语

Subquadratic的SubQ给行业带来了一道思考题:当算力成为AI普及的门槛,架构创新能否成为破局之道?

答案是肯定的,但道路漫长。13人团队撬动九年的技术困局,这个故事足够激动人心;但从激动人心到真正落地,还需要更多验证、更多迭代、更多时间的打磨。

对于普通开发者和企业用户而言,眼下最务实的态度或许是:保持关注,谨慎尝试,在RAG的确定性与超长上下文的诱惑之间,找到适合自己的平衡点

技术革命从来不是一蹴而就。它往往始于一个大胆的假设,经历无数质疑与修正,最终才能沉淀为真正改变行业的基础设施。SubQ的出现,或许正是这场漫长变革的一个起点。

延伸阅读

  • Subquadratic官方技术博客:https://subq.ai
  • SSA架构原理论文(申请内测后可获取)
  • MRCR v2基准测试官方页面

评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注