SSA架构颠覆Transformer：SubQ用1200万Token撕开AI算力困局

想象一个场景：你要让AI读完一整套大型代码库、几十本长篇小说、或者整个企业数年的文档记录，然后回答一个关于其中某个细节的问题。现实中，这类需求往往会让AI”力不从心”——不是因为它不够聪明，而是底层架构撑不住。

2026年5月，这个困境正在被打破。

从”勤快”到”聪明”：Transformer的九年困局

要理解Subquadratic带来的变革，首先需要回溯大模型架构的底层逻辑。

2017年，谷歌发表了那篇改变AI走向的论文《Attention Is All You Need》，Transformer架构自此成为行业基石。从GPT到Claude、从Gemini到国产大模型，所有前沿模型都建立在同一个核心机制之上：注意力机制（Attention Mechanism）。

这套机制的工作方式相当”勤快”：每个词（token）都要和上下文里所有其他词逐一比较，才能理解彼此的语义关系。这种”all-pairs”（全量比对）的设计让模型变得无比强大，却也埋下了一个隐患——计算成本随上下文长度呈二次方增长。

用更直观的数字来理解这个困境：

1,000个Token：需要计算100万次注意力
10,000个Token：需要计算1亿次注意力
1,000,000个Token：需要计算1万亿次注意力

更关键的是，上下文每翻一倍，计算量不是翻两倍，而是翻四倍。这种恐怖的增速曲线，让超长上下文成为大厂”炫技”的噱头，却难以变成普通人随便用的日用品。

九年来，业界尝试了各种”曲线救国”的方案：

RAG（检索增强生成） ：把长文档切碎、检索、压缩，再喂给模型。但模型拿到的只是碎片化信息，失去了全局理解能力。
滑动窗口注意力（Longformer） ：每个Token只关注附近窗口内的Token。问题是，如果关键信息不在窗口范围内，模型就”看不见”了。
状态空间模型（Mamba/RWKV） ：用循环机制压缩历史信息。代价是压缩过程有损，精度会下降。
混合架构（Jamba/Qwen3-Next） ：大部分层用高效注意力，少量层用密集注意力。但保留的密集层仍然是O(n²)复杂度，治标不治本。

这些方案本质上是”带着镣铐跳舞”——它们在特定场景下有效，但都牺牲了某种必要能力，没有从根本上解决二次方复杂度的问题。

SSA架构：跳过99%的无效计算

2026年5月5日，Subquadratic交出了一份不同的答卷。

这家总部位于迈阿密的初创公司宣布推出SubQ模型，核心是基于一种名为亚二次选择性注意力（Subquadratic Selective Attention，SSA） 的全新架构。CTO Alex Whedon用一句话概括了SSA的核心理念：

“传统Transformer的做法是：如果有1000个单词，就会查看这1000个单词之间所有可能的关联，产生100万种组合。而SSA的核心思想是：只有一部分关联是真正有意义的，我们只处理这些有意义的部分。”

这个看似朴素的思路，背后却是对注意力机制本质的重新思考。

在训练好的模型中，研究者发现一个有趣的现象：绝大多数注意力权重都趋近于零。也就是说，模型实际上并不需要”平等地看”所有Token——它只需要精准定位那些真正承载语义信息的位置。

SSA的解决方案是内容依赖的选择机制（Content-Dependent Selection） ：

对于每一个Query，模型先判断序列中哪些位置值得关注
然后只在这些被选中的位置上精确计算注意力
跳过的位置完全不参与计算，既不占用算力，也不消耗内存

这意味着SSA不再假设”任意一对Token都可能重要”，而是让模型根据语义内容自主判断”该去哪里看”。关键信息出现在序列开头、结尾，还是第1100万个Token附近，理论上都能被精准定位。

SSA实现了三个关键突破：

表格

特性	传统Transformer	SSA架构
计算复杂度	O(n²)，二次方增长	O(n)，线性扩展
内存占用	O(n²)	O(n)
选择机制	无差别全量计算	内容相关动态选择

性能实测：52倍速提升背后的数据

Subquadratic公布的基准测试数据相当吸睛：

MRCR v2多参考检索基准（衡量长上下文信息检索能力的核心测试）：

SubQ研究版：83.0分
GPT-5.5：74.0分
Claude Opus 4.7：32.2分

SWE-Bench软件工程基准（衡量代码理解和修改能力）：

SubQ：82.4%
Claude Opus 4.6：81.42%
Gemini 3.1 Pro：80.6%

RULER 128K长上下文测试：

SubQ：95.0%
Claude Opus 4.6：94.8%

更令人印象深刻的是速度数据。在B200 GPU上对比FlashAttention-2标准实现：

表格

上下文长度	SSA加速倍数
128K Token	7.2倍
256K Token	13.2倍
512K Token	23.0倍
1M Token	52.2倍

随着上下文长度增加，SSA的优势呈指数级放大。在1200万Token规模下，Subquadratic宣称注意力计算量比标准稠密注意力减少近1000倍。

成本对比更为直观。以RULER 128K基准的API调用成本为例：

SubQ：约8美元
Claude Opus：约2600美元
差距：超过300倍

13人团队如何撬动这场革命

Subquadratic的团队规模堪称”迷你”：两位创始人加上11位来自Meta、Google、牛津、剑桥、字节跳动、Adobe的PhD研究人员，总计13人。

CEO Justin Dangel是一位连续创业者，履历横跨健康科技、保险科技和消费品领域。CTO Alex Whedon此前在Meta担任软件工程师，之后在TribeAI出任生成式AI负责人，主导过多个企业级AI项目。

就是这样一支小团队，在种子轮获得了2900万美元融资，估值达5亿美元。投资方阵容颇为豪华：由Tinder联合创始人Justin Mateen旗下JAM Fund与前软银愿景基金合伙人Javier Villamizar领投，跟投方包括Anthropic、OpenAI、Stripe、Brex的早期投资人。

这个融资规模在AI领域并不算夸张，但它传递的信号足够清晰：即便在巨头林立的AI赛道，架构层面的创新仍然被资本市场看好。

质疑与审视：革命还是营销？

然而，SubQ的亮相也伴随着不少质疑声。

首先是权重来源问题。 前OpenAI Sora团队成员、AI工程师Will Depue指出，SubQ”几乎可以肯定是对Kimi或DeepSeek稀疏注意力的微调”。Subquadratic CTO Alex Whedon随后回应确认，公司确实将开源模型的权重作为起点，”这是基于我们目前的资金规模和公司发展阶段做出的选择”。

这意味着SubQ并非从零训练的全新模型，而是在已有开源架构基础上的优化迭代。这个信息立即引发业界讨论：SSA宣称的核心创新，有多少真正属于原创？

其次是基准测试的独立性问题。 Subquadratic公布的部分数据来自”第三方验证的生产版”（65.9%），与研究版（83%）存在明显差距。更关键的是，12M token的完整基准测试只有”大海捞针”（Needle in a Haystack）一项，这是长上下文测试中最简单的场景，只考察能否找到特定信息，并不评估多跳推理或证据整合等复杂能力。

清华大学交叉信息研究院博士游嘉诚也在社交平台指出，SSA宣称的”线性内存扩展”特性并非独有——FlashAttention早已实现这一点，却被Subquadratic列为SSA的三大独有优势之一。

第三是选择机制的循环悖论。 有研究者提出质疑：要判断某个Token是否值得参与注意力计算，本质上需要先将它与Query比较一次。但”比较”这个动作本身的代价，正是二次方复杂度的来源。SSA如何绕开这个逻辑矛盾，目前官方披露的技术细节尚不足以完全解答。

落地路径：从API到垂直场景

尽管质疑重重，Subquadratic已经开始商业化布局。

目前公司推出三款产品进入私测阶段：

SubQ API：提供完整的1200万Token上下文窗口，允许开发者将超长文档直接喂给模型，无需RAG切分。

SubQ Code：面向代码场景的智能体，能够理解整个代码仓库的结构和依赖关系，完成跨文件重构、bug定位、测试生成等任务。

SubQ Search：深度研究工具，适合需要分析大量论文、报告、合同等长文档的场景。

公司还宣布，计划在2026年第四季度推出支持5000万Token上下文窗口的模型，并为企业客户提供自定义后训练工具。

架构革命的深层意义

无论SubQ最终能否经受住独立验证，SSA架构的出现在AI发展史上都有其标志性意义——它将”算力效率”这个议题推到了台前。

过去几年，行业默认的演进路径是：模型更强→更多参数→更多数据→更多显卡→更多电费。这种”大力出奇迹”的逻辑让AI能力飞速提升，却也造成了资源消耗的急剧膨胀。GPT-5.5一次训练的碳排放，相当于数十辆汽车一年的排放量；头部AI公司的算力支出动辄数十亿美元。

如果类似SSA的线性复杂度架构能够成熟并普及，AI竞争的天平可能会从”谁堆更多GPU”转向”谁更会省算力”。这对于中小企业、研究机构、发展中国家的AI发展，都是利好消息。

更重要的是，SSA证明了架构层面的创新仍有巨大空间。Transformer统治AI九年，不是因为它完美，而是因为没有人找到足够好的替代方案。当二次方复杂度成为行业痛点，当算力成本成为普及门槛，总有人会去啃这块硬骨头。

Subquadratic不是第一个尝试者，也不会是最后一个。但它的出现至少说明：在AI领域，小团队凭借架构创新，同样可以挑战巨头的技术护城河。

展望：混合架构与长期演进

SSA和Transformer的关系，更可能是共存而非替代。

IBM的Granite 4.0已经采用了一种9:1混合架构——90%的层用状态空间模型（SSM）处理长距离上下文，10%的层用Transformer进行精细的局部解析。这种设计逻辑很清晰：用高效注意力处理超长序列的建模需求，用稠密注意力处理需要精确回忆的任务。

未来三到五年，主流模型可能会走向混合架构：日常任务用SSA降本增效，极端长上下文场景用稠密注意力保精度。RAG不会被完全淘汰，而是退居极端场景的”最后防线”。

长期来看，如果SSA或其他线性复杂度架构能够解决训练稳定性、生态系统成熟度等问题，AI架构的版图可能会迎来真正的变革。但这一天何时到来，目前仍无定论。

结语

Subquadratic的SubQ给行业带来了一道思考题：当算力成为AI普及的门槛，架构创新能否成为破局之道？

答案是肯定的，但道路漫长。13人团队撬动九年的技术困局，这个故事足够激动人心；但从激动人心到真正落地，还需要更多验证、更多迭代、更多时间的打磨。

对于普通开发者和企业用户而言，眼下最务实的态度或许是：保持关注，谨慎尝试，在RAG的确定性与超长上下文的诱惑之间，找到适合自己的平衡点。

技术革命从来不是一蹴而就。它往往始于一个大胆的假设，经历无数质疑与修正，最终才能沉淀为真正改变行业的基础设施。SubQ的出现，或许正是这场漫长变革的一个起点。

SSA架构颠覆Transformer：SubQ用1200万Token撕开AI算力困局

从”勤快”到”聪明”：Transformer的九年困局

SSA架构：跳过99%的无效计算

性能实测：52倍速提升背后的数据

13人团队如何撬动这场革命

质疑与审视：革命还是营销？

落地路径：从API到垂直场景

架构革命的深层意义

展望：混合架构与长期演进

结语

延伸阅读

评论

发表回复 取消回复

更多文章

盈亏计算器别乱填：这3个参数搞错，利润全白算

定投真能赚钱？回测3年数据，结果出乎意料

K线别只盯红绿：均线+MACD+成交量，一文讲透配合逻辑

盈亏计算方法：手把手算出实际收益，别再被”毛利润”骗了

发表回复取消回复