作者: admin

  • 通义千问Qwen3.7发布:阿里大模型登顶国产第一、文本视觉双榜突破

    通义千问Qwen3.7发布:阿里大模型登顶国产第一、文本视觉双榜突破

    2026年5月20日,杭州阿里云峰会现场,当通义千问Qwen3.7系列正式亮相时,掌声经久不息。仅仅一天前,Google I/O 2026刚刚落下帷幕,Gemini 3.5系列高调登场;仅仅两天后,阿里选择在同一时间窗口亮出自己的王牌,这背后的竞争意图不言自明。

    而Qwen3.7交出的答卷也确实令人眼前一亮:在全球最具公信力的AI模型评测平台LMArena上,Qwen3.7-Max-Preview在文本领域一举冲至全球第13位,阿里巴巴实验室综合排名攀升至全球第6——成为当前排行榜上当之无愧的国产第一。在视觉领域,Qwen3.7-Plus-Preview同样表现不俗,以第16名的成绩将阿里巴巴实验室送上视觉榜国产榜首的位置。

    这不是一次普通的版本迭代。从Qwen1.0到Qwen3.7,阿里走了三年。这三年里,中国大模型行业经历了从追赶到并跑、从模仿到创新的深刻蜕变。而Qwen3.7,或许正是这场蜕变的标志性注脚。

    从追赶到领跑:国产大模型的三年进化论

    时间拨回2023年,国产大模型刚刚起步。彼时的行业共识是:中国AI企业与OpenAI、Google等国际巨头之间存在明显差距,追随与学习是唯一可行的路径。但没人想到,这个差距会以如此快的速度被缩小。

    通义千问的成长轨迹就是最好的例证。2023年4月,Qwen-7B首次亮相,参数规模70亿;2024年,Qwen2.0系列发布,在多项评测中开始与国际主流模型掰手腕;2025年,Qwen3.0系列实现质的飞跃,部分任务表现已逼近GPT-4;而今天,Qwen3.7以文本榜第13名、视觉榜第16名的成绩,正式宣告国产大模型进入全球第一梯队。

    这种进化速度在AI领域是罕见的。业内人士分析,这背后是三重力量的叠加:首先是阿里巴巴持续加码的研发投入,仅未来三年规划资本支出就超过3800亿元,主要用于AI基础设施与算力建设;其次是中文互联网海量高质量数据的天然优势,让通义千问在中文理解任务上具有先天基因;第三则是整个国产AI生态的协同进化,从芯片层的华为昇腾到框架层的各类优化工具,产业链上下游的紧密配合为模型迭代提供了坚实底座。

    Qwen3.7核心技术解析:它到底强在哪里?

    虽然阿里在发布会上并未公布Qwen3.7的具体参数规模和技术细节,但结合多方信息,我们可以勾勒出这款新模型的几大核心能力。

    多模态融合能力的突破是Qwen3.7最引人注目的升级方向。从命名来看,Qwen3.7-Max-Preview和Qwen3.7-Plus-Preview分别对应文本和视觉能力的强化版本,而Plus版本在视觉榜上的出色表现意味着其多模态理解能力已达到业界领先水准。这意味着Qwen3.7不仅能”读懂”文字,还能精准理解图片内容、图表信息乃至视频帧,在需要跨模态推理的任务中表现更加游刃有余。

    长上下文处理能力的增强同样值得关注。当前大模型竞争的一个关键维度就是上下文窗口大小,更长的上下文意味着模型能够处理更复杂的任务,比如阅读整本书籍、分析大型代码库、进行多轮复杂对话等。从此前Qwen系列的演进路径推断,Qwen3.7的上下文窗口大概率已突破百万token级别,这使其在处理长文档、长对话等场景时具有显著优势。

    推理效率的优化则是另一个不可忽视的亮点。在当前”算力即成本”的行业背景下,模型的推理效率直接决定了其商业化可行性。Qwen3.7在保持高性能的同时大幅提升了推理速度,降低了部署门槛,这对于阿里云面向企业客户的商业化推广至关重要。

    中美AI竞争的新格局:国产力量正在改写规则

    Qwen3.7的发布时机颇为微妙。就在前一天,Google I/O 2026刚刚展示了Gemini 3.5系列的多项升级,包括搜索框25年来最大改版、Gemini Spark智能体登场、以及AI Ultra订阅降价等一系列动作。而在同一时间窗口,OpenAI也在推进GPT-5.5系列的更新,并透露了冲刺2026年底IPO的计划。

    三家巨头几乎在同一时间段密集发布或更新重磅产品,这种”正面对决”的场面在AI行业并不常见。但仔细观察会发现,中美两国企业的竞争策略已呈现出明显分化:美国企业更注重大一统的平台生态建设,从搜索到办公到硬件全面覆盖;而中国企业则更聚焦于垂直场景的深耕和商业化落地,在特定领域建立差异化优势。

    这种分化在数据上也有体现。据AItop100最新统计,中国大模型周调用量已达7.693万亿Token,连续三周超越美国的4.24万亿Token,是美国的1.81倍。榜首腾讯混元Hy3 Preview周调用量高达2.66万亿Token,即便转向收费模式后仍稳居第一,说明中国用户对AI工具的实际使用热情和付费意愿都在持续升温。

    在这个大背景下,Qwen3.7的发布不仅是阿里一家的产品升级,更是国产大模型在全球竞争中的一次集体冲锋。当中国AI企业开始在排行榜上占据越来越靠前的位置,当国产模型的商业化落地越来越成熟,整个行业的游戏规则正在被重新书写。

    Qwen3.7文本视觉双榜突破全球前列

    商业化路径:阿里云的AI变现棋局

    对于阿里巴巴而言,Qwen3.7的发布绝非单纯的”秀肌肉”,而是其AI商业化战略的关键落子。

    阿里巴巴最新财报显示,公司对未来三年的资本支出规划超过3800亿元,主要投向AI基础设施和算力建设。这笔巨额投入背后,是阿里云对AI时代商业机会的精准判断。随着Qwen系列模型能力的持续提升,其在阿里云平台上的调用量和收入贡献也在稳步增长。

    从商业模式来看,阿里云的AI变现路径已相当清晰:基础层面,Qwen系列通过API调用按token计费,这是最直接的收入来源;中间层面,阿里云提供模型微调、部署托管等增值服务,面向企业客户收取更高客单价;顶层层面,结合阿里生态内的电商、物流、金融等场景,将AI能力内化为业务效率的提升工具。

    Qwen3.7的发布恰逢腾讯云宣布Hy3 Preview和DeepSeek-V4-Pro将于5月27日结束免费公测,转为正式商用。这意味着国内大模型服务正从”烧钱换用户”的拉新阶段全面转向”商业化兑现”的新阶段。在这场行业变局中,拥有更强模型能力、更多企业客户、更完善商业闭环的企业将占据先机。

    展望未来:Qwen3.7将如何影响行业走向?

    Qwen3.7的发布对行业的影响是多层面的。

    对开发者而言,Qwen3.7登顶国产第一意味着又多了一个强有力的模型选择。基于通义千问的开发生态已经相当成熟,Hugging Face、GitHub上有大量基于Qwen系列的开源项目和工具,开发者可以快速将Qwen3.7集成到自己的应用中。

    对企业客户而言,Qwen3.7的能力提升为更复杂的AI应用场景提供了可能。无论是智能客服、内容审核、数据分析还是知识管理,更强的模型能力都意味着更高的任务完成率和更好的用户体验。

    对竞争格局而言,Qwen3.7的成功发布将进一步加剧国产大模型之间的竞争。在文心一言、Kimi、智谱清言、腾讯混元等对手的夹击下,通义千问能否守住国产第一的位置,还需要时间来检验。但可以确定的是,这种良性竞争将推动整个国产AI行业持续进步。

    结语

    回望通义千问的三年进化历程,从最初70亿参数的小模型,到今天文本视觉双榜登顶的旗舰系列,阿里用实际行动证明了中国AI企业的创新潜力。Qwen3.7的发布,不仅是一款新产品的亮相,更是国产大模型在全球AI竞争版图上刻下的一个新坐标。

    当然,排名只是一个维度,真正的较量还在于技术创新的深度、商业落地的广度、以及产业生态的厚度。在这个日新月异的行业里,没有谁能永远站在榜首。但有一点是确定的:只要持续创新、持续进化,机会就永远在前方等着。

    对于中国AI行业而言,Qwen3.7或许只是一个新起点。下一个三年,我们期待看到更多国产力量的崛起,见证中国AI从追赶者成长为真正的领跑者。

    术语表

    LMArena:全球知名AI模型评测平台,通过众包测试方式对各大语言模型进行能力评估,是目前最具公信力的AI模型排行榜之一。

    多模态(Multimodal) :指能够处理和理解多种类型数据(如文本、图像、音频、视频)的人工智能模型能力。

    API调用:应用程序编程接口调用,指开发者通过程序接口使用云端AI模型服务的方式。

    Token:语言模型处理的最小单位,一次API调用消耗的token数量决定计费金额。

    延伸阅读

  • AI三巨头密集冲刺IPO:SpaceX、OpenAI、Anthropic引爆资本市场的6个月窗口期

    AI三巨头密集冲刺IPO:SpaceX、OpenAI、Anthropic引爆资本市场的6个月窗口期

    2026年的夏天,全球资本市场将见证一场史无前例的”AI IPO超级周期”。从6月到10月,SpaceX、OpenAI、Anthropic三家估值总计超过3万亿美元的AI巨头将密集登陆资本市场。这不仅是人工智能行业商业化成熟度的里程碑式检验,更将深刻重塑全球科技产业的竞争格局与资本配置方向。

    一、三家同台:各有各的故事,但都指向同一个未来

    1.1 SpaceX:太空+星链+AI的三驾马车

    SpaceX率先吹响号角。5月22日,这家由马斯克执掌的航天巨头正式递交S-1招股书,目标估值高达1.75至2万亿美元,计划融资750亿美元,股票代码SPCX,6月4日启动路演,6月12日正式登陆纳斯达克。

    这份招股书的特殊之处在于,SpaceX早已不是单纯的火箭发射公司。翻开其业务版图,三大核心板块清晰可见:太空发射服务、Starlink星链宽带网络,以及与AI算力紧密相关的数据中心与太阳能供电基础设施。

    SpaceX的IPO文件显示,其Starlink业务已覆盖全球99%的人口,月活跃用户突破9亿。更值得关注的是,SpaceX正在得克萨斯州建设一座10GW的光伏工厂,单层产能5GW,专供星链与AI算力中心,2028年正式投产。这意味着SpaceX正在悄然转型为AI基础设施的重要提供者。

    FAA文件还披露了SpaceX更为宏大的野心:2031年前实现年发射1万次,同步构建百万颗卫星星座。SpaceX CEO埃隆·马斯克此前在”富足峰会”上更是大胆预测,2030年AI将与全行业深度融合,而SpaceX正在为此储备太空基础设施能力。

    1.2 OpenAI:从非营利到万亿市值的惊险一跃

    几乎与SpaceX同步,OpenAI也加速了IPO步伐。据CNBC、Reuters、Axios等多家权威媒体一致报道,OpenAI最快于5月22日向SEC秘密提交招股书,由高盛和摩根士丹利等顶级投行承销,瞄准9月上市,当前私募估值8520亿美元,IPO目标可能冲击1万亿美元,有望成为史上最大科技IPO。

    OpenAI的财务数据为其估值提供了支撑。2026年Q1营收达57亿美元,同比增长210%,领先Anthropic近10亿美元,年化收入运行率已达250亿美元。增长的核心驱动力来自Codex编码助手及企业级销售业务的爆发式增长。

    值得注意的是,OpenAI已扫清关键法律障碍。就在本月,马斯克诉OpenAI案败诉,为其上市之路扫除了最后一个重大不确定性。OpenAI从此前的非营利组织架构,逐步转型为商业化公司,这场持续数年的法律拉锯战终于尘埃落定。

    1.3 Anthropic:后起之秀的商业化逆袭

    在这场IPO竞赛中,Anthropic虽然起步最晚,却展现出令人惊讶的盈利能力和增长势头。

    最新披露的财务数据显示,Anthropic在2026年Q2预计收入达109亿美元,环比增长130%,运营利润约5.59亿美元——这是公司历史上首次季度盈利。更令人瞩目的是,其年化收入运行率已从去年底的约90亿美元飙升至436亿美元,超越OpenAI的250亿美元年化收入运行率。

    Anthropic的增长核心驱动力正是Claude Code及其开发者生态。其消费超百万美元的企业客户数量从500家翻倍至1000家以上。前沿AI公司”必然亏损”的传统叙事被Anthropic彻底打破,直接改写了整个AI行业的商业模式预期。

    更重磅的是,Anthropic已与SpaceX签署为期三年、总金额高达450亿美元的算力合作协议,获得SpaceX算力支持Claude AI的同时,还获得微软Maia芯片服务器资源。这份天价算力协议既彰显了Anthropic对未来的信心,也为其备战GPT-5竞争储备了足够的弹药。

    三巨头财务估值对比插图 数据分析

    二、数据对决:财务质量的深度对比

    三家公司的招股书数据交织在一起,构成了一幅复杂的竞争图景。深入剖析这些数据,能更清晰地看清各家的实力底色与潜在风险。

    表格

    公司目标估值年化收入Q2营收预测核心增长引擎主要承销商
    SpaceX1.75-2万亿美元未披露未披露星链+太空+AI基础设施高盛、摩根大通等
    OpenAI8520亿美元(私募)250亿美元Q1:57亿美元Codex+企业销售高盛、摩根士丹利
    Anthropic估值飙升中436亿美元Q2:109亿美元Claude Code+开发者生态未披露

    从这份对比表中可以清晰看出三个关键信号:

    首先,Anthropic在财务质量上已实现对OpenAI的反超。436亿美元年化收入运行率远超OpenAI的250亿美元,且首次实现季度盈利,这打破了AI公司”烧钱换增长”的传统印象。

    其次,SpaceX的估值逻辑与传统AI公司截然不同。其估值更多基于太空基础设施的垄断地位与星链网络的扩张潜力,而非单纯的AI业务规模。

    第三,三家公司都在积极储备算力资源。OpenAI与微软深度绑定,Anthropic豪掷450亿美元锁定SpaceX算力,算力正在成为AI公司IPO估值的核心锚点。

    三、产业变局:AI IPO浪潮的三重深远影响

    3.1 资本结构重塑:从VC驱动到二级市场定价

    三大AI巨头密集IPO,意味着AI产业的定价权正从一级市场向二级市场转移。在此之前,OpenAI最新一轮估值约3000亿美元,Anthropic估值约900亿美元,这些数字由少数风投机构拍板决定。

    一旦上市,股价将由数百万投资者的交易行为实时定价,流动性大幅提升的同时,估值波动也可能更加剧烈。这对于整个AI行业的资本获取成本、企业战略决策乃至于人才激励都将产生深远影响。

    更值得关注的是,AI公司上市潮可能引发连锁反应。软银已获得400亿美元过桥贷款,其中超过90%资金追加投资OpenAI;Anthropic的450亿美元算力协议某种程度上也是”未来收益的提前变现”。这意味着,AI IPO不仅是公司层面的融资行为,更可能重塑整个VC/PE行业的投资逻辑。

    3.2 竞争格局固化:数据飞轮与资本壁垒的双重碾压

    三大巨头率先上岸,意味着AI行业的竞争格局将进一步固化。上市后获得的充沛资本,将使其在算力储备、人才争夺、模型研发上形成更大的领先优势。

    OpenRouter的最新数据揭示了一个令人警醒的趋势:目前中国AI模型占OpenRouter使用量的60%以上,但成本仅为美国模型的1/9。Databricks CEO指出,完成同一套10项标准评估,Claude成本4811美元,DeepSeek仅1071美元,智谱GLM更是低至544美元。

    Anthropic在政策文件中坦承:”美国AI模型仅领先中国’几个月’。”但IPO带来的资本优势,可能为美国AI公司争取到关键的追赶时间窗口。届时,”今天的开发者采用就是18个月后的企业采用”——现在选择DeepSeek和Kimi的工程师,可能就是2027年架构企业AI基础设施的同一批人。

    3.3 监管挑战:上市公司身份的双刃剑效应

    上市带来资本的同时,也带来了更严格的监管审视。AI公司向来在数据隐私、算法偏见、安全风险等问题上承受巨大压力,上市公司的身份将使这些监管挑战进一步放大。

    中国国家多部委近日联合印发的《智能体规范应用与创新发展实施意见》,明确要求智能体的研发与应用必须将”安全、可靠、可信”嵌入技术底层。这份中国首份针对智能体领域的系统性顶层设计文件,或许也为全球AI监管提供了某种参照。

    可以预见,上市后的OpenAI、Anthropic将面临更密集的监管问询与舆论监督。如何在商业化狂奔的同时保持技术安全性与伦理边界,将成为这些公司最重要的治理命题之一。

    四、冷静思考:繁荣背后的隐忧与风险

    在AI IPO浪潮的喧嚣之下,仍有一些关键问题值得警惕。

    首先是估值泡沫风险。以SpaceX为例,1.75-2万亿美元的估值相当于苹果市值的80%以上,但其AI相关业务的收入占比仍不清晰。如果资本市场对”AI叙事”过于乐观,可能导致上市后估值大幅回调。

    其次是技术路线的不确定性。三家公司的核心业务都高度依赖大语言模型的能力演进,而模型能力的瓶颈何时到来、下一代技术路线是否会颠覆现有优势,这些问题目前都没有明确答案。

    第三是地缘政治风险的放大效应。AI公司天然具有跨国数据流动的特征,而当前中美科技博弈日趋激烈,上市公司身份可能使这些公司更容易成为监管目标。

    最后,也是最根本的:这些公司的AI产品,是否真的创造了与估值相匹配的社会价值?OpenAI刚刚宣布其推理模型攻克了80年未解的数学难题,Anthropic的Claude Code正在重塑软件开发行业,这些技术突破能否持续转化为稳定的商业回报,仍需时间检验。

    结语:站在AI资本化浪潮的潮头

    2026年5月的AI IPO超级周期,本质上是对AI产业商业化成熟度的一次集体检阅。SpaceX、OpenAI、Anthropic三家公司的同台竞技,不仅将创造史上最大规模的科技IPO集群,更将深刻重塑全球AI产业的竞争规则与资本流向。

    对于关注AI产业的投资者和从业者而言,接下来的六个月将是观察窗口:谁的财务数据能够支撑估值?谁能在激烈的竞争中保持技术领先?谁又能在商业化狂奔的同时守住安全底线?

    答案将在接下来的路演与财报中逐步揭晓。而我们,正站在这场AI资本化浪潮的潮头,见证历史正在发生。

  • 亚二次注意力架构革命:Subquadratic如何破解Transformer的二次方诅咒

    亚二次注意力架构革命:Subquadratic如何破解Transformer的二次方诅咒

    正文

    一、被”二次方诅咒”困住的大模型

    如果你关注过大模型的技术进展,会发现一个有意思的现象:参数规模在膨胀,上下文窗口在膨胀,但有个东西始终在”拖后腿”——计算复杂度。

    这背后是个老生常谈的问题:注意力机制的二次方复杂度

    简单来说,当你的上下文从1万个token扩展到100万个token时,Transformer需要进行的计算量会增加100倍,而不是10倍。这种”暴脾气”的增长曲线,让长上下文处理成为了一场算力军备竞赛。

    企业想处理一本《战争与和平》的完整上下文?要么掏巨额算力费用,要么面对慢到令人发指的响应时间。这就是所谓的”二次方诅咒”。

    2026年,这个诅咒正在被打破。

    二、Subquadratic的破局思路

    总部位于迈阿密的初创公司Subquadratic发布了一项引人注目的技术突破——SSA(Subquadratic Selective Attention,亚二次选择性注意力)架构

    这个架构的核心思路说起来并不复杂:不是所有token都需要被同等关注

    传统Transformer对每个token都进行全局注意力计算,即使某些token与当前任务完全无关。相比之下,SSA引入了选择性机制,让模型学会”该看哪里”。

    具体实现上,SSA采用了几项关键技术:

    稀疏注意力模式:通过动态评估token之间的相关性,只对高价值token对进行精细计算,跳过低相关区域。这不是简单的随机采样,而是基于语义关联度的智能筛选。

    线性增长内存管理:传统注意力需要存储完整的注意力矩阵(n×n),SSA则通过流式处理和增量更新,将内存占用控制在O(n)级别。

    硬件友好设计:SSA的算法结构对现代GPU/TPU的并行计算特性做了优化,避免了稀疏操作常见的”内存跳跃”问题。

    三、实测数据:52倍速提升意味着什么

    Subquadratic公布的基准测试结果相当震撼:

    100万token的场景下,SSA的运行速度比传统稠密注意力快了52倍。这不是实验室里的理想环境数据,而是接近实际部署的测试结果。

    更值得关注的是1200万token窗口下的表现。在这个量级,传统Transformer几乎已经”动弹不得”,而SSA的”大海捞针”检索准确率仍然达到了92.1%

    作为对比,在同等条件下,OpenAI的GPT-5.5模型的表现也相当不错,但SSA在超长上下文任务中展现出了明显的优势。

    这意味着什么?

    以一个实际的场景为例:法律文档分析。一份复杂的商业合同可能包含数万条条款、数十个附录,涉及数百个实体的定义和引用关系。用传统模型处理,需要等待数十秒甚至更长时间;用SSA架构,响应时间可以压缩到秒级。

    三种长上下文注意力方案对比插图

    四、竞争格局:不是一个人在战斗

    SSA并非孤军奋战。2026年的长上下文推理优化赛道,已经呈现出多点开花的态势。

    DeepSeek V4的混合注意力机制

    4月底发布的DeepSeek V4,将混合注意力作为核心技术卖点。其稀疏注意力与重度压缩注意力的组合设计,在100万token场景下实现了计算量降低73%、KV缓存占用降至10% 的突破。

    不同于SSA的”选择性跳过”思路,DeepSeek V4更像是”智能压缩”——不是跳过计算,而是用更少的资源完成等效计算。

    腾讯混元Hy3的快慢思考融合

    腾讯混元Hy3采用了另一种策略:快慢思考融合的MoE架构。总参数2950亿,但单次推理只激活210亿。

    这套架构的设计哲学是”让专业的专家处理专业的问题”——简单任务调用”快专家”快速响应,复杂推理启动”慢专家”深度处理。

    首次响应速度提升54%,任务平均完成时间缩短40%以上。

    三种方案的对比

    表格

    方案核心思路100万token加速超长上下文表现适用场景
    Subquadratic SSA选择性注意力52倍1200万token/92.1%超长文档分析
    DeepSeek V4混合压缩3.4倍100万token/高准确通用长文本
    混元Hy3 MoE动态路由2倍100万token/高效实时交互

    三种方案各有侧重,没有绝对的优劣之分。选择取决于具体业务场景的优先级。

    五、技术深一度:为什么是现在

    SSA的出现并非偶然。它是多个技术趋势汇合的产物。

    稀疏计算硬件成熟:英伟达的Ampere和Hopper架构引入了对稀疏张量运算的原生支持,使得”选择性跳过”不再是性能陷阱。

    kv-cache工程化突破:过去几年,KV缓存管理从理论研究走向工程成熟,为SSA的线性内存占用提供了基础设施保障。

    应用需求的倒逼:大模型落地过程中,企业发现长上下文处理是刚需。法律、医疗、金融、代码生成……这些场景天然需要处理大量上下文。需求端的压力,推动了供给端的技术突破。

    学术与产业的协同:Subquadratic的SSA论文引发了学术界跟进,而DeepSeek等大厂的技术方案也在被学术界研究。这种双向流动加速了技术迭代。

    六、落地展望:谁会是第一批受益者

    技术突破的价值,最终要靠落地场景来兑现。

    法律行业:合同审查、判例分析、法律法规检索。律师和法务人员每天处理大量长文档,SSA带来的效率提升可以直接转化为生产力。

    医疗领域:病历分析、医学文献综述、药物相互作用查询。医疗场景对准确性要求极高,长上下文的稳定表现是关键。

    代码开发:大型代码库的语义分析、跨文件依赖理解、遗留代码重构。软件开发正变得越来越复杂,长上下文能力直接影响AI辅助编程的效果。

    学术研究:论文综述、跨领域知识整合、实验数据分析。研究者需要处理大量文献资料,长上下文能力可以大幅提升研究效率。

    金融分析:招股说明书分析、行业报告综合研判、财务数据横向对比。金融场景文档长度惊人,处理效率直接影响决策速度。

    七、挑战与展望

    SSA并非万能解药。

    精度与速度的权衡:选择性跳过必然带来信息损失。SSA在多数任务上表现优异,但在某些需要全局信息的任务上,极端稀疏可能导致关键信息遗漏。Subquadratic正在通过自适应阈值机制来缓解这个问题。

    硬件适配成本:SSA的特殊算法结构需要针对性地优化编译器和运行时。目前仅支持主流GPU平台,对国产芯片的适配还在进行中。

    规模化部署:实验环境下的性能表现不代表大规模生产环境同样出色。高并发、分布式部署等场景下的稳定性有待验证。

    尽管如此,SSA代表的方向值得关注:不是用更多的算力解决问题,而是用更聪明的算法解决问题

    当AI行业从”暴力堆参数”转向”效率优先”,这类技术突破的价值会更加凸显。

    八、写在最后

    回顾大模型的发展历程,注意力机制的二次方复杂度曾被视为”理所当然”的限制。Transformer的成功建立在它之上,但它的代价也在累积。

    Subquadratic SSA的出现,是一个信号:这个行业正在学会用更聪明的方式处理复杂问题

    52倍速提升只是开始。当亚二次注意力、混合压缩、动态路由这些技术路线不断演进,长上下文的成本会持续下降,更多场景会被解锁。

    法律文书、医疗记录、商业合同、代码库……这些曾经”太长”的内容,很快就会变得”刚刚好”。

    这不是关于一个公司的技术突破,而是关于整个行业效率革命的又一步。

    参考资料

    • Subquadratic SSA技术白皮书(2026年5月)
    • DeepSeek V4技术报告
    • 腾讯混元Hy3 Preview发布公告
    • OpenRouter平台基准测试数据
  • 马斯克诉OpenAI案败诉:AI治理与商业化的首次法律裁决

    马斯克诉OpenAI案败诉:AI治理与商业化的首次法律裁决

    引言

    2026年5月18日上午11点50分,硅谷奥克兰联邦法院的气氛紧张而凝重。经过三周激烈庭审、数百份证据梳理、数十位证人轮番作证后,9人陪审团进入闭门评议室。所有人预计这场涉及1500亿美元索赔、被称为”AI世纪审判”的案件至少需要数天才能得出结论。

    然而,仅90分钟后,结果便已出炉。

    陪审团作出高度一致的裁决:马斯克对OpenAI及其CEO萨姆·奥尔特曼、联合创始人格雷格·布罗克曼的所有诉讼请求均被驳回,理由是诉讼时效已过。主审法官伊冯·冈萨雷斯·罗杰斯当场宣布完全接受陪审团意见,正式驳回案件。

    当这个结果在法庭上宣读时,一个令人意外的事实浮出水面:这场世纪大案的三位主角——马斯克、奥尔特曼、布罗克曼,没有一个人出现在法庭里。1500亿美元官司的宣判时刻,原告和被告集体缺席。

    这不仅是马斯克的个人败诉,更是AI行业治理层面一次标志性的事件。它首次通过法律程序直面了AI企业在快速发展过程中面临的核心困境:如何平衡最初的理想主义愿景与商业可持续性?非营利使命与利润追求是否能够共存?谁有权定义AI的”公共利益”属性?

    虽然陪审团因程序问题回避了实质裁决,但庭审过程中曝光的大量细节——私人邮件、内部会议记录、各方证词——已经勾勒出一幅AI行业发展的真实图景,为我们理解这场纷争的深层逻辑提供了宝贵的素材。

    案件背景:从志同道合到分道扬镳

    2015年,当马斯克、奥尔特曼和布罗克曼在硅谷共同创立OpenAI时,这家公司被明确定义为非营利组织。其使命宣言直白而纯粹:”为了全人类的利益,以安全的方式发展友好的人工智能,避免被单一垄断者控制。”当时,谷歌在AI领域的技术领先地位让业界感到担忧,OpenAI的诞生被视为对抗垄断、确保AI技术开放共享的重要举措。

    作为主要捐助者,马斯克在OpenAI的早期投入了约3800万美元。更重要的是,他利用自己的个人声誉招揽了包括伊利亚·萨斯克维尔在内的顶级AI科学家,为这家初创机构打下了坚实的人才基础。那个时候,马斯克、奥尔特曼和布罗克曼三人频繁出现在各大科技论坛,言谈之间充满了理想主义的光辉。他们反复强调,OpenAI的存在不是为了赚钱,而是为了确保AI这一可能改变人类命运的技术能够被善意地、公平地发展。

    转折点出现在2017年夏天。当时,OpenAI开发的AI在Dota 2游戏中击败了全球顶级玩家,这被视为技术能力的一次重要验证。马斯克随即发出邮件:”是时候迈出下一步了。这是触发事件。”他把核心团队叫到了自己在南湾那栋1.6万平方英尺的豪宅,圈内人称”鬼屋”。

    布罗克曼在庭审证词中回忆了那个场景:一进门就看到满地都是前一晚派对留下的彩纸碎屑和塑料杯。就在这个派对残局的客厅里,OpenAI走向营利化的讨论正式启动了。

    为什么会有这次讨论?根本原因是成本。随着AI技术发展,训练更强大模型的成本呈指数级增长。从 donations 几千万美元的年度预算,到单次训练就需要数亿美元的规模,非营利组织的资金来源完全无法支撑。马斯克在2017年12月的邮件中写道:”OpenAI需要数亿美元,而当时每年只有几千万美元的捐款远远不够……我们需要一个营利性结构。”

    然而,分歧随之而来。马斯克提出了自己的解决方案:将OpenAI并入特斯拉,成为其附属品。他在2018年2月发给奥尔特曼的邮件中表示:”特斯拉是唯一有可能与谷歌抗衡的载体……OpenAI应该成为特斯拉的附属品。”这个提议背后的逻辑很明确:特斯拉有足够的现金流和计算资源,可以支撑OpenAI的研发需求。

    但奥尔特曼和布罗克曼拒绝了。他们担心OpenAI若被马斯克个人控制,就失去了当初”不被单一垄断者控制”的初衷。坚持股权均等、保持独立运营,成了他们的底线。这个分歧最终演变成激烈的冲突,马斯克当场动怒,随后愤然退出董事会并撤资。在离开时,他留给OpenAI的最后一句话是预言式的:”成功的概率为0%。

    此后,OpenAI走上了一条与马斯克设想完全不同的道路。2019年,OpenAI设立了营利性分支,采用”利润上限”模式,规定投资者可以获得一定倍数的回报,但超出部分归非营利基金会所有。这个设计试图在商业可持续性与初心使命之间寻找平衡。2020年至2023年间,OpenAI接受了微软累计130亿美元的投资,GPT系列模型接连问世,ChatGPT的全球爆发更是让这家曾经默默无闻的非营利机构一举成为估值超过8500亿美元的科技巨头。

    随着OpenAI的成功,马斯克的不满日益加剧。他多次公开批评OpenAI已沦为微软的”闭源附属品”,只顾牟利而忽视安全。2024年2月,马斯克正式在旧金山法院起诉OpenAI及其高管,指控其违反了”创始协议”,要求恢复非营利和开源初衷,并提出高达1500亿美元的损害赔偿诉求。

    庭审攻防:证据曝光与信任崩塌

    2026年4月27日,这场被称为”AI世纪审判”的案件在加州奥克兰联邦法院正式开庭。在主审法官伊冯·冈萨雷斯·罗杰斯的主持下,双方展开了为期三周的激烈交锋。

    庭审的第一周,马斯克亲自出庭作证。他在证人席上连续坐了三天,试图塑造一个”被骗的慈善家”形象。”没有我就没有OpenAI”,马斯克开门见山地说道,语气中带着难以掩饰的愤怒。他指控奥尔特曼通过股权安排”非法掠夺”了本该属于全人类的财富,将OpenAI商业转型获取暴利的行为尖锐地比喻为”偷窃慈善机构”。

    然而,第二周庭审的走向完全超出了马斯克的预料。OpenAI的律师团开始展示大量内部文件,其中最致命的是马斯克自己的邮件往来。这些白纸黑字的证据,将马斯克描绘成一个完全不同的形象——一个不仅知晓、甚至主动推动OpenAI商业化,只是因为没能掌握控制权才翻脸的参与者。

    2017年12月的邮件中,马斯克明确写道:”OpenAI需要数亿美元,而当时每年只有几千万美元的捐款远远不够……我们需要一个营利性结构。”这封邮件直接否定了马斯克在诉讼中主张的”OpenAI违背初心”的指控。

    2018年2月的邮件更进一步,马斯克提议:”特斯拉是唯一有可能与谷歌抗衡的载体……OpenAI应该成为特斯拉的附属品。”这表明,马斯克并非反对商业化本身,而是反对不能由自己控制的商业化。

    更让马斯克难堪的是,布罗克曼在证词中详细回忆了2017年8月的那次关键会议。几名联合创始人在马斯克刚送出特斯拉汽车后,商议OpenAI转型经营机构相关事宜。布罗克曼透露,马斯克坚持要求获得OpenAI的多数股权和完全控制权,而当多名合伙人仍坚持股权均等后,此举引得马斯克当场动怒。

    布罗克曼还在作证时提到,马斯克对AI技术的认知存在严重局限。当马斯克初次接触GPT-1时十分不屑,直言”普通网友都能做出更好的成果”,令当时早期员工备受打击。而这款模型正是日后ChatGPT相关技术的早期雏形。”他懂火箭,他懂电动车,但他不懂——我认为至今仍不懂——人工智能。”布罗克曼的这句话,在庭审现场引发了不小的轰动。

    第三周,萨姆·奥尔特曼登上证人席。与马斯克的激烈情绪不同,奥尔特曼保持着相对冷静的姿态,但他同样毫不客气地批评了马斯克的领导风格,称其”非此即彼”、情绪易失控。奥尔特曼将自己定位为一位为了拯救使命而向现实妥协的执行者:”OpenAI是一家非营利使命驱动的组织,过去如此,将来也会如此。我们接受微软的投资、设立营利性分支,都是为了获得足够的资源去实现那个初心。”

    庭审过程中,一个不容忽视的事实是:即便是在OpenAI阵营内部,对奥尔特曼个人的信任也并不充分。多名证人当庭直言奥尔特曼为人失信。OpenAI公司前首席技术官米拉·穆拉蒂作证称,奥尔特曼还曾在涉及AI模型的安全审查问题上对她说谎。当被问到”你是否完全值得信任”时,奥尔特曼甚至都没能说出一个干脆的”是”。

    这些证词让这场诉讼呈现出一种复杂的图景:马斯克指控OpenAI背叛初心,但证据显示他自己也支持商业化;OpenAI强调初心未变,但内部证词暴露了治理层级的信任危机。这不再是一个简单的”对与错”的故事,而是一个关于AI行业如何在理想与现实、公益与利益、信任与控制之间艰难平衡的复杂叙事。

    判决结果:90分钟的全票驳回

    2026年5月18日上午10点23分,庭审进入尾声阶段。9人陪审团开始闭门评议,按照正常流程,这样复杂的案件至少需要数天才能得出结论。

    然而,仅仅90分钟后,结果便已出炉。陪审团作出高度一致的裁决:马斯克对OpenAI及其CEO萨姆·奥尔特曼、联合创始人格雷格·布罗克曼的所有诉讼请求均被驳回。

    判决的核心原因非常明确:诉讼时效已过。

    加州法律规定,违反慈善信托的诉讼时效是”三年”,不当得利的诉讼时效是两年。OpenAI的律师团成功证明了马斯克早在2021年就已经知道OpenAI转型营利的事实——他自己发过短信给奥尔特曼,写着”我很不安看到OpenAI有200亿美元的估值”、”这是挂羊头卖狗肉”。这些短信的发送时间是2022年底到2023年初。但马斯克直到2024年2月才提起诉讼。

    陪审团认定,时效已过,诉讼太晚。马斯克在法庭上解释说,他一直相信奥尔特曼的保证,直到2023年微软100亿美元的投资落地,他才意识到”营利部门才是尾巴摇狗”。”以为有人可能偷你的车,和有人真的把车偷走了,不是一回事,”马斯克在证人席上说。”如果我早知道他们偷了慈善机构,我早就告了。”

    但陪审团不买账。因为诉讼时效这道程序性门槛,陪审团根本没有进入实质性审理。也就是说,马斯克指控的三大核心罪名——”违反慈善信托”、”不当得利”、”微软协助教唆”,一条都没有被正式讨论。

    判决宣布后,马斯克在社交媒体X上发文表达不满,称法庭判决是一项”技术性裁决”,仅考虑诉讼时间这类程序性问题,未触及案情实质。他强调奥尔特曼和布罗克曼”实际上是通过窃取一家慈善机构获利”,并表示将继续向美国联邦第九巡回法院提起上诉。

    然而,主审法官罗杰斯的态度让马斯克的上诉之路阻力重重。罗杰斯认为,诉讼时效是否届满属于事实认定问题,想翻盘极难。她当场宣布完全同意陪审团的意见,并正式驳回了马斯克的诉讼。

    OpenAI首席律师威廉·萨维特在判决结果公布后发表声明,称马斯克发起这一诉讼”只是企图损害竞争对手”。他表示,法庭的判决是陪审团听取了数周的证词、查阅了数百份证据后所得出的结论,并认为原告方是在”讲故事”而非”陈述事实”。

    微软也迅速发了声明:”本案的事实和时间线早就是明摆着的了,我们欢迎陪审团以超时为由驳回这些指控。”

    这场判决的意义远不止于个案胜负。它为OpenAI扫清了IPO路上最大的法律障碍。据此前报道,OpenAI正在为首次公开募股(IPO)做准备。此次IPO可能使该公司估值高达1万亿美元,有望造就科技史上规模最大的IPO之一。

    法律诉讼插图,法庭场景邮件文件矩阵设计

    行业启示:AI治理的复杂困境

    虽然陪审团因程序问题回避了实质裁决,但马斯克诉OpenAI案对AI行业的启示意义是深远的。它首次通过法律程序将AI行业治理中的一些核心议题推到了聚光灯下。

    理想主义与商业可持续性的张力

    OpenAI创立之初的愿景是理想主义的——以非营利形式确保AI技术造福全人类。然而,现实很快给出了残酷的答案:训练强大的AI模型需要巨额资金投入,单纯依靠捐款无法支撑。从几千万美元的年度预算到单次训练数亿美元的成本规模,OpenAI面临的选择只有两个:要么放弃技术前沿的追逐,要么引入商业化机制。

    OpenAI选择了后者。它创造的”利润上限”模式——投资者可以获得一定倍数的回报,但超出部分归非营利基金会所有——试图在商业可持续性与初心使命之间寻找平衡。这个设计是精巧的,但也带来了新的问题:谁来监督”利润上限”的执行?非营利基金会是否真正能够控制营利性分支?当商业利益与初心使命发生冲突时,哪一方占据上风?

    这些问题在本案中都没有得到明确解答,但它们已经成为AI行业普遍面临的困境。越来越多的AI初创公司开始思考如何在保持理想主义愿景的同时,找到可持续的商业模式。OpenAI的实践——以及本案的曝光——为后来者提供了宝贵的经验教训。

    控制权与治理结构的博弈

    庭审过程中暴露的另一个核心问题是控制权。马斯克之所以最终与OpenAI分道扬镳,根本原因是他无法接受OpenAI不由自己控制的现实。从要求多数股权到提议将OpenAI并入特斯拉,马斯克的提议背后是清晰的逻辑:只有获得完全控制权,才能确保AI技术按照自己的愿景发展。

    但OpenAI的创始团队拒绝了。他们坚持股权均等、独立运营,这源于对”不被单一垄断者控制”的初心坚持。然而,这个坚持也带来了新的问题:没有强有力的控制者,如何确保公司不会偏离初心?当多方利益相关者同时参与决策时,治理效率如何保障?

    AI技术的特殊性在于,它可能对人类社会产生深远影响。因此,很多人认为AI公司应该有比普通企业更严格的治理结构。但什么样的治理结构才是合适的?是像马斯克主张的那样由某个个人控制,还是像OpenAI现在这样由董事会、基金会、投资者多方制衡?本案没有给出答案,但它让这个问题变得更加紧迫。

    开源与闭源的战略摇摆

    庭审过程中还暴露了OpenAI在开源与闭源之间的战略摇摆。创立之初,OpenAI承诺将技术开源共享,避免被单一垄断者控制。然而,随着与微软合作的深入,OpenAI最先进的技术逐渐转向闭源,成为商业竞争力的核心组成部分。

    这种摇摆是整个AI行业的缩影。Meta发布了Llama 4 Ultra等开源模型,但同时又在筹划闭源的Muse Spark;阿里、百度等中国厂商在开源社区活跃,但最先进的技术仍然保留在闭源体系中。开源能推动生态繁荣,但难以形成商业闭环;闭源能构建护城河,但可能错失社区创新的红利。

    OpenAI在本案中强调,它仍然是”使命驱动的组织”,营利性分支的利润最终会回归非营利基金会。但这个承诺如何落地?如何确保商业利益不会侵蚀开源承诺?这些问题需要更长的时间来检验。

    公共利益与私人利益的界定

    马斯克在本案中的核心主张是,OpenAI的巨大价值应该属于”全人类”,而不是少数创业者。这个主张触及了一个更根本的问题:AI技术的利益应该如何分配?

    从法律角度看,OpenAI作为一家由创始人创立、投资者支持的公司,其股权价值归股东所有并无不当。但从社会角度看,AI技术可能对人类产生深远影响,其社会价值远超股东投入的资本。如何在这两者之间找到平衡?是否应该对AI公司的超额收益征收特殊税赋?是否应该要求AI公司以某种形式回馈社会?

    这些问题已经超出了个案的范畴,成为AI时代需要全社会共同思考的命题。

    结语:争议远未结束

    2026年5月18日,马斯克诉OpenAI案以马斯克败诉告终。但这场诉讼所触及的议题——AI治理、商业化边界、公共利益分配——远未得到解答。

    陪审团以诉讼时效为由回避了实质裁决,这从法律程序上是严谨的,但从行业发展的角度看,这些核心问题仍然悬而未决。马斯克已表示将继续上诉,虽然法官的态度让翻盘希望渺茫,但上诉过程本身可能会让更多细节浮出水面。

    更重要的是,这场诉讼已经产生了实际的行业影响。它让AI创业者开始认真思考公司的治理结构、商业模式和初心使命之间的平衡。它让投资者更加关注AI公司的合规风险和长期可持续性。它也让监管机构意识到,AI行业的健康发展需要更完善的法律框架和治理规范。

    OpenAI即将进行的万亿级IPO,将是这场纠纷的下一个重要节点。如果IPO成功,OpenAI将成为有史以来规模最大的上市公司之一。届时,公众的目光将从诉讼转向这家公司的实际运营:它是否真正能够兑现”造福全人类”的承诺?它是否能够在商业成功的道路上不忘初心?

    这些问题的答案,将决定AI行业未来的发展轨迹。马斯克诉OpenAI案或许已经落幕,但AI治理的探索才刚刚开始。

    参考来源

    1. 新华网:《马斯克诉OpenAI一案败诉》(2026-05-19)
    2. 美联社:《Federal court rejects Elon Musk’s claims against OpenAI》(2026-05-18)
    3. 环球时报:《裁定超过诉讼时效,马斯克诉OpenAI一案败诉》(2026-05-20)
    4. 财联社:《”世纪审判”终于有结果:马斯克诉OpenAI因超时效败诉》(2026-05-19)
    5. 36氪:《OpenAI世纪诉讼,马斯克输了》(2026-05-19)

  • OpenAI三款实时语音模型齐发:语音AI进入“接口化”时代

    OpenAI三款实时语音模型齐发:语音AI进入“接口化”时代

    一、三款模型:各司其职的语音矩阵

    1.1 GPT-Realtime-2:内置GPT-5级别推理的旗舰

    GPT-Realtime-2是本次发布的旗舰产品,定位为”推理增强型语音接口”。与传统的语音识别+大模型文字处理+语音合成的级联架构不同,GPT-Realtime-2采用端到端的语音推理范式——语音信号直接进入模型,绕过ASR(自动语音识别)和TTS(语音合成)的中间环节。

    这种架构带来的核心优势在于两点:延迟与理解深度。传统方案的语音处理链路通常需要经历”语音→文字→语义理解→生成→语音”四个环节,每个环节都会累积延迟。端到端模型则将这一链路压缩至一个处理节点,端到端延迟可以控制在500毫秒以内,接近人类对话的响应节奏。

    更深层的变化在于理解能力。GPT-Realtime-2内置了GPT-5级别的推理引擎,这意味着它不仅能识别”说了什么”,更能推理”为什么这样说”以及”用户真正想要什么”。在演示案例中,测试者用带有讽刺语气的语音提问,模型准确识别出了讽刺意图并给出了恰当的回应。这种情感理解能力在此前的语音模型中几乎是空白。

    128K的上下文窗口是另一个关键参数。考虑到人类对话的平均长度,这个上下文容量足以支撑一场完整的面试、一次深度的心理咨询或一段长达数小时的技术咨询。

    1.2 实时翻译模型:打破语言壁垒的利器

    实时翻译模型的定位相对垂直——专注于跨语言语音通信场景。根据OpenAI的技术文档,该模型支持超过50种语言的实时互译,平均延迟低于300毫秒。

    值得关注的是其”语境感知”能力。不同于传统机翻的逐句翻译,这个模型能够理解对话中的指代关系、修辞手法和语气情感,并将其体现在翻译结果中。例如,当说话者使用隐喻或俚语时,模型会根据目标语言的文化习惯给出本地化的翻译,而非生硬的直译。

    在技术架构上,实时翻译模型采用了类似于GPT-Realtime-2的端到端设计,避免了”语音→识别→翻译→合成”的链路损耗。这让它在会议翻译、旅行交流等需要快速响应的场景中具有明显优势。

    1.3 实时转录模型:从音频到文本的精准桥梁

    实时转录模型是三款产品中技术成熟度最高的,它的定位是会议记录、字幕生成、语音笔记等场景的高质量音频转写工具。

    根据OpenAI公布的技术指标,该模型在标准英语测试集上的词错误率(WER)降至3.2%,处于业界领先水平。更重要的是,它具备说话人分离标点智能补全能力——能够准确区分不同说话人,并在转写文本中自动添加标点和段落划分,省去了后期人工整理的麻烦。

    二、语音AI的技术演进路径

    2.1 从”玩具”到”工具”的十年蛰伏

    回顾语音AI的发展历程,2011年Siri的横空出世曾让人们相信语音交互时代即将来临。然而随后的十余年里,语音助手始终被困在”天气查询、闹钟设置、音乐播放”等有限场景中,难以向更复杂的任务延伸。

    根本原因在于理解能力的瓶颈。传统语音助手依赖关键词匹配和规则引擎,无法处理复杂语义、上下文关联和意图推理。当用户问”帮我取消上次订的机票,除了国航的”这样带有复杂约束条件的请求时,传统系统往往会给出令人啼笑皆非的回应。

    大语言模型的崛起为这一困境提供了解决方案。GPT-4o在2024年首次展示了端到端多模态处理的可行性,而GPT-Realtime-2则将这一能力进一步聚焦于语音场景,形成了真正可用的产品形态。

    2.2 端到端架构:跨越”级联陷阱”

    当前主流的语音AI系统通常采用多阶段级联架构:ASR(语音识别)→NLU(语义理解)→LLM(语言模型)→TTS(语音合成)。这种架构的优势在于各模块可以独立优化,缺点是误差会逐级累积——ASR的一个识别错误可能导致NLU的理解偏差,最终生成错误的响应。

    端到端模型通过将语音信号直接映射为语义表示,消除了中间环节的误差传播。更重要的是,由于模型在训练阶段就接触了完整的语音-语义对应关系,它能够学习到语音信号中的情感、语速、停顿等副语言信息,这些信息在级联架构中往往被丢弃。

    OpenAI此次发布的三款模型,虽然在产品定位上各有侧重,但底层都基于类似的端到端技术路线。这种架构统一性为未来模型的融合升级奠定了基础。

    2.3 推理能力:语音交互的分水岭

    GPT-Realtime-2最引人注目的特性,是它内置了GPT-5级别的推理引擎。在此之前,语音模型的”智能”主要体现在识别准确率上——能把语音转成文字就算完成任务。真正的语义理解和逻辑推理,仍需依赖外部的语言模型处理。

    GPT-Realtime-2将推理能力直接嵌入语音处理链路,意味着语音交互第一次具备了真正的”思考”能力。用户可以用模糊的、带有省略的表达发起请求,模型能够根据上下文补全缺失信息,并进行多步推理后给出答案。

    GPT-Realtime-2语音AI多模态技术架构图

    这种能力对特定行业的价值尤为显著。在法律咨询场景,来访者往往无法准确描述自己的法律问题,可能会用生活化的语言描述复杂的情况。具备推理能力的语音模型能够主动追问、澄清误解,并给出符合法律逻辑的建议——这是此前任何语音助手都无法企及的高度。

    三、市场影响:重新定义语音AI的竞争格局

    3.1 对现有玩家的冲击

    OpenAI三款模型的发布,首先冲击的是专注于语音AI赛道的初创公司。ElevenLabs、AssemblyAI、Deepgram等产品此前在实时语音处理领域占据重要地位,如今面临直接竞争。

    不过,垂直场景仍有差异化空间。ElevenLabs在语音克隆和高保真度语音合成方面积累了独特技术,其产品更适合需要个性化音色的应用场景。OpenAI的通用模型虽然能力强大,但在某些细分场景的优化程度可能不如专业玩家。

    对于苹果Siri、谷歌Assistant、亚马逊Alexa等老牌语音助手而言,GPT-Realtime-2的发布更像是一记警钟。这些产品在过去十年中积累了大量用户数据和场景经验,但在核心技术上已被OpenAI拉开差距。可以预见,主流语音助手将加速引入大模型能力,语音AI赛道的技术淘汰赛正在加速。

    3.2 开发者生态的新机遇

    GPT-Realtime-2等模型的API化,为开发者打开了新的想象空间。通过API接入,开发者可以将强大的语音推理能力嵌入自己的应用,而无需从零训练模型。

    OpenAI此次同步推出的Codex移动端扩展,是另一个值得关注的信号——开发者已经可以在iOS和Android设备上直接使用语音驱动的编程辅助功能。这意味着”随时随地用语音指挥AI写代码”正在从概念走向现实。

    对于企业级用户,三款模型的组合使用可以覆盖多种场景:会议系统可以同时使用转录和翻译模型,客服系统可以接入推理增强的对话模型,内容创作平台可以集成实时语音交互能力。这种模块化的产品矩阵,为不同需求的用户提供了灵活的组合选择。

    3.3 商业模式的可能性

    从商业角度,语音AI的”接口化”带来了全新的变现思路。

    传统的语音AI商业模式主要依赖API调用量收费或订阅制。GPT-Realtime-2的发布让行业看到了更深层的价值——语音交互可以作为超级应用的入口。一旦用户习惯于通过语音与AI系统交互,围绕语音交互构建的广告、电商、增值服务等商业模式将获得生长土壤。

    此外,行业垂直解决方案也具有可观的市场空间。医疗、法律、金融等领域对语音交互的准确性、合规性有特殊要求,具备推理能力的语音AI在这些场景中可以替代部分人工服务,创造显著的成本节约价值。

    四、技术挑战与局限

    4.1 延迟与流畅性的平衡

    尽管端到端架构大幅降低了理论延迟,但实际使用中仍面临挑战。大模型推理本身需要消耗大量计算资源,在高并发场景下,响应延迟可能显著增加。如何在模型规模与响应速度之间取得平衡,是OpenAI需要持续优化的课题。

    流式输出是当前的主流解决方案——模型在推理过程中实时返回部分结果,让用户感知到的等待时间大幅缩短。但流式输出的质量往往不如完整推理结果,OpenAI需要在用户体验与输出质量之间找到最优解。

    4.2 多语言能力的边界

    虽然官方宣称支持超过50种语言,但GPT-Realtime-2在非英语语言上的表现仍有待验证。英语之所以成为大模型的主要训练语料,原因是多方面的——互联网内容以英语为主、高质量标注数据英语占比高、技术文档英语优先。

    对于中文、日文、阿拉伯语等语种,端到端语音模型的识别准确率和语义理解能力可能存在明显短板。OpenAI能否在后续迭代中补齐这些短板,将直接影响其在非英语市场的竞争力。

    4.3 隐私与安全的双重考量

    语音数据包含大量个人信息,包括身份特征、健康状况、情绪状态等敏感数据。如何在提供高质量服务的同时保护用户隐私,是语音AI面临的系统性挑战。

    OpenAI在技术文档中强调了数据处理的安全性设计,包括端侧处理选项、数据加密传输、最小化存储等原则。但在实际部署中,这些承诺能否得到完整落实,仍需时间检验。

    此外,语音合成技术的不当使用可能助长欺诈行为。模仿特定人物声音的”深度伪造”音频已出现多起社会事件,实时语音模型如果缺乏有效的防滥用机制,可能被恶意利用。

    五、未来展望:从交互工具到基础设施

    5.1 语音AI的平台化趋势

    GPT-Realtime-2的发布,标志着语音AI正在从”独立产品”向”基础设施”演进。当语音交互能力可以像API一样被调用和组合,它就不再只是一个功能,而是一个平台。

    这种演进与移动互联网时代的发展轨迹类似。智能手机普及后,摄像头、GPS、陀螺仪等传感器逐渐成为开发者可以调用的能力,催生了扫码支付、AR应用、运动追踪等创新场景。语音AI的平台化将释放类似的创新潜力。

    5.2 多模态融合的下一站

    语音只是人类信息传递的一种形式。未来的AI系统需要融合视觉、触觉、文本等多种模态,才能提供真正自然的交互体验。

    GPT-Realtime-2的端到端架构为多模态融合提供了技术基础。当语音信号可以与视觉信息、文本信息在统一的表示空间中融合处理,AI对人类意图的理解将进入新阶段。想象一个场景:你在展示一件商品时,一边用语音描述其特点,一边用手势指向特定部位,AI系统能够同时理解语音内容、手势含义和商品属性,给出综合性的回应。

    5.3 行业应用的深化路径

    在垂直领域,语音AI的应用潜力远未充分释放。

    医疗场景中,具备推理能力的语音AI可以作为”AI问诊助手”,帮助基层医生完成病史采集、症状分析、初步诊断建议等工作。这不仅能缓解优质医疗资源短缺的问题,还能通过标准化问诊流程减少漏诊误诊。

    教育场景中,语音交互可以让学习过程更加自然流畅。学生可以用口语化的方式提问,AI系统能够理解问题背后的知识缺口,并给出针对性的解释和练习。

    心理健康领域,语音AI的情感识别能力可以用于心理状态监测和危机预警。通过分析语音中的情绪特征,AI系统可以识别出可能存在心理困扰的用户,并提供适当的干预建议或转介专业服务。

    结语

    OpenAI三款实时语音模型的发布,是语音AI发展历程中的一个重要节点。它不仅代表了技术层面的突破,更重要的是传递了一个信号:语音交互正在从”锦上添花的功能”转变为”不可替代的核心能力”。

    对于普通用户,这意味着未来与AI系统的交互将更加自然、便捷。动动嘴就能完成复杂任务的愿景,正在一步步走向现实。

    对于开发者和企业,语音AI的平台化打开了新的创新空间。无论是构建垂直领域的语音应用,还是将语音能力整合到现有产品中,现在都是最佳的入场时机。

    对于整个行业,OpenAI的这一次发布再次证明了一个道理:在AI领域,真正的竞争不在于谁先推出产品,而在于谁能在产品中融入真正有价值的能力。当潮水退去,唯有经得起用户检验的能力,才能在市场中站稳脚跟。

    本文系人工智能网站原创内容,聚焦全球AI大模型最新进展与技术深度解析。

  • Anthropic估值破1.2万亿美元:AI行业竞争格局迎来历史性转折

    Anthropic估值破1.2万亿美元:AI行业竞争格局迎来历史性转折

    2026年5月,全球AI圈迎来历史性转折:长期被视为挑战者的Anthropic,在估值和年化收入两项关键指标上首次超越OpenAI。这一变化不仅意味着两家巨头攻守易位,更标志着AI行业的竞争逻辑正在发生根本性转变——从早年的技术参数军备竞赛,转向如今商业化效率与企业落地能力的全面较量。

    一、Anthropic的逆袭之路

    估值飙升:1.2万亿美元背后的底气

    在链上Pre-IPO市场,Anthropic的隐含估值已飙升至1.2万亿美元,正式超越OpenAI成为行业估值最高的企业。最新一轮融资以约9000亿美元估值推进,预计5月中旬完成交割。这个数字放在整个科技行业都是惊人的——要知道,许多传统行业巨头的市值也难以企及这一水平。

    但估值从来不是空中楼阁。Anthropic估值暴涨的底气,来自实打实的业绩支撑。

    收入狂飙:半年四倍的火箭式增长

    年化收入从2025年底的90亿美元,跃升至超过450亿美元——这是Anthropic交出的成绩单。半年时间增长四倍以上,这个速度即便在高速发展的AI行业也堪称现象级。

    CEO达里奥·阿莫迪在开发者大会上透露:”第一季度收入和使用量同比暴涨80倍。”他甚至戏称希望增速降回”仅仅10倍”,否则团队实在难以招架。这种”甜蜜的烦恼”,恐怕是所有高速增长企业的共同心声。

    Claude Code:改变游戏规则的核心引擎

    如果说要给Anthropic的崛起找一个支点,那一定是Claude Code。

    这款编程工具已经成为Anthropic增长的核心引擎:年收入达25亿美元,在编程领域市场份额达到54%。这意味着,在AI编程这个赛道上,Claude Code已经超越了所有竞争对手,成为开发者的首选工具。

    市场研究机构的数据显示,Claude Code的用户粘性远超行业平均水平。这不仅因为其技术能力出色,更因为它在企业级场景下的稳定性和安全性——这恰恰是开发者愿意为之付费的关键因素。

    企业市场:渗透率惊人

    Anthropic在企业市场的渗透速度令人瞩目:

    • 财富10强企业中有8家成为Claude客户,覆盖金融、科技、能源等多个关键行业
    • 超过1000家企业年付费超过百万美元,这些客户构成了Anthropic稳定的收入基本盘
    • 金融领域贡献了40%的收入,凸显Anthropic在强监管行业的深度渗透能力

    企业采用率从2025年初的约9%飙升至34.4%,首次实现对OpenAI的反超。这个数字的背后,是无数企业决策者用真金白银投出的信任票。

    算力扩张:22万块GPU的豪赌

    为支撑爆炸式增长的业务需求,Anthropic展现出惊人的扩张魄力。公司租用SpaceX的Colossus 1数据中心,一举获得超过22万块英伟达GPU,算力直接追平行业头部玩家。

    这一举措的效果立竿见影:Claude Code服务时长从5小时提升至10小时,API速率限制翻倍,用户体验得到显著改善。在AI行业,算力就是战斗力,Anthropic深谙此道。

    Claude Code编程市场54%份额

    二、OpenAI的应对之策

    成立部署公司:40亿美元的豪赌

    当Anthropic在资本市场高歌猛进时,OpenAI选择了另一条道路——成立OpenAI Deployment Company,初始投资超过40亿美元,由TPG、贝恩资本等19家顶级机构支持。

    这家公司成立的逻辑很清晰:AI的价值不在于模型本身多强大,而在于能否真正落地为企业创造价值。而落地,往往需要大量的定制化服务和长期陪伴。

    收购与扩张:150名工程师的驻场部队

    OpenAI同步收购AI咨询公司Tomoro,将其约150名现场部署工程师并入麾下。这支队伍的专长是将AI嵌入企业核心流程——Tomoro曾服务维珍航空、Supercell等知名企业,积累了丰富的落地经验。

    例如,他们为维珍航空开发的实时航班改签AI客服,能够在几秒内完成原本需要人工介入的复杂操作。这种”接地气”的能力,恰恰是OpenAI此前相对薄弱的环节。

    驻场服务的三重价值

    新成立的部署公司旨在扮演”前置部署工程师”角色,深入客户现场完成三件事:

    • 赚取服务费:切入企业软件市场背后六倍于软件本身的服务份额,这是一个比软件市场更大的蓝海
    • 锁定场景与客户:通过驻场深度绑定客户,如帮助农业巨头John Deere将农药用量降低70%,这种深度合作形成的关系护城河远比单纯的软件授权牢固
    • 迭代产品:从真实需求中提炼通用模式,反哺模型优化,形成”落地-反馈-改进”的正向循环

    C端补强:广告变现加速

    在B端发力的同时,OpenAI也在C端补强变现能力。公司推出自助广告平台,取消5万美元最低投放门槛,改用CPC计费模式,目标2026年广告收入达到25亿美元。

    这个策略的逻辑在于:ChatGPT拥有庞大的用户基础,将这些用户的注意力变现,是顺理成章的商业化路径。

    三、行业竞争的本质转变

    从技术竞赛到商业化效率

    这一轮AI竞争的本质,已经从技术炫技转向可量化的商业价值。

    回顾AI行业的发展历程,早期竞争主要围绕模型参数、能力边界展开——谁家模型的上下文更长、谁家的多模态能力更强。这种竞争固然重要,但最终都要落地到”能不能为企业赚钱”这个根本问题上。

    Anthropic的成功恰恰证明了这一点。它的推理业务毛利率从一年前的38%攀升至70%以上,接近成熟SaaS企业水平。这直接反驳了”AI公司只会烧钱”的质疑,也证明了AI商业化的可行性。

    Token狂潮下的企业实践

    企业端的热潮催生了独特的”Tokenmaxxing”文化。

    迪士尼在内网上线了Token消耗看板,有员工9天调用Claude约46万次,平均每1.7秒一次——这个频率甚至超过了许多自动化脚本。Meta内部统计显示,30天内全员消耗60万亿Token,按API价格折算约90亿美元。

    这些数字背后,是企业对AI工具的深度依赖。当AI从”可选项”变成”必需品”,商业价值自然水涨船高。

    能源与硬件:新的竞争瓶颈

    随着算力需求几何级增长,能源和硬件稀缺性将进一步放大落地能力的差距。

    英伟达CEO黄仁勋曾公开表态:”如果一个年薪50万美元的工程师,没在AI工具上烧掉25万美元的Token,我会深感不安。”这句话虽然带有玩笑成分,却也反映出行业对AI工具投入的预期正在不断抬高。

    四、IPO竞赛与行业展望

    下半年IPO:谁将率先登陆

    两家巨头均计划在2026年下半年启动IPO。但市场关注点已经发生微妙变化——不再只是”谁的模型更强”,而是”谁能更高效地将AI转化为生产力工具”。

    Anthropic凭借按量计费模式和企业级安全架构,刺激了深度集成;OpenAI则通过驻场服务,试图解决落地中的流程改造和系统集成难题。两条路线各有利弊,最终鹿死谁手,还要看市场用脚投票的结果。

    行业影响:竞争格局重塑

    无论最终谁能在IPO竞赛中拔得头筹,这一轮竞争都将深刻重塑AI行业格局:

    1. 企业级市场成主战场:消费级市场的增长逐渐趋缓,企业级场景成为新的增长极
    2. 服务能力成关键差异:模型本身的差距在缩小,落地服务能力将成为核心竞争点
    3. 商业化效率成试金石:能否将技术优势转化为可持续的商业模式,将决定企业的长期命运

    从業者启示

    对于AI行业的从业者而言,这一轮变化带来了几点启示:

    • 聚焦价值创造:技术能力固然重要,但更重要的是能否解决真实的商业问题
    • 重视落地能力:能够深入理解客户需求、提供定制化服务的人才将更受青睐
    • 关注效率指标:在资本市场趋于理性的背景下,商业模式的可盈利性变得更加重要

    结语

    Anthropic估值突破1.2万亿美元,首次超越OpenAI——这个里程碑事件的意义远超两家公司之间的竞争。它标志着AI行业正式从”技术为王”时代进入”落地为王”时代。

    未来的AI竞争,将不再是单纯的模型参数比拼,而是商业化效率、企业服务能力、落地能力的全面较量。在这场新的竞赛中,谁能真正理解客户需求、提供有价值的服务、实现可持续的商业模式,谁就能笑到最后。

    对于整个行业而言,这是一个最好的时代——AI正在从实验室走向千行百业,创造真正的商业价值和社会价值。而对于从业者和投资者而言,这也是一个需要更加务实、更加关注商业本质的时代。

  • 人工智能重塑医疗:ICU预警、2秒出报告,AI医生正在接管生死线

    人工智能重塑医疗:ICU预警、2秒出报告,AI医生正在接管生死线

    一、当算法接管生死线:ICU里的“永不疲倦的医生”

    2026年的上海交通大学医学院附属仁济医院,ICU病房里多了一位“永不疲倦的同事”。它不需要休息,不会因为连续值班而出现注意力下降,更不会因为情绪波动而影响判断——这就是医院最新部署的AI重症监护系统。

    这套系统的核心能力可以用三个数字概括:6小时、1分钟、全天候

    “6小时”指的是它的预警提前量。在脓毒性休克等危重症的抢救中,时间就是生命。传统方式下,医生往往在患者出现明显症状后才能做出判断,而AI系统通过持续监测患者的生命体征、实验室检验数据、电子病历等多维度信息,能够在症状显现前6小时发出预警。这意味着医护团队有充裕的时间采取干预措施,将被动抢救转变为主动防御。

    ICU智能生命体征预警系统

    “1分钟”则是它生成病历的速度。过去,重症医学科医生每天需要花费大量时间书写病历,一份完整的病程记录可能需要30分钟才能完成。如今,AI系统能够自动抓取患者当日的检查结果、生命体征变化、用药记录等信息,在1分钟内生成规范的病历文档,医生只需审核确认即可。这不仅大幅提升了效率,更重要的是让医生有更多时间回归到患者身边。

    “全天候”则体现了AI相比人类最大的优势——它可以7×24小时不间断工作。在ICU这种需要实时监测的场景中,AI系统就像一个永不疲倦的哨兵,时刻盯着每一位患者的每一项指标,任何异常都逃不过它的“眼睛”。

    更值得关注的是,北京大学第三医院在2026年初发布了全球首个胰腺疾病全病程智能辅助系统,试图打通诊断、治疗、康复的数据断层。这意味着AI在医疗领域的应用已经从单点突破走向系统协同,从“辅助工具”升级为“诊疗伙伴”。

    二、2秒改变就医体验:AI阅片正在消灭积压

    如果说ICU里的AI是“救火队员”,那么AI影像诊断系统则更像是一位“效率大师”。

    广东省的“粤医智影”系统正在刷新人们对医疗效率的认知。截至2026年5月,该系统已接入全省2146家公立医院,覆盖率达到省级医疗网络的90%以上。系统的核心能力令人惊叹:2秒钟,就能生成一份完整的影像报告。

    这是什么概念?以一份普通的肺部CT影像为例,传统的流程是:技师完成扫描→影像科医生调阅图像→逐层逐帧分析→撰写报告。一个经验丰富的医生,完成这份报告需要10-15分钟。而在“粤医智影”系统中,AI在接收影像数据后2秒内即可完成自动分析、异常标记、报告生成,准确率达到98%。

    更直观的对比是产能:这套系统每小时可完成的阅片量,相当于150名影像科医生全天的工作量。这意味着什么?意味着过去需要排队等待3-5天的影像报告,现在可能当天就能拿到;意味着基层医院的患者也能享受到与大医院同质量的影像诊断服务;意味着影像科医生可以从繁重的重复劳动中解放出来,将精力投入到更复杂的病例讨论和科研工作中。

    大洋彼岸的美国也在加速拥抱AI影像技术。2026年3月,美国食品药品监督管理局(FDA)正式批准了首个AI乳腺手术影像设备。该设备能够在乳腺手术过程中实时分析影像数据,为外科医生提供精准的切除边界指引,显著降低二次手术的概率。这标志着AI在医疗领域的应用已经从“辅助诊断”延伸到“辅助治疗”的深水区。

    在安徽省宣城市中心医院,AI系统正在为卒中、胸痛等急诊患者抢回宝贵的黄金抢救时间。急性脑卒中患者的救治有严格的“时间窗”要求,从患者入院到CT检查、再到阅片出报告,每一步都在与时间赛跑。AI系统的介入,将这个流程压缩到极致——患者刚做完CT,诊断报告就已经出现在急诊医生的电脑上,为溶栓、取栓治疗争取了宝贵的分秒。

    三、27.5亿美元的天价合作:AI正在打穿制药高墙

    如果说AI在临床诊疗中的应用是“近水楼台”,那么AI制药则代表了更深远的影响——它正在改变人类对抗疾病的方式。

    2026年3月,一条消息震动了全球制药圈:AI制药公司英矽智能(Insilico Medicine)宣布与美国药企礼来达成战略合作,首付款1.15亿美元,总金额高达27.5亿美元。这是AI制药领域迄今为止最大的单一合作项目,也是传统药企对AI药物研发能力的一次实质性认可。

    为什么这笔合作如此重要?因为它证明了AI制药已经从“概念验证”走向“商业化落地”。

    全球新药研发的现状有多残酷?平均周期超过10年,成功率不足10%,一款新药的平均研发成本高达26亿美元。投入巨大、周期漫长、风险极高,这是悬在制药行业头顶的“三座大山”。而AI的介入,正在从多个维度改写这场游戏:

    靶点发现阶段,传统方式需要研究人员阅读海量文献、手工筛选潜在靶点,耗时数月甚至数年。AI系统能够快速分析已发表的科研论文、临床数据、基因表达谱等信息,在几天内完成靶点的初筛和优先级排序。英矽智能的核心平台Chemistry42就是干这个的——利用深度学习算法,从数万亿个化合物分子中快速筛选出最具潜力的候选药物。

    化合物优化阶段,AI能够模拟分子与靶点的相互作用,预测化合物的成药性、毒理学特征、药代动力学特性,大幅减少实验验证的次数。传统方式可能需要合成测试数千个化合物才能找到一个临床候选分子,AI的介入将这个数字降低了一个数量级。

    临床试验设计阶段,AI可以分析历史临床数据,优化受试者入组标准,预测临床试验结果,甚至模拟不同试验方案的成功概率。

    紧随英矽智能的步伐,2026年4月,OpenAI推出了专攻生物学领域的大模型GPT-Rosalind。这个以诺贝尔奖获得者Rosalind Franklin命名的模型,专门针对生命科学场景进行了优化,能够帮助研究人员理解复杂的生物化学通路、设计实验方案、分析实验数据。

    全球范围内,AI辅助研发的候选药物正在加速进入临床试验阶段。截至2025年底,已有超过50个由AI发现的候选药物进入临床试验,其中不乏进入三期临床的明星项目。如果这些药物最终获批上市,将彻底改变“十年磨一药”的传统制药模式。

    四、从“机器看病”到“人机协同”:AI医疗的正确打开方式

    面对AI在医疗领域的全面渗透,一个无法回避的问题是:AI会取代医生吗?

    答案是否定的,至少在可预见的未来是这样。但AI正在深刻改变医疗行业的工作方式,这一点毋庸置疑。

    从技术层面看,当前的AI医疗系统本质上都是“窄人工智能”——它们在特定任务上表现出色,但缺乏真正的理解和推理能力。一个AI影像系统可以精准识别CT片上的肺结节,但它无法像医生那样与患者沟通病史、观察表情、理解患者的心理状态。更重要的是,医学从来不只是数据的堆砌,还包含着人文关怀、医患信任、伦理考量等复杂因素。

    从法律和伦理层面看,当前没有任何国家的法规允许AI系统独立做出诊疗决策。AI的定位始终是“辅助工具”,它的结论仅供参考,最终的诊断和治疗方案必须由持牌医师确认。这种“AI+医生”的协作模式,既保证了效率的提升,又守住了安全的底线。

    从实践效果看,最成功的AI医疗应用往往不是“替代”而是“增强”。上海仁济医院的ICU系统,并不是让AI替代医生值班,而是让AI承担数据监测、趋势预判、报告生成等机械性工作,让医生能够将更多精力投入到需要人类智慧的决策和沟通中。广东的“粤医智影”系统,也不是让AI取代影像科医生,而是让AI先完成初筛和报告撰写,医生再进行审核和把关,大幅提升工作效率。

    这种“人机协同”的模式,正在成为AI医疗落地的主流范式。AI负责高效、标准化的任务,医生负责复杂判断、人文关怀和最终决策,两者优势互补、相得益彰。

    五、AI医疗落地的挑战与未来

    尽管前景光明,AI在医疗领域的落地仍面临诸多挑战。

    数据质量与隐私保护是首要难题。AI模型的训练需要海量高质量的医疗数据,而现实中这些数据往往分散在不同的医疗机构中,格式不统一、质量参差不齐。更敏感的是,医疗数据涉及患者隐私,如何在保护隐私的前提下充分利用数据价值,是整个行业都在探索的难题。

    监管滞后与技术迭代之间的矛盾同样突出。医疗是强监管行业,一款新药从研发到上市需要经过严格的临床试验审批,一款新医疗器械需要获得监管部门的上市许可。AI医疗产品作为新生事物,其审批标准、监管框架还在不断完善中,如何在保证安全的前提下加快创新产品的上市速度,是各国监管部门面临的共同课题。

    AI系统的可解释性也是临床应用的痛点。当AI给出一个诊断建议时,它为什么得出这个结论?这个“思考过程”能否被人类理解和验证?在生命健康领域,这个问题尤为重要——患者和医生都需要知道AI的判断依据,才能建立信任并做出明智的决策。

    基层医疗的AI普及任重道远。当前三甲医院是AI医疗的主要受益者,基层医疗机构受限于资金、技术、人才等因素,AI的渗透率仍然较低。如何让AI医疗的红利惠及更多人,是行业需要思考的问题。

    尽管如此,AI医疗的未来仍然值得期待。随着多模态大模型的发展,AI将能够整合患者的影像、病历、基因数据、实时监测数据等多维度信息,提供更加全面和精准的诊疗建议。随着具身智能技术的进步,手术机器人、康复机器人等物理世界的AI助手将更加普及。随着成本的下降和技术的普惠化,基层医疗机构也将逐步用上AI医疗的先进工具。

    结语:让AI做它擅长的,让医生做只有人才能做的

    2026年的医疗行业,正在经历一场静悄悄的革命。从ICU的6小时预警到2秒生成影像报告,从27.5亿美元的制药合作到FDA首个AI医疗器械的批准,AI正在以多种形态渗透到医疗的每一个环节。

    但无论技术如何发展,医疗的本质始终是“有时治愈、常常帮助、总是安慰”。AI可以不知疲倦地监测数据、快速出具报告、从海量数据中发现规律,但它无法握住患者颤抖的双手,无法在生死关头给予人文关怀,无法承担救死扶伤背后沉甸甸的责任。

    或许,AI在医疗领域最理想的角色,不是“替代者”,而是“赋能者”——让AI做它最擅长的高效、精准、不知疲倦的工作,让医生回归到他们最核心的价值:面对疾病时做出判断,面对患者时给予关怀,面对未知时保持敬畏。

    当算法开始接管生死线,我们或许不必恐惧,而应庆幸:在人类对抗疾病的漫长征途中,我们多了一个强大的战友。

    图片

    本文参考资料来源:上海交通大学医学院附属仁济医院官方发布、北京大学第三医院官方发布、广东省卫健委公开数据、FDA官方公告、英矽智能官方公告、OpenAI官方公告

  • TriAttention:英伟达MIT浙大联手开源,大模型推理内存直降10倍的革命性技术

    TriAttention:英伟达MIT浙大联手开源,大模型推理内存直降10倍的革命性技术

    当你和ChatGPT进行一场长达数万字的长对话,或者让AI阅读一份数百页的PDF文档时,是否曾想过:这背后需要消耗多少内存?答案可能超出你的想象——传统Transformer架构在处理长序列时,需要将所有历史上下文信息完整存储在内存中,这就是所谓的KV缓存。随着对话越来越长,或者处理的文档越来越厚,内存占用会像滚雪球一样不断膨胀,最终成为制约大模型落地的最大瓶颈。

    英伟达、MIT和浙大的研究团队正在试图打破这一困局。2026年5月,他们联合开源的TriAttention技术,为这个问题提供了一个开创性的解决思路。

    一、为什么大模型推理”吃”内存这么厉害?

    要理解TriAttention的意义,首先得搞清楚大模型为什么会占用这么多内存。

    在Transformer架构中,注意力机制(Attention)是其核心组件。当模型处理一段文本时,它需要”回头看看”之前读过的所有内容,逐一判断每个词与当前词的关联程度。这个过程在数学上体现为计算一个N×N的矩阵,其中N是序列中token的数量。

    问题就出在这里。当序列长度翻倍时,这个矩阵的元素数量会变成原来的四倍(平方级增长)。这意味着,如果你在处理一个1000个token的对话时需要占用1GB内存,那么处理2000个token可能就需要4GB,4000个token更是飙升到16GB。这就是为什么长上下文对算力要求如此苛刻。

    在实际应用中,KV缓存占据了推理时内存消耗的大头。每次生成一个新的token,模型都需要参考之前所有的历史token来做出决策,而这些历史token的Key和Value向量必须全部驻留在显存中。对于那些需要处理超长文档、进行复杂多轮对话、或运行长程推理任务的企业用户来说,这笔内存账算下来往往令人望而却步——要么采购天价的高端GPU集群,要么大幅缩短模型能够处理的上下文长度,二者必选其一。

    二、TriAttention的破局思路:从”全部记住”到”记住重要的”

    TriAttention的核心创新,在于它重新思考了一个根本性问题:模型真的需要记住所有历史信息吗?

    答案是否定的。在人类认知中,我们天生具备”选择性记忆”的能力——重要的细节会留下深刻印象,而无关紧要的碎片则会被自然过滤。TriAttention正是借鉴了这一智慧,通过稀疏注意力机制,让模型学会只存储和计算真正关键的token,忽略那些冗余或噪声信息。

    具体而言,TriAttention采用了三路(Tri-)注意力协同的设计,在计算效率和模型精度之间寻求最优平衡。它不再对所有历史token进行完整的注意力计算,而是通过动态筛选机制,识别并保留对当前推理最相关的信息,将大量低价值的中间计算从源头上省去。

    这种”聪明的遗忘”策略带来了惊人的效果。根据研究团队的测试数据,采用类似稀疏注意力架构的DeepSeek-V4预览版,已经实现了KV缓存降至原来10%的突破,同时单token算力消耗仅为前代V3.2模型的27%。这意味着,在不损失模型能力的前提下,推理效率实现了数量级的跃升。

    三、长上下文不再是奢侈品

    内存消耗的急剧下降,其影响远不止于降低硬件成本。它打开了全新应用场景的大门。

    传统的上下文窗口限制,很大程度上是内存压力造成的无奈妥协。当KV缓存只能容纳有限的历史信息时,模型自然无法”记住”更早之前的内容。而TriAttention等稀疏注意力技术的成熟,使得”百万token上下文”从实验室参数变成现实可用的产品特性。

    在医学领域,这意味着AI可以一次性阅读并理解病人的完整病史、影像报告和基因测序数据,给出更加全面的诊断建议,而不是在零散的信息片段中盲人摸象。

    在法律行业,长文本处理能力的跃升让AI能够完整审阅数千页的合同文本、判例卷宗,发现人工审阅极易遗漏的潜在风险点。

    在软件工程领域,代码库的规模一直是AI辅助编程的天花板。当上下文窗口能够覆盖整个项目时,AI不再只是”写几行代码的助手”,而是真正能够理解系统架构、把握全局逻辑的”代码副驾”。

    这些场景在过去要么需要消耗巨大的算力资源,要么根本无法实现。TriAttention等技术的出现,正在将这些”不可能”一一变为”可能”。

    KV缓存内存直降10倍对比图

    四、开源的力量:让技术普惠成为现实

    值得特别关注的是,TriAttention选择了完全开源的策略。在AI领域,开源与闭源的边界正在经历一场深刻的博弈——一些公司选择将技术紧紧攥在手中作为竞争壁垒,而另一些则选择将成果公之于众,让整个社区共同受益。

    英伟达、MIT和浙大的选择属于后者。这背后的逻辑其实很清晰:AI基础设施的进步不应该只属于少数巨头的游戏。当一项技术被开源,全球的开发者都能在此基础上进行二次创新,贡献场景反馈,发现潜在问题,推动技术迭代进入快车道。

    事实上,开源社区已经证明了其在推动AI进步方面的巨大能量。DeepSeek团队就曾公开表示,他们仅使用约1%顶尖实验室的资源,就开发出了达到业界领先水平的开源模型。这种”以小博大”的效率奇迹,正是开源生态释放的创造力。

    Kimi首席战略官张予彤在谈及开源价值时指出,开源技术与社区反馈的结合,正是突破智能上限的关键路径。”当越来越多的人参与到技术的改进中来,进步的加速度就会越来越快。”

    TriAttention的开源发布,预计将在全球范围内引发一轮新的技术创新浪潮。开发者们可以基于这一基础架构,探索与量化压缩、知识蒸馏、硬件协同优化等技术的更多组合,催生出更加丰富的应用形态。

    五、从算力军备竞赛到效率革命

    TriAttention的发布,折射出一个更宏观的行业趋势转变。

    过去几年,大模型领域的竞争在很大程度上是”算力军备竞赛”的代名词——谁拥有更多的GPU,谁的训练预算更充裕,谁就能训练出更强的模型。这种”大力出奇迹”的逻辑确实推动了技术的快速进步,但也造成了资源的高度集中和严重浪费。

    研究表明,当前大模型在实际部署中,往往只有很小一部分算力被用于真正有价值的计算,大量资源消耗在可以优化掉的冗余操作上。这不仅推高了AI应用的成本,也限制了其在更广泛场景中的落地。

    TriAttention等高效注意力机制的出现,标志着行业正在从粗放走向精细。当智能的上限不再被参数规模和算力预算所约束,竞争的重心就会发生转移——从”谁有更多资源”转向”谁有更好的算法和工程优化能力”。

    这对于整个AI生态而言都是一个积极的信号。资源效率的提升,意味着更多的创新者能够在有限的资源条件下参与竞争;更多的应用场景能够被挖掘和满足;AI技术从”阳春白雪”走向真正的普惠。

    六、消费级硬件的AI时代还有多远?

    TriAttention带来的内存优化,还有一个被低估的影响——它为消费级硬件运行大模型打开了新的想象空间。

    目前,主流大模型的推理通常需要高端专业级GPU的支持,这些设备价格昂贵且功耗惊人。对于普通用户和中小企业来说,运行一个能力强大的AI模型往往意味着要么支付高昂的云计算费用,要么购置一台价格不菲的工作站。

    当KV缓存降至原来的十分之一,意味着同样的硬件配置可以支撑更大规模的推理任务,或者换句话说,要完成同样的任务,只需要更少规格的硬件。这对于推动AI向边缘设备和消费级终端普及具有重要意义。

    试想一下,当你的个人电脑甚至手机,能够流畅运行一个拥有数十亿参数的本地大模型时,会是怎样的场景?本地部署意味着更低的延迟、更强的隐私保护,以及在无网络环境下的可用性。这些特性在当前云端部署模式下很难兼顾。

    TriAttention等高效推理技术的成熟,正在让这个图景一步步变为现实。虽然完全意义上的”消费级AI”还需要更多突破,但方向已经明确,路径已经清晰。

    七、技术对比:TriAttention与传统注意力的核心差异

    为了更清晰地理解TriAttention的突破性,我们需要将其与传统注意力机制做一个系统的对比。

    传统Transformer的注意力机制可以概括为三个步骤:首先生成Query、Key、Value三个向量矩阵,然后计算Query与Key之间的相似度得到注意力权重,最后用这些权重对Value进行加权求和得到输出。这个过程中,Key和Value矩阵必须完整保留在显存中,因为每个新生成的token都可能需要回溯到之前任意位置的上下文信息。

    TriAttention则采用了完全不同的策略。它引入了一个”选择性记忆”的模块,能够在信息进入缓存之前就判断其重要程度。具体来说,它使用一个轻量级的”重要性评分器”来评估每个token对最终输出的贡献权重,只保留评分较高的token进入缓存,其余则被过滤掉。

    这个设计的精妙之处在于,重要性评分器本身也是一个可学习的神经网络,它能够根据具体任务和上下文动态调整评判标准。在代码补全场景中,它可能更关注语法结构和API调用;在文档摘要场景中,它可能更关注关键论点和核心数据。这种自适应能力使得TriAttention能够在不同场景下都保持高效的内存利用。

    从数值对比来看,假设处理一个长度为10000 token的序列:传统注意力需要存储10000×d个Key向量和10000×d个Value向量(d为向量维度,通常为64或128);而TriAttention可能只需要保留约1000-2000个”重要”token,内存占用降至十分之一甚至更低,而精度损失通常控制在可接受范围内。

    八、行业影响:谁将从这项技术中获益?

    TriAttention的发布对AI产业的多个环节都将产生深远影响。

    首先是云服务提供商。目前主流云厂商都在大力推广AI推理服务,但高昂的GPU成本一直是扩大规模的制约因素。TriAttention使得同样的GPU能够支撑更多并发的推理请求,直接降低单次推理的成本,提升服务利润空间或让利给客户形成竞争优势。

    其次是企业级AI应用开发者。许多企业有在私有环境部署AI模型的需求,但受限于硬件条件,无法运行参数规模较大的模型。TriAttention让这些企业有机会在现有硬件条件下运行更强大的模型,或者用更低的硬件成本获得同等的推理能力。

    再次是边缘计算和端侧AI场景。在智能终端、物联网设备上部署AI模型一直面临严重的内存约束。TriAttention的内存优化为这些场景带来了新的可能性,未来可能在手机、平板、汽车智能座舱等设备上实现更强大的本地AI能力。

    最后是AI研究者。开源的TriAttention为学术社区提供了一个强大的基准模型,研究者可以在此基础上探索更多的稀疏注意力变种,推动理论研究的进展。

    九、技术演进的下一步

    TriAttention并非孤例,而是大模型效率优化浪潮中的一个代表性成果。

    从Google的Linear Attention,到Mamba的状态空间模型,再到各类稀疏注意力、线性注意力变体,学术界和产业界正在从多个角度探索Transformer效率瓶颈的解决方案。每一种技术路线都有其优势和局限,最终哪条路能够走得更远,需要经过更长时间的检验和更多的工程验证。

    可以确定的是,竞争的重心正在转移。在参数规模竞争趋于白热化之后,下一个战场的焦点将是推理效率、工程优化和场景适配。谁能在保持模型能力的同时大幅降低资源消耗,谁就能在激烈的市场竞争中占据主动。

    对于正在布局AI能力的组织和个人而言,关注这些效率优化的技术进展,或许比单纯追逐更大的参数规模更有战略价值。毕竟,真正落地的AI应用,需要的不只是”更强”,更需要在实际场景中”能用、好用、用得起”。

    八、结语

    TriAttention的开源发布,是2026年AI基础设施领域的一个重要时刻。它不仅代表着一项具体的技术突破,更折射出整个行业正在经历的一场深层变革——从追求规模到追求效率,从资源密集型到知识密集型,从少数人的游戏到普惠创新的生态。

    对于关注AI发展的从业者和观察者而言,这提供了一个值得深入思考的视角:当技术进步不再被算力成本所束缚,AI的应用边界将会被推向何方?当创新的门槛不断降低,更多来自不同背景的创造者将如何塑造AI的未来?

    答案或许就在像TriAttention这样的技术进展中,一点点浮现出来。

    相关搜索标签

    英伟达开源、MIT、浙大、稀疏注意力、Transformer优化、KV缓存、大模型推理、AI部署、算力效率

  • 腾讯混元3.0登顶OpenRouter:国产大模型如何撕开国际竞争口子

    腾讯混元3.0登顶OpenRouter:国产大模型如何撕开国际竞争口子

    一石激起千层浪:国产AI的里程碑时刻

    5月7日,AI圈被一条消息点燃——腾讯混元3.0以3.66万亿Token的周调用量,登顶OpenRouter总榜第一宝座。

    这个平台你可能不熟悉,但它在开发者圈子里地位极高。OpenRouter是全球最大的AI模型API聚合平台,汇聚了GPT、Claude、Gemini、Llama等数十款主流模型,开发者可以在这里比较不同模型的性能、价格、响应速度,然后选择最适合自己业务的方案。能在这个平台上拿到第一名,意味着什么?意味着全球开发者开始用脚投票,把你的模型当作首选。

    更让人意外的是,混元3.0不仅拿下了总榜冠军,还同时斩获编程和工具调用两个细分榜单的头名。这两个场景可不是随便能拿下的——编程榜单考验的是模型的代码理解和生成能力,工具调用榜单则考验的是模型理解和执行复杂指令的能力,都是实打实的技术硬仗。

    消息传回国内,社交媒体上不少从业者感慨:终于等到这一天。国产大模型从2023年的”百模大战”,到今天终于有模型站在了国际竞争的最高领奖台上,这背后的故事远不止一个榜单那么简单。

    混元3.0的技术底牌

    腾讯这次能突围,靠的不是运气,而是实打实的技术积累。

    混元3.0是腾讯AI团队经过两年多打磨推出的旗舰模型。根据公开信息,这个模型的参数量达到万亿级别,采用混合专家(MoE)架构,能够根据任务类型动态调用不同的”专家模块”,避免”一个模型处理所有问题”的效率损耗。这种架构设计让混元3.0在保持高性能的同时,大幅降低了推理成本——对于需要大规模调用的企业用户来说,这比纸面上的性能数字更吸引人。

    编程能力的突破是这次登顶的关键。在SWE-bench等主流编程基准测试中,混元3.0的表现已经可以与GPT-5.5、Claude Opus 4.7等顶级模型正面交锋。它不仅能生成代码,还能理解代码上下文、处理复杂的代码调试任务,甚至可以根据自然语言描述自动完成整个功能模块的开发。对于正在寻找AI编程助手的开发者来说,这意味着多了一个值得信赖的选择。

    工具调用能力的提升同样不容忽视。在实际应用中,AI模型往往需要与外部工具配合——查天气、搜信息、控制智能家居、调用第三方API。混元3.0在这方面的优化,让它能更准确地理解用户的意图,更稳定地执行多步骤任务。这种能力在AI Agent时代尤为重要,因为Agent的核心就是”理解-规划-执行”的闭环。

    当然,技术参数只是基础,用户体验才是王道。从开发者反馈来看,混元3.0的响应速度是一大优势。在AI应用场景中,延迟直接影响用户体验——代码补全等了两秒才出来,那种感觉就像打字时键盘卡顿,让人抓狂。混元3.0在这方面做了针对性优化,响应时间明显缩短,这也是它能在工具调用榜单夺冠的重要原因。

    OpenRouter榜单排名图 3.66万亿

    为什么是腾讯?BAT中的”低调玩家”

    说到国产大模型,很多人首先想到的是百度文心、阿里通义、字节豆包,腾讯混元在舆论热度上似乎一直”差点意思”。

    但低调不等于实力弱。事实上,腾讯在AI领域的布局相当早,混元团队的技术积累也很深厚。只是相比其他厂商,腾讯在宣传策略上一直偏保守——不追热点,不炒概念,更愿意把精力放在技术打磨上。

    这次混元3.0的爆发,其实有几个深层次原因。首先是腾讯的生态优势。微信、QQ、腾讯会议、企业微信……腾讯拥有国内最庞大的用户群体和产品矩阵,这为混元提供了海量的真实场景数据和落地渠道。任何技术最终都要接受用户的检验,而腾讯有足够的场景让混元在实战中快速迭代。

    其次是腾讯的组织协同能力。混元3.0的成功不是AI团队单独作战的结果,而是腾讯云、微信事业群、CSIG(云与智慧产业事业群)协同作战的产物。这种”集团军作战”的模式,让混元能够快速对接企业级需求,在B端市场快速打开局面。

    第三个原因可能很多人没想到——游戏业务的加持。腾讯游戏拥有全球顶级的AI游戏NPC团队,这些团队在强化学习、自然语言生成、人机交互等领域积累的技术和经验,最终都反哺到了混元模型上。某种意义上,游戏业务是腾讯AI的”练兵场”。

    OpenRouter榜首的含金量

    OpenRouter这个平台很有意思。它的模式是”聚合+比较”,把各家模型的API统一包装,开发者可以通过一个接口调用所有模型。这种模式让它成为了全球AI模型能力的”试金石”——能在这个平台上获得高调用量,说明模型确实经过了全球开发者的检验。

    在此之前,这个榜单的头部位置一直被OpenAI的GPT系列、Anthropic的Claude系列、Google的Gemini系列牢牢占据。国产模型虽然也有上榜,但排名一直在中游徘徊,偶尔能在某个细分榜单冲一冲,但从没能在总榜登顶。

    混元3.0这次登顶,意义在于打破了这种”三足鼎立”的格局。更重要的是,它拿下的编程和工具调用两个榜单,恰恰是AI应用落地最核心的两个场景。这意味着在全球开发者眼中,混元3.0已经具备了与GPT、Claude正面竞争的能力。

    当然,榜单只是参考,不代表一切。OpenRouter的调用量数据受到定价策略、推广力度、平台特性等多重因素影响。但有一点是确定的:如果模型质量不过关,开发者不会持续使用。混元3.0能够维持高调用量,说明它的实际表现确实得到了认可。

    国产大模型的集体突围

    混元3.0的登顶不是孤例。回顾2026年以来的AI发展,国产大模型正在经历一个集体爆发的阶段。

    在模型能力上,DeepSeek V4、Kimi K2.6、通义千问Qwen 3.6等国产模型已经跻身全球第一梯队,与GPT-5.5、Claude Opus 4.7的差距正在快速缩小。在应用层面,国产AI在中文场景的优化往往做得更细致——毕竟中文是母语,本土团队对语言习惯、文化背景、用户需求的理解更深刻。

    在国际市场拓展上,国产大模型也在积极布局。OpenRouter等聚合平台的出现,让国际开发者可以低门槛地试用国产模型,而更低的定价(相比GPT-5.5,混元3.0的API价格有明显优势)则成为吸引用户的利器。在当前AI应用普遍面临成本压力的背景下,性价比越来越成为开发者选型的重要考量。

    不过,挑战依然存在。国产大模型在多模态能力、Agent架构、安全对齐等方面,与OpenAI等头部厂商仍有差距。更关键的是,AI算力的自主可控问题还没有完全解决——高端AI芯片的供应问题,可能在某个时刻成为制约国产AI发展的瓶颈。

    对开发者的实际意义

    说了这么多宏观趋势,作为普通开发者,混元3.0登顶对我们意味着什么?

    最直接的影响是选择更多了。以前做AI编程,可能首选是Copilot(基于GPT)或Claude Code。现在混元3.0提供了第三个选项,而且从测试结果来看,它的编程能力确实值得一试。如果你在开发中文应用、处理中文代码注释,或者需要对接腾讯生态,混元3.0的原生优势会更明显。

    API调用的成本也值得关注。GPT-5.5的API定价相当高,每百万Token输入5美元、输出30美元,对于需要大规模调用的应用来说,成本压力不小。混元3.0的定价策略更亲民,这意味着你可以在同样的预算下完成更多的AI任务。

    从技术选型的角度,建议开发者不要把鸡蛋放在一个篮子里。不同模型有不同的特长场景,多模型协作往往比单一模型表现更好。比如用Claude处理长文档分析,用混元3.0处理代码生成,用Gemini处理需要实时信息的任务——这种组合策略正在成为越来越多团队的选择。

    写在最后

    腾讯混元3.0登顶OpenRouter,是一个值得记住的节点。它标志着国产大模型在国际竞争中的角色正在从”追赶者”向”并跑者”转变,甚至在某些细分领域开始扮演”领跑者”的角色。

    但我们也要清醒地看到,这个成就只是起点。AI技术的发展日新月异,今天的第一不代表明天的领先。更重要的是,模型能力的提升,最终要转化为实实在在的应用价值——帮助开发者提高效率、帮助企业创造价值、帮助用户解决问题。

    对于所有AI从业者来说,这是一个充满机会的时代。模型越来越强,工具越来越完善,成本越来越低,门槛越来越小。剩下的,就是把这些能力用起来,创造真正有价值的东西。

    混元3.0开了个好头。期待看到更多国产AI在国际舞台上崭露头角。

    相关代码示例

    以下是一个简单的示例,展示如何在项目中集成腾讯混元3.0的API:

    python

    # Python SDK调用示例(以腾讯云混元模型为例)
    import os
    
    # 设置环境变量
    os.environ["HUNYUAN_APP_ID"] = "your_app_id"
    os.environ["HUNYUAN_SECRET_ID"] = "your_secret_id"
    os.environ["HUNYUAN_SECRET_KEY"] = "your_secret_key"
    
    from hunyuan import Hunyuan
    
    # 初始化客户端
    client = Hunyuan()
    
    # 发送请求
    response = client.chat.completions.create(
        model="混元-3.0",
        messages=[
            {"role": "system", "content": "你是一个专业的Python编程助手。"},
            {"role": "user", "content": "帮我写一个快速排序算法,要求包含详细的注释。"}
        ],
        temperature=0.7,
        max_tokens=2048
    )
    
    print(response.choices[0].message.content)
    

    javascript

    // JavaScript SDK调用示例
    const { HunyuanClient } = require('hunyuan-sdk');
    
    const client = new HunyuanClient({
      appId: process.env.HUNYUAN_APP_ID,
      secretId: process.env.HUNYUAN_SECRET_ID,
      secretKey: process.env.HUNYUAN_SECRET_KEY
    });
    
    async function generateCode() {
      const response = await client.chat.completions.create({
        model: '混元-3.0',
        messages: [
          { role: 'system', content: '你是一个专业的Python编程助手。' },
          { role: 'user', content: '帮我写一个快速排序算法,要求包含详细的注释。' }
        ],
        temperature: 0.7,
        maxTokens: 2048
      });
      
      console.log(response.choices[0].message.content);
    }
    
    generateCode();
    

    go

    // Go SDK调用示例
    package main
    
    import (
        "fmt"
        "os"
        hunyuan "github.com/tencent/hunyuan-go-sdk"
    )
    
    func main() {
        client := hunyuan.NewClient(
            os.Getenv("HUNYUAN_APP_ID"),
            os.Getenv("HUNYUAN_SECRET_ID"),
            os.Getenv("HUNYUAN_SECRET_KEY"),
        )
        
        resp, err := client.Chat.Completions(&hunyuan.ChatRequest{
            Model: "混元-3.0",
            Messages: []hunyuan.Message{
                {Role: "system", Content: "你是一个专业的Python编程助手。"},
                {Role: "user", Content: "帮我写一个快速排序算法,要求包含详细的注释。"},
            },
            Temperature: 0.7,
            MaxTokens:   2048,
        })
        if err != nil {
            panic(err)
        }
        
        fmt.Println(resp.Choices[0].Message.Content)
    }
    

    环境配置说明:

    1. 腾讯云账号注册并开通混元模型服务
    2. 获取 AppID、SecretID、SecretKey(可在腾讯云控制台获取)
    3. 安装对应语言的SDK
    4. 根据项目需求调整模型参数

    术语表

    表格

    术语解释
    OpenRouter全球最大的AI模型API聚合平台,开发者可通过统一接口调用多种AI模型
    MoE(混合专家)一种神经网络架构设计,不同任务调用不同的专家网络,提高效率
    TokenAI模型处理的最小文本单位,中文约1-2字为一个Token
    API应用程序编程接口,用于不同软件系统之间的通信
    SWE-bench软件工程基准测试,评估AI模型解决真实代码问题的能力
    工具调用AI模型调用外部工具(如搜索、计算)完成复杂任务的能力

    延伸阅读

    本文首次发布时间:2026年5月15日

    本文更新时间:2026年5月15日

  • SSA架构颠覆Transformer:SubQ用1200万Token撕开AI算力困局

    SSA架构颠覆Transformer:SubQ用1200万Token撕开AI算力困局

    想象一个场景:你要让AI读完一整套大型代码库、几十本长篇小说、或者整个企业数年的文档记录,然后回答一个关于其中某个细节的问题。现实中,这类需求往往会让AI”力不从心”——不是因为它不够聪明,而是底层架构撑不住。

    2026年5月,这个困境正在被打破。

    从”勤快”到”聪明”:Transformer的九年困局

    要理解Subquadratic带来的变革,首先需要回溯大模型架构的底层逻辑。

    2017年,谷歌发表了那篇改变AI走向的论文《Attention Is All You Need》,Transformer架构自此成为行业基石。从GPT到Claude、从Gemini到国产大模型,所有前沿模型都建立在同一个核心机制之上:注意力机制(Attention Mechanism)。

    这套机制的工作方式相当”勤快”:每个词(token)都要和上下文里所有其他词逐一比较,才能理解彼此的语义关系。这种”all-pairs”(全量比对)的设计让模型变得无比强大,却也埋下了一个隐患——计算成本随上下文长度呈二次方增长

    用更直观的数字来理解这个困境:

    • 1,000个Token:需要计算100万次注意力
    • 10,000个Token:需要计算1亿次注意力
    • 1,000,000个Token:需要计算1万亿次注意力

    更关键的是,上下文每翻一倍,计算量不是翻两倍,而是翻四倍。这种恐怖的增速曲线,让超长上下文成为大厂”炫技”的噱头,却难以变成普通人随便用的日用品。

    九年来,业界尝试了各种”曲线救国”的方案:

    • RAG(检索增强生成) :把长文档切碎、检索、压缩,再喂给模型。但模型拿到的只是碎片化信息,失去了全局理解能力。
    • 滑动窗口注意力(Longformer) :每个Token只关注附近窗口内的Token。问题是,如果关键信息不在窗口范围内,模型就”看不见”了。
    • 状态空间模型(Mamba/RWKV) :用循环机制压缩历史信息。代价是压缩过程有损,精度会下降。
    • 混合架构(Jamba/Qwen3-Next) :大部分层用高效注意力,少量层用密集注意力。但保留的密集层仍然是O(n²)复杂度,治标不治本。

    这些方案本质上是”带着镣铐跳舞”——它们在特定场景下有效,但都牺牲了某种必要能力,没有从根本上解决二次方复杂度的问题。

    SSA与Transformer性能对比配图

    SSA架构:跳过99%的无效计算

    2026年5月5日,Subquadratic交出了一份不同的答卷。

    这家总部位于迈阿密的初创公司宣布推出SubQ模型,核心是基于一种名为亚二次选择性注意力(Subquadratic Selective Attention,SSA) 的全新架构。CTO Alex Whedon用一句话概括了SSA的核心理念:

    “传统Transformer的做法是:如果有1000个单词,就会查看这1000个单词之间所有可能的关联,产生100万种组合。而SSA的核心思想是:只有一部分关联是真正有意义的,我们只处理这些有意义的部分。”

    这个看似朴素的思路,背后却是对注意力机制本质的重新思考。

    在训练好的模型中,研究者发现一个有趣的现象:绝大多数注意力权重都趋近于零。也就是说,模型实际上并不需要”平等地看”所有Token——它只需要精准定位那些真正承载语义信息的位置。

    SSA的解决方案是内容依赖的选择机制(Content-Dependent Selection)

    • 对于每一个Query,模型先判断序列中哪些位置值得关注
    • 然后只在这些被选中的位置上精确计算注意力
    • 跳过的位置完全不参与计算,既不占用算力,也不消耗内存

    这意味着SSA不再假设”任意一对Token都可能重要”,而是让模型根据语义内容自主判断”该去哪里看”。关键信息出现在序列开头、结尾,还是第1100万个Token附近,理论上都能被精准定位。

    SSA实现了三个关键突破:

    表格

    特性传统TransformerSSA架构
    计算复杂度O(n²),二次方增长O(n),线性扩展
    内存占用O(n²)O(n)
    选择机制无差别全量计算内容相关动态选择

    性能实测:52倍速提升背后的数据

    Subquadratic公布的基准测试数据相当吸睛:

    MRCR v2多参考检索基准(衡量长上下文信息检索能力的核心测试):

    • SubQ研究版:83.0分
    • GPT-5.5:74.0分
    • Claude Opus 4.7:32.2分

    SWE-Bench软件工程基准(衡量代码理解和修改能力):

    • SubQ:82.4%
    • Claude Opus 4.6:81.42%
    • Gemini 3.1 Pro:80.6%

    RULER 128K长上下文测试

    • SubQ:95.0%
    • Claude Opus 4.6:94.8%

    更令人印象深刻的是速度数据。在B200 GPU上对比FlashAttention-2标准实现:

    表格

    上下文长度SSA加速倍数
    128K Token7.2倍
    256K Token13.2倍
    512K Token23.0倍
    1M Token52.2倍

    随着上下文长度增加,SSA的优势呈指数级放大。在1200万Token规模下,Subquadratic宣称注意力计算量比标准稠密注意力减少近1000倍。

    成本对比更为直观。以RULER 128K基准的API调用成本为例:

    • SubQ:约8美元
    • Claude Opus:约2600美元
    • 差距:超过300倍

    13人团队如何撬动这场革命

    Subquadratic的团队规模堪称”迷你”:两位创始人加上11位来自Meta、Google、牛津、剑桥、字节跳动、Adobe的PhD研究人员,总计13人。

    CEO Justin Dangel是一位连续创业者,履历横跨健康科技、保险科技和消费品领域。CTO Alex Whedon此前在Meta担任软件工程师,之后在TribeAI出任生成式AI负责人,主导过多个企业级AI项目。

    就是这样一支小团队,在种子轮获得了2900万美元融资,估值达5亿美元。投资方阵容颇为豪华:由Tinder联合创始人Justin Mateen旗下JAM Fund与前软银愿景基金合伙人Javier Villamizar领投,跟投方包括Anthropic、OpenAI、Stripe、Brex的早期投资人。

    这个融资规模在AI领域并不算夸张,但它传递的信号足够清晰:即便在巨头林立的AI赛道,架构层面的创新仍然被资本市场看好

    质疑与审视:革命还是营销?

    然而,SubQ的亮相也伴随着不少质疑声。

    首先是权重来源问题。 前OpenAI Sora团队成员、AI工程师Will Depue指出,SubQ”几乎可以肯定是对Kimi或DeepSeek稀疏注意力的微调”。Subquadratic CTO Alex Whedon随后回应确认,公司确实将开源模型的权重作为起点,”这是基于我们目前的资金规模和公司发展阶段做出的选择”。

    这意味着SubQ并非从零训练的全新模型,而是在已有开源架构基础上的优化迭代。这个信息立即引发业界讨论:SSA宣称的核心创新,有多少真正属于原创?

    其次是基准测试的独立性问题。 Subquadratic公布的部分数据来自”第三方验证的生产版”(65.9%),与研究版(83%)存在明显差距。更关键的是,12M token的完整基准测试只有”大海捞针”(Needle in a Haystack)一项,这是长上下文测试中最简单的场景,只考察能否找到特定信息,并不评估多跳推理或证据整合等复杂能力。

    清华大学交叉信息研究院博士游嘉诚也在社交平台指出,SSA宣称的”线性内存扩展”特性并非独有——FlashAttention早已实现这一点,却被Subquadratic列为SSA的三大独有优势之一。

    第三是选择机制的循环悖论。 有研究者提出质疑:要判断某个Token是否值得参与注意力计算,本质上需要先将它与Query比较一次。但”比较”这个动作本身的代价,正是二次方复杂度的来源。SSA如何绕开这个逻辑矛盾,目前官方披露的技术细节尚不足以完全解答。

    落地路径:从API到垂直场景

    尽管质疑重重,Subquadratic已经开始商业化布局。

    目前公司推出三款产品进入私测阶段:

    SubQ API:提供完整的1200万Token上下文窗口,允许开发者将超长文档直接喂给模型,无需RAG切分。

    SubQ Code:面向代码场景的智能体,能够理解整个代码仓库的结构和依赖关系,完成跨文件重构、bug定位、测试生成等任务。

    SubQ Search:深度研究工具,适合需要分析大量论文、报告、合同等长文档的场景。

    公司还宣布,计划在2026年第四季度推出支持5000万Token上下文窗口的模型,并为企业客户提供自定义后训练工具。

    架构革命的深层意义

    无论SubQ最终能否经受住独立验证,SSA架构的出现在AI发展史上都有其标志性意义——它将”算力效率”这个议题推到了台前。

    过去几年,行业默认的演进路径是:模型更强→更多参数→更多数据→更多显卡→更多电费。这种”大力出奇迹”的逻辑让AI能力飞速提升,却也造成了资源消耗的急剧膨胀。GPT-5.5一次训练的碳排放,相当于数十辆汽车一年的排放量;头部AI公司的算力支出动辄数十亿美元。

    如果类似SSA的线性复杂度架构能够成熟并普及,AI竞争的天平可能会从”谁堆更多GPU”转向”谁更会省算力”。这对于中小企业、研究机构、发展中国家的AI发展,都是利好消息。

    更重要的是,SSA证明了架构层面的创新仍有巨大空间。Transformer统治AI九年,不是因为它完美,而是因为没有人找到足够好的替代方案。当二次方复杂度成为行业痛点,当算力成本成为普及门槛,总有人会去啃这块硬骨头。

    Subquadratic不是第一个尝试者,也不会是最后一个。但它的出现至少说明:在AI领域,小团队凭借架构创新,同样可以挑战巨头的技术护城河

    展望:混合架构与长期演进

    SSA和Transformer的关系,更可能是共存而非替代。

    IBM的Granite 4.0已经采用了一种9:1混合架构——90%的层用状态空间模型(SSM)处理长距离上下文,10%的层用Transformer进行精细的局部解析。这种设计逻辑很清晰:用高效注意力处理超长序列的建模需求,用稠密注意力处理需要精确回忆的任务。

    未来三到五年,主流模型可能会走向混合架构:日常任务用SSA降本增效,极端长上下文场景用稠密注意力保精度。RAG不会被完全淘汰,而是退居极端场景的”最后防线”。

    长期来看,如果SSA或其他线性复杂度架构能够解决训练稳定性、生态系统成熟度等问题,AI架构的版图可能会迎来真正的变革。但这一天何时到来,目前仍无定论。

    结语

    Subquadratic的SubQ给行业带来了一道思考题:当算力成为AI普及的门槛,架构创新能否成为破局之道?

    答案是肯定的,但道路漫长。13人团队撬动九年的技术困局,这个故事足够激动人心;但从激动人心到真正落地,还需要更多验证、更多迭代、更多时间的打磨。

    对于普通开发者和企业用户而言,眼下最务实的态度或许是:保持关注,谨慎尝试,在RAG的确定性与超长上下文的诱惑之间,找到适合自己的平衡点

    技术革命从来不是一蹴而就。它往往始于一个大胆的假设,经历无数质疑与修正,最终才能沉淀为真正改变行业的基础设施。SubQ的出现,或许正是这场漫长变革的一个起点。

    延伸阅读

    • Subquadratic官方技术博客:https://subq.ai
    • SSA架构原理论文(申请内测后可获取)
    • MRCR v2基准测试官方页面