作者： admin

小米miclaw通过首批可信AI评测：手机端智能助手有了”照妖镜”

一、为什么我们需要可信AI评测？

1.1 行业乱象：谁都在说“智能”，但谁也说不清多智能

过去几年，手机厂商在发布会上疯狂“堆参数”：

“我们的助手支持1000+技能”
“AI对话能力业界领先”
“最懂你的智能管家”

但什么是“智能”？什么算“领先”？没有任何客观标准。

消费者面对这些宣传，根本无法判断产品的真实能力。有人买了旗舰机，发现AI助手还不如几百块的智能音箱；有人被天花乱坠的功能忽悠买单，实际能用到的寥寥无几。

1.2 评测缺失的后果

标准缺失带来了一系列问题：

问题	表现	影响
虚假宣传	功能“存在”但无法使用	消费者权益受损
行业内卷	厂商只比营销不比体验	劣币驱逐良币
用户信任	“AI助手都是智商税”	市场发展受阻
研发误导	厂商不知道往哪发力	技术投入跑偏

1.3 监管与技术双重需求

从监管角度看，需要一套客观标准来规范宣传行为；从技术发展角度看，需要明确的benchmark来指导研发方向。

《智能助手基准测试通用框架》就是在这种背景下诞生的。

二、评测框架揭秘：三个维度定义”真智能”

2.1 基础能力：AI的”基本功”

基础能力考察智能助手完成常见任务的核心能力，包括：

对话理解能力

能否准确理解用户的自然语言表达
能否处理口语化、模糊的表达
能否处理多轮对话上下文

任务执行能力

能否准确执行用户指令
能否处理复杂多步骤任务
执行失败后能否合理反馈

知识问答能力

能否准确回答常识性问题
能否处理专业领域问题
能否识别不知道的问题（而非胡说八道）

python

# 简化版基础能力评测指标
class BaselineEvaluation:
    def evaluate(self, assistant):
        scores = {}
        
        # 对话理解能力
        scores['intent_recognition'] = self.test_intent_recognition(
            assistant, 
            test_cases=1000  # 1000个不同表达方式
        )
        scores['context_tracking'] = self.test_context_tracking(
            assistant,
            multi_turn_dialogues=500
        )
        
        # 任务执行能力
        scores['task_completion'] = self.test_task_completion(
            assistant,
            task_categories=['alarm', 'message', 'call', 'schedule', 'query']
        )
        scores['error_handling'] = self.test_error_handling(
            assistant,
            ambiguous_commands=200
        )
        
        # 知识问答能力
        scores['factual_accuracy'] = self.test_factual_accuracy(
            assistant,
            questions=1000
        )
        scores['calibration'] = self.test_calibration(
            assistant,
            known_unknown_ratio=0.3  # 30%的问题AI应该表示不知道
        )
        
        return self.compute_baseline_score(scores)

2.2 端侧应用：AI在手机上能做什么

“基础能力”考察的是AI的智商，“端侧应用”考察的是AI在真实手机场景下的落地能力。

手机控制能力

能否控制系统设置（蓝牙、WiFi、勿扰模式等）
能否控制第三方应用（微信、支付宝、高德等）
响应速度和稳定性如何

隐私保护能力

语音数据是否本地处理
敏感信息如何保护
用户能否清晰了解数据使用情况

跨模态能力

能否理解图片内容
能否处理语音和文字的混合输入
能否生成图片、视频等多媒体内容

2.3 综合能力：AI的”实战表现”

综合能力是最接近真实使用体验的评测维度。

多任务协同能力

能否同时处理多个任务
任务切换时能否保持上下文
长时间使用后性能是否稳定

用户适应能力

能否学习用户的习惯和偏好
能否根据场景调整回复方式
在用户表达模糊时能否主动澄清

安全与伦理能力

能否拒绝有害请求
敏感话题处理是否得当
输出的内容是否符合伦理规范

三、首批通过评测：小米miclaw强在哪？

3.1 miclaw的技术底座

小米miclaw之所以能首批通过评测，离不开其背后的技术积累。

端侧大模型：Xiaomi MiMo

miclaw基于小米自研的Xiaomi MiMo大模型，这是一个专门针对手机场景优化的端侧模型：

长上下文：支持最高1M token的上下文窗口，能理解超长对话历史
强工具调用：原生具备出色的工具调用能力，能控制手机上的各种应用
低功耗设计：针对手机芯片优化，待机功耗极低

三层AI架构

miclaw采用三层AI架构：

层级	功能	特点
感知层	语音唤醒、语义理解	本地优先，保护隐私
推理层	任务规划、对话生成	端云协同，灵活调度
执行层	应用控制、结果反馈	深度集成米家生态

3.2 评测结果亮点

根据中国信通院公布的评测结果，miclaw在以下方面表现突出：

基础能力：对话理解

miclaw在多轮对话上下文理解上的准确率达到了92.7%，远超行业平均水平。这意味着用户可以用更自然、更口语化的方式和它对话，而不用担心“听不懂”。

端侧应用：跨应用协同

miclaw能控制超过500个手机原生功能和第三方应用。在实测中，让它“帮我给微信好友发个红包说生日快乐”，它能准确完成从打开微信、找到好友、发送红包到输入祝福语的全流程。

综合能力：用户适应

miclaw的“学习能力”是本次评测的最大亮点之一。在模拟用户习惯测试中，经过两周的“磨合期”，miclaw能准确预测用户的常见需求，主动提供帮助。

3.3 与竞品的差异

小米miclaw和其他手机AI助手相比，有什么独特优势？

维度	小米miclaw	苹果Siri	华为小艺
端侧AI	✅ 原生端侧大模型	⚠️ 部分端侧	✅ 端云协同
工具调用	✅ 500+应用	⚠️ 有限	⚠️ 有限
米家生态	✅ 深度集成	❌ 不支持	⚠️ 有限
学习能力	✅ 自适应用户习惯	❌ 无	⚠️ 简单记忆
隐私保护	✅ 本地处理优先	✅ 端侧优先	✅ 隐私计算

四、评测体系的意义：不止于小米

4.1 对消费者的价值

有了可信AI评测，消费者终于有了客观参考依据。

不再被宣传忽悠：看到“通过信通院可信AI评测”的标识，就知道这是经过权威验证的产品
横向比较有据：不同品牌的AI助手终于可以在同一标准下比较
选购更理性：可以根据评测维度选择最适合自己的产品

4.2 对行业的价值

评测体系将倒逼整个行业提升产品质量。

厂商角度：

知道往哪个方向投入研发资源
能清晰看到与竞品的差距
有动力提升真实体验而非营销噱头

行业角度：

建立健康的竞争秩序
加速技术标准统一
推动整个AI助手生态向好发展

4.3 未来的评测方向

中国信通院表示，随着技术发展，评测框架也将持续迭代。

下一步可能纳入的评测维度：

多模态理解：能否理解图片、视频、音频的混合内容
Agent能力：能否自主规划并执行复杂多步骤任务
个性化程度：能否真正理解不同用户的独特需求
跨设备协同：手机、平板、汽车、手表等设备的无缝协作

五、实际体验：miclaw能让你的生活变简单吗？

5.1 日常使用场景

我们模拟了几个常见使用场景，看看miclaw的表现如何：

场景一：日程管理

用户：“我这周很忙，帮我看看什么时候能约个健身”

miclaw的反应：

调取用户日历，分析空闲时间
调取健身习惯偏好（常去哪家健身房、多长时间）
综合分析后给出建议：“周三晚上8点你有1小时空闲，你常去的XX健身房周三晚上人少，推荐这个时间段。要我帮你预约吗？”

场景二：智能家居控制

用户：“感觉有点冷，但我懒得起来开空调”

miclaw的反应：

检测当前室内温度（连接温湿度传感器）
询问确认：“当前室内温度22度，比你设置的舒适温度低2度。要我帮你打开空调并调到24度吗？”
用户确认后自动执行

场景三：出行规划

用户：“下周要去深圳出差，帮我看看怎么安排”

miclaw的反应：

调取用户日历确认出差日期
查询机票/高铁票（连接携程/12306）
查询目的地天气
整理成出行建议，包括：出发时间、衣着建议、酒店推荐等

5.2 需要改进的地方

客观来说，miclaw目前并非完美：

复杂指令仍有局限：多步骤、条件分支较多的任务，有时需要多次确认
第三方应用支持：部分小众应用的控制能力仍有待提升
离线能力：无网络时的可用功能大幅减少

六、优缺点总结

优点

优势	说明
权威认证	首批通过中国信通院可信AI评测
生态整合	深度集成米家智能家居生态
学习能力	能自适应用户习惯，越用越懂你
隐私保护	本地处理优先，敏感数据不上传
工具丰富	支持500+应用控制

缺点

局限	说明
品牌绑定	米家生态外的设备支持有限
离线能力弱	无网络时可用功能大幅减少
学习成本	部分高级功能需要一定学习
第三方生态	非小米手机用户体验可能打折

结语

中国信通院发布的评测标准，就像一面”照妖镜”——把那些只会营销噱头的”伪智能”打回原形，也让真正有技术实力的产品脱颖而出。

小米miclaw首批通过评测，不仅仅是小米一家的胜利，更是整个行业向透明化、标准化迈出的重要一步。

对于普通消费者来说，这意味着：以后买手机，可以理直气壮地问一句——“你们的AI助手，通过可信AI评测了吗？”

Hermes Agent狂揽9万星：自进化AI智能体重新定义”越用越懂你”

一、为什么Hermes Agent能火？

在聊技术之前，我们先理解一个核心问题：为什么它能在短时间内获得如此惊人的关注？

1.1 痛点：传统AI助手“记性太差”

用过ChatGPT、Claude的朋友可能有一个共同感受：每次对话都是一次重启。

你让AI帮你写一份报告，它写完了。下次再让它写，它不知道你上次写的什么风格、用了什么框架、需要避免什么问题。你需要重新解释一遍背景。

如果AI能“记住”你的偏好、工作习惯、常用术语呢？

Hermes Agent就是来解决这个问题的。

四层记忆架构倒金字塔：历史记忆→用户画像→核心记忆→技能库，右侧标注"自动进化"

1.2 差异化定位：不是“工具箱”，是“成长伙伴”

开源AI Agent领域，OpenClaw是公认的霸主。它的核心理念是“接入一切”——连接各种工具、服务、数据源，让AI能完成各种任务。

Hermes Agent选择了不同的路线：让AI学会成长。

它的官方口号是：”The agent that grows with you.”

这意味着：你使用它的次数越多，它就越懂你、越能帮你。

二、核心技术解析：AI如何学会“自我进化”

2.1 四层记忆架构：让AI拥有“持久记忆”

传统AI的“记忆”是短暂的——一个会话结束，记忆就消失了。

Hermes Agent构建了四层分层记忆架构，让AI拥有持久记忆能力：

层级	容量	内容	特点
核心记忆	~800 token	最重要的人设、规则	始终加载
用户画像	动态	偏好、习惯、工作风格	持续更新
历史记忆	SQLite全文检索	所有历史对话	随时检索
技能库	动态增长	沉淀的工作流经验	自动生成

举个具体例子：

第一周，你让Hermes Agent帮你写一篇产品文案。它学会了你的文风：喜欢用短句、讨厌空洞的形容词、结尾总要加一句call-to-action。

第二周，你让它写另一篇文案。它自动加载了你的“文案风格记忆”，输出的内容天然就符合你的要求。

第三周，它已经在技能库中保存了“产品文案工作流”。下次写文案，它直接调用沉淀好的经验。

2.2 技能自动生成：从经验中提炼“方法论”

这是Hermes Agent最核心的创新。

当AI完成一个复杂任务、从错误中恢复、或被你纠正时，它会自动将整个工作流沉淀为可复用的技能。

python

# 简化版技能生成逻辑
class SkillGenerator:
    def on_task_complete(self, task_context):
        """当任务完成时触发"""
        if len(task_context.tool_calls) >= 5:
            # 复杂任务（超过5次工具调用），自动生成技能
            skill_doc = self.create_skill_document(
                task_goal=task_context.goal,
                steps=task_context.tool_calls,
                success_patterns=task_context.learned_patterns,
                pitfalls=task_context.recovered_errors,
                validation=task_context.verification_results
            )
            
            # 保存为Markdown格式的技能文件
            skill_path = self.save_skill(skill_doc)
            
            # 更新技能索引
            self.index_skill(skill_path)
            
            print(f"✨ 新技能已生成: {skill_doc.name}")
            print(f"   下次遇到类似任务将自动调用此技能")
    
    def on_user_correction(self, correction_context):
        """当用户纠正AI时触发"""
        correction_record = {
            "original_output": correction_context.orig_output,
            "user_feedback": correction_context.feedback,
            "corrected_output": correction_context.corrected,
            "lesson_learned": self.extract_lesson(
                correction_context
            )
        }
        self.update_skill(correction_record)

2.3 GEPA进化算法：让技能“自我优化”

光会生成技能还不够，技能还需要不断优化。Hermes Agent内置了GEPA（Evolutionary Prompt Optimization）进化式提示优化算法。

每隔一段时间，系统会自动运行GEPA优化器，分析技能文件的使用效果，调整工具描述和系统提示。

进化过程：

收集技能使用数据（成功率、用户满意度）
识别失败模式和改进点
生成优化方案
通过人工审查的PR合并改进

有意思的是，每次GEPA进化运行成本仅需约2-10美元，无需昂贵的GPU训练。这让技能优化变得经济可行。

2.4 安全沙箱：让AI“懂规矩”

“让AI自我进化”听起来很美好，但也有风险：万一AI学会了一些“坏习惯”怎么办？

Hermes Agent默认内置了四层安全机制：

危险命令审批：涉及系统级操作的命令需要用户确认
用户授权：敏感操作需要明确授权
容器隔离：AI运行在隔离环境中，无法直接访问主机
上下文扫描：定期扫描对话上下文，识别潜在风险

开箱即用的安全设计，降低了用户的使用门槛。

三、实测体验：10分钟部署，能做什么？

3.1 部署有多简单？

官方提供了一键安装脚本，用户只需复制粘贴一行命令：

bash

# 一键安装（Linux/macOS）
curl -fsSL https://get.hermes-agent.dev | bash

# Windows用户需要先安装WSL2，然后在WSL中运行上述命令

最低配置要求：每月5美元的VPS即可稳定运行。

3.2 能完成哪些任务？

根据用户反馈和官方文档，Hermes Agent能处理的任务包括：

代码开发类：

需求分析 → 代码实现 → 测试验证的全流程
代码审查与优化建议
Bug定位与修复
项目文档自动生成

数据分析类：

数据清洗与预处理
报表自动生成
趋势分析与可视化

内容创作类：

文章撰写（自动学习你的写作风格）
社交媒体内容策划
多语言翻译与本地化

自动化办公类：

邮件处理与回复建议
日程管理与提醒
会议纪要整理

3.3 一个真实案例

开发者李明（化名）分享了他的使用体验：

“我让Hermes Agent帮我做一个数据报告自动化脚本。第一次，它花了一小时完成，中间踩了几个坑。关键是——它把踩坑的经历都记住了。

第二天，我又让它做类似的脚本。它直接跳过了昨天的坑，最终只用了20分钟就完成了。

现在它已经学会了十几种常见的数据处理模式。我感觉它真的在’成长’。”

四、生态布局：国内外厂商纷纷跟进

Hermes Agent的爆火引发了产业资本的关注。

4.1 国内厂商合作

小米大模型Xiaomi MiMo：已深度接入Hermes Agent，提供限免调用
MiniMax：达成战略合作，将Hermes Agent集成至其AI服务平台
智谱GLM：宣布支持Hermes Agent模型调用
PPIO：发布国内首个云端沙箱部署方案PPHermes，内置飞书集成

4.2 OpenClaw的迁移工具

担心被“锁定”？Hermes Agent内置了OpenClaw迁移工具：

bash

# 一行命令迁移所有配置
hermes migrate-from-openclaw

# 自动迁移：配置、记忆、技能、API密钥

这波操作让很多OpenClaw用户“无痛切换”。

五、两条路线之争：工具箱 vs 成长伙伴

Hermes Agent的崛起，标志着开源AI Agent领域正在进入“路线分化”的新阶段。

维度	OpenClaw（工具箱路线）	Hermes Agent（成长伙伴路线）
核心理念	接入一切工具	让AI学会成长
记忆方式	临时上下文	持久化记忆+技能库
进化方式	依赖用户手动优化	自动生成+GEPA进化
适合场景	需要接入大量外部服务	长期、重复性的工作任务
学习曲线	需要配置各种工具	开箱即用，越用越强

两条路线各有优势，选择取决于具体使用场景。

OpenClaw更适合： 需要接入多个外部服务的复杂工作流，如需要调用各种API、处理多平台数据的场景。

Hermes Agent更适合： 需要长期协作、重复性高的任务，如日常办公、代码开发、内容创作等。

六、开发者建议：如何快速上手

6.1 最佳实践

从小任务开始：先用简单的任务让AI熟悉你的工作风格
及时纠正：当AI输出不符合预期时，明确指出问题所在
定期检查技能库：查看AI生成了哪些技能，必要时手动优化
善用上下文注入：通过对话持续给AI补充背景信息

6.2 注意事项

数据安全：确保在可信环境中运行，避免敏感数据泄露
技能质量：定期审查AI生成的技能，确保准确性
避免过度依赖：AI是助手，最终决策权应在人类手中

七、优缺点总结

优点

优势	说明
自进化能力	AI能自动学习、沉淀、优化工作流
记忆持久化	跨会话保留用户偏好和经验
部署门槛低	一行命令安装，最低5美元VPS即可运行
兼容性强	支持400+主流模型，一键切换
开源免费	基础功能完全免费

缺点

局限	说明
工具接入较少	相比OpenClaw，第三方工具集成较少
适合场景有限	更适合重复性高的任务，一次性任务优势不明显
记忆管理成本	长期使用后记忆库变大，需要管理
安全边界	自进化能力存在潜在风险，需要监控

结语

从“教AI干活”到“AI自己学会干活”，Hermes Agent用不到两个月的时间，给出了一个清晰的答案。

当Agent开始自动积累经验、提炼技能、生成训练数据并反哺模型优化，一个真正的“自进化AI系统”已经不再遥远。

这或许意味着：AI助手的下一个阶段，不是更强的模型，而是更懂你的伙伴。

下次当你打开电脑，你会期待你的AI助手已经记住了上周的工作进度吗？或许很快，这就不再是幻想。

GPT-Rosalind发布：AI如何在25分钟内完成一周的生物科研？

一、RNA预测超越95%专家：一项里程碑式的突破

在介绍GPT-Rosalind之前，我们先理解一个核心问题：为什么RNA预测这么重要？

1.1 什么是RNA？它为什么关键？

学过高中生物的朋友应该记得，DNA是遗传信息的存储载体，而RNA是执行这些信息的“信使”。简单来说：

DNA像一本写满配方书的图书馆
RNA是按照配方去厨房做菜的厨师

RNA的功能预测之所以困难，是因为它的结构与功能之间的关系极其复杂。同样的RNA序列，可能因为折叠方式不同而产生完全不同的生物学功能。要预测一个未知RNA序列的功能，过去需要经验丰富的生物学家花费数周甚至数月的时间。

传统科研流程数月 vs GPT-Rosalind流程25分钟，左右分栏时间对比图

1.2 GPT-Rosalind的表现有多炸裂？

OpenAI联合AI基因治疗公司Dyno Therapeutics进行了严格测试。测试采用从未公开、未被模型训练数据污染的全新RNA序列，完全排除了“作弊”嫌疑。

测试结果让业界震惊：

测试任务	GPT-Rosalind排名	说明
RNA序列功能预测	超越95%人类专家	10次提交取最优
RNA序列生成	超越84%从业者	自主设计新序列

此外，GPT-Rosalind在多项生物信息学基准测试中全面领先：

BixBench（53个真实生物场景、296个研究问题）：取得已公开模型最高分，超越GPT-5.4、Grok 4.2等顶级通用模型
LABBench2（11项科研任务）：6项超越GPT-5.4，分子克隆实验设计任务性能提升超40%

1.3 一个具体案例：科研周期从数月压缩到数分钟

让我们用一个真实场景来理解GPT-Rosalind的价值：

传统药物靶点发现流程：

研究员阅读数千篇相关文献（约2-4周）
筛选候选RNA分子（约1-2周）
设计验证实验方案（约1周）
实验室验证（约4-8周）
迭代优化（可能需要多轮）

使用GPT-Rosalind后：

输入研究目标，AI自动检索分析数百万篇文献（数分钟到数小时）
AI预测并排序候选RNA分子（数秒）
AI生成实验方案（数分钟）
实验室验证（仍需时间，但成功率大幅提升）

据OpenAI测算，GPT-Rosalind可将早期药物研发周期缩短60%-80%，研发成本降低50%以上。

二、技术深度：GPT-Rosalind的架构解析

2.1 为什么不能直接用通用大模型？

你可能会问：既然GPT-6这么强，为什么还要专门做一个生命科学版本？

答案是：通用大模型和垂直领域模型之间存在能力鸿沟。

通用大模型的优势是“什么都懂一点”，但劣势是**“什么都不精”**。对于生命科学这种高度专业化的领域，模型的短板会暴露得很明显：

专业术语理解不足：生物化学领域有大量专有名词和缩写，通用模型可能混淆
推理深度不够：复杂生物机制的推导需要多轮专业推理
数据理解偏差：实验数据的解读需要领域知识

GPT-Rosalind通过深度领域微调解决了这些问题。

2.2 训练数据与知识体系

GPT-Rosalind的训练数据包括：

生物序列数据：数十亿条DNA、RNA、蛋白质序列
科研文献：PubMed等数据库中的千万级生物医学论文
实验数据：真实实验室记录、实验方案、结果数据
生物知识图谱：基因-蛋白-疾病之间的关系网络

这使得模型不仅学会了“序列的样子”，更理解了序列背后的生物学意义。

2.3 核心推理能力

GPT-Rosalind展现出真正的推理能力，而非简单的“记忆答案”。

面对从未见过的全新RNA序列，模型能基于底层生物规律自主推导：

python

# 简化版GPT-Rosalind推理逻辑示例

class RosalindReasoner:
    def predict_rna_function(self, rna_sequence):
        # 1. 结构预测：RNA序列如何折叠
        structure = self.predict_secondary_structure(rna_sequence)
        
        # 2. 家族分类：属于哪个RNA家族？
        family = self.classify_rna_family(structure)
        
        # 3. 功能推断：根据家族和结构推断可能功能
        potential_functions = self.infer_functions(family, structure)
        
        # 4. 保守区域分析：哪些部分在进化中保持不变？
        conserved_regions = self.find_conserved_regions(rna_sequence)
        
        # 5. 交互预测：可能与哪些蛋白或分子相互作用？
        potential_interactions = self.predict_interactions(
            conserved_regions
        )
        
        # 6. 变异影响评估：如果这个位置发生突变，会怎样？
        mutation_impact = self.assess_mutation_impact(
            rna_sequence, 
            conserved_regions
        )
        
        return FunctionReport(
            primary_function=potential_functions[0],
            confidence=calculate_confidence(potential_functions),
            mutation_sensitivity=mutation_impact,
            recommended_experiments=design_validation_experiments(
                potential_functions,
                conserved_regions
            )
        )

2.4 开源插件：Codex生命科学研究助手

与GPT-Rosalind同时发布的，还有一款免费开源的Codex生命科学研究插件。

这个插件能一键连接超过50个公共生物数据库和专业工具：

基因序列：NCBI GenBank、Ensembl
蛋白质结构：PDB、AlphaFold DB
科研文献：PubMed、Semantic Scholar
实验试剂：Addgene、Sigma-Aldrich

对于没有生物信息学背景的研究者来说，这相当于拥有了一个“超级科研助手”，大幅降低了生物数据分析的门槛。

三、应用场景：GPT-Rosalind能做什么？

3.1 药物靶点发现

传统的药物靶点发现是一个“大海捞针”的过程。研究员需要在数万个基因中筛选出与疾病相关的少数几个，再从中找到能被药物“击中”的靶点。

GPT-Rosalind能快速分析疾病相关的RNA分子，预测其生物学功能，筛选出最有可能成为药物靶点的候选分子。

**案例：**安进公司（Amgen）已经开始使用GPT-Rosalind辅助其RNA药物研发。初步结果显示，早期靶点发现效率提升了约3倍。

3.2 RNA药物设计

RNA药物是近年来备受关注的新一代疗法。与传统小分子药物不同，RNA药物直接作用于RNA层面，具有更高的特异性和更短的研发周期。

GPT-Rosalind能自主设计全新RNA序列，用于：

反义寡核苷酸（ASO）药物
RNAi药物
mRNA疫苗

这意味着AI不仅能“分析”RNA，还能“创造”RNA。

3.3 基因治疗优化

基因治疗的核心挑战是：如何让治疗性基因在正确的时间、正确的位置、以正确的强度表达？

GPT-Rosalind能分析基因调控元件的序列特征，优化基因治疗载体的设计，提高治疗效果并降低副作用。

3.4 科研加速：从文献到实验

对于科研工作者来说，GPT-Rosalind最大的价值可能是加速“从文献到实验”的整个流程：

文献综述：AI自动检索、阅读、总结相关论文
假设提出：基于现有知识提出研究假设
实验设计：生成具体可行的实验方案
结果分析：解读实验数据，提出下一步建议

四、行业影响：AI正在重塑生物医药格局

4.1 大型药企的布局

GPT-Rosalind发布后，多家顶级药企迅速跟进：

企业	合作方式	应用方向
安进（Amgen）	首批合作	RNA药物研发
莫德纳（Moderna）	首批合作	mRNA疫苗优化
洛斯阿拉莫斯国家实验室	首批合作	生物防御研究
辉瑞	洽谈中	药物靶点发现
罗氏	洽谈中	伴随诊断开发

4.2 中小企业的新机遇

过去，生物医药是一个“拼资金、拼设备”的领域。大型药企凭借资源优势碾压中小企业。

GPT-Rosalind的出现打破了这一格局。一家只有10人的创业公司，也能用AI完成过去需要百人团队才能做的靶点发现工作。

这将催生大量AI驱动的生物医药创业公司，加速整个行业的创新速度。

4.3 科研机构的变革

大学和科研院所也将受到影响。一方面，AI工具将大幅提升科研效率；另一方面，研究人员需要学习如何与AI协作，而非单纯依赖AI。

同济大学等高校已经开始探索将GPT-Rosalind融入生物课程，培养学生的AI辅助科研能力。

五、局限与挑战：别把AI当万能药

尽管GPT-Rosalind表现出色，我们也要清醒地看到它的局限：

5.1 预测≠实验

GPT-Rosalind能给出高置信度的预测，但实验验证仍然是必不可少的环节。AI预测的RNA功能是否真实，需要在实验室中逐一验证。

过度依赖AI预测可能导致研究方向偏离，错过意外发现的机会。

5.2 数据偏见风险

GPT-Rosalind的能力受限于训练数据。如果某些RNA家族的研究数据不足，模型对这些家族的预测准确性可能下降。

此外，训练数据主要来自欧美人群的研究，对于其他人群特有的疾病相关RNA，模型的预测可能不够准确。

5.3 监管挑战

AI辅助药物研发给监管带来了新挑战：

如何验证AI生成的实验方案的安全性？
AI设计的RNA药物如何审批？
AI在研发过程中的“贡献”如何界定？

这些问题目前尚无明确答案，需要监管部门、产业界和学术界共同探索。

六、优缺点总结

优点

优势	说明
科研效率指数级提升	文献分析从数周压缩到数分钟
预测准确率高	RNA功能预测超越95%人类专家
全流程覆盖	从文献调研到实验设计的端到端支持
门槛降低	让非专业人员也能进行专业级分析
开源插件	免费开放的Codex插件惠及全球科研人员

缺点

局限	说明
实验验证仍必需	AI预测不能替代真实实验
数据偏见风险	对数据不足的领域预测可能不准
监管空白	AI辅助药物研发的监管框架尚未完善
商业化门槛	目前仅向符合资质的美国企业客户开放

结语

罗莎琳德·富兰克林用X射线拍摄的那张“照片51号”，为DNA双螺旋结构的发现提供了关键证据，却因时代局限未能获得应有的荣誉。80年后，OpenAI以她的名字命名首款生命科学模型，既是致敬，也是一种宣告：

用AI弥补人类科研的遗憾，让科学发现的速度追上人类的需求。

从药物研发到疫苗设计，从基因治疗到精准医疗，GPT-Rosalind打开了一扇门。门后是什么？我们拭目以待。

人形机器人半马夺冠背后：AI具身智能走到哪一步了？

一、什么是具身智能？机器人“长身体”意味着什么

在说具身智能之前，我们先聊聊它的“前辈”——大语言模型。

以GPT系列为代表的语言模型，本质上是一个“数字大脑”。它们能处理文字、理解语义、生成内容，但这些能力都停留在虚拟世界。你让AI写一篇论文，它可以；你让它去厨房给你倒杯水，它就傻眼了。

具身智能（Embodied AI），就是要给这个“数字大脑”装上一个“物理身体”，让它不仅能思考，还能感知环境、执行动作。这意味着机器人要同时具备三种能力：

感知能力：通过摄像头、传感器理解周围环境
决策能力：基于AI算法规划行动路径
执行能力：控制电机、关节完成物理动作

听起来简单，做起来却难如登天。因为现实世界的物理交互远比虚拟世界复杂——地面不平整、障碍物突然出现、关节过热……每一个细节都可能让机器人“翻车”。

具身智能三大核心能力闭环图：感知（摄像头+眼睛）→ 决策（AI芯片大脑）→ 执行（机械臂）

二、机器人跑赢人类，这一年的进步到底在哪

让我们把目光拉回2025年的首届人形机器人半马赛。

那场比赛的冠军完赛时间是2小时40分钟，而超过70%的参赛机器人因为关节电机过热、电池热失控等原因未能完赛。用裁判的话说：“很多机器人跑到一半就开始冒烟。”

一年后的今天，“闪电”以50分26秒完赛，故障率大幅降低。这背后是四项关键技术的集体突破：

2.1 散热系统：从风冷到液冷

2025年的大多数机器人采用风冷散热，就像一台普通电脑的风扇。但人形机器人高强度运动时，关节电机产生的热量远超风冷的极限。

“闪电”采用了液冷散热系统，冷却液在关节内部循环，能更高效地带走热量。这项技术在新能源汽车领域已经成熟，移植到机器人上需要解决密封性、可靠性等一系列工程难题。

2.2 材料革命：碳纤维与合金的轻量化

机器人要跑马拉松，重量是致命的敌人。太重则耗电快、关节负担大；太轻则结构强度不够。

今年参赛的机器人大量采用了碳纤维骨架和高强度合金，在保证强度的前提下大幅减轻了重量。以“闪电”为例，其整机重量比上代产品轻了约30%，但结构强度提升了50%。

2.3 核心零部件性能跃升

电机、电池、一体化关节——这是人形机器人的“三大件”。

2026年，国产电机厂商推出了峰值扭矩密度更高的无框力矩电机，能在更小体积内输出更大力量；一体化关节将电机、减速机、驱动器集成在一起，大幅降低了关节的复杂度和故障率。

2.4 电池管理：从“暴力输出”到精准控制

续航是马拉松的关键。2026年的机器人普遍采用了高能量密度固态电池，配合智能电池管理系统（BMS），能根据运动状态动态调整放电功率。

“闪电”配备的电池能量密度达到了500Wh/kg，是2025年产品的近两倍。更重要的是，BMS能预判即将到来的上坡或加速，提前调整功率输出，避免电量“猝死”。

三、冷静一下：机器人真的超越人类了吗？

看到“机器人跑赢人类”的标题，很多人可能已经在想象机器人统治世界的场景了。但稍微冷静一下，我们会发现现实远比标题复杂。

首先，这场比赛的场景相对简单。

北京亦庄的半马赛道经过精心设计，整体较为平直，没有复杂的地形变化。相比之下，人类马拉松比赛会有起伏的路面、拥挤的人群、突发的天气变化——这些都是机器人目前难以应对的。

其次，机器人采用了“流水线式”入场。

为了确保完赛，主办方安排机器人逐一出发，而非像人类赛事那样多选手同时起跑。这也大大降低了碰撞规避的计算压力。

更重要的一点：人类长跑的魅力不只是速度。

人类运动员在比赛中需要自主应对突发状况——鞋带松了、抽筋了、对手变速了——这些都需要复杂的感知、决策和临场应变。摔倒后自主爬起、在人群中穿梭、根据对手节奏调整策略，这些能力当前的人形机器人还远不具备。

有体育评论员打了个比方：“这更像是机器人版的’定向越野’，而非真正意义上的马拉松。”

四、具身智能的商业化：机器人正在进入哪些领域

尽管距离“全能机器人”还很遥远，具身智能的商业化已经悄然提速。2026年，我们能看到以下场景正在变为现实：

4.1 工业制造：产线上的“新同事”

特斯拉的Optimus、比亚迪的人形机器人已经在部分产线上岗。它们主要承担重复性高、劳动强度大的任务，如零部件搬运、货物分拣。

“机器人不会请假、不会罢工、不会抱怨加班”——某大型制造企业负责人如是说。据他透露，一台人形机器人的工作效率约等于1.5个熟练工人，按三班倒计算，每年可替代约4-5名工人的工作量。

4.2 商业服务：从酒店到餐厅

日本、韩国已经出现了大量酒店机器人和餐厅传菜机器人。它们不需要像人类一样上下班，成本也比服务员低。

当然，目前的机器人还只能完成固定路线的任务。面对顾客的随机提问、突发需求，还是得靠人类员工。

4.3 医疗康复：精准与耐心的结合

在康复中心，机器人正在成为理疗师的好帮手。它们能精确控制力度和角度，重复执行数千次训练动作而不疲劳。对于中风患者的康复训练来说，这种“不知疲倦的耐心”尤为珍贵。

4.4 家庭陪伴：最遥远的“最后一公里”

很多人期待机器人能走进家庭，帮忙做家务、照顾老人。但坦率地说，家庭场景的复杂度远超工业环境。

每个家庭的布局不同、物品摆放杂乱、老人小孩的行为不可预测——这些都对机器人的感知和决策能力提出了极高要求。目前进入家庭的，主要是扫地机器人、洗碗机等“单功能”设备，能完成复杂家务的通用人形机器人，还需要至少5-10年的技术积累。

五、技术深度：具身智能的核心技术栈

对于技术从业者来说，理解具身智能需要把握以下核心技术：

5.1 运动控制算法

人形机器人要稳定行走、跑步，需要解决双足平衡问题。这涉及到以下几个关键技术：

模型预测控制（MPC）：提前预测未来一段时间内的运动状态，提前调整关节力矩
全身协调控制（WBC）：协调手、腿、躯干的运动，避免动作冲突
强化学习（RL）：让机器人在仿真环境中学习步态，再迁移到真实硬件

python

# 简化版的步态控制伪代码
class GaitController:
    def __init__(self, robot_model):
        self.mpc = ModelPredictiveController(horizon=0.1)
        self.wbc = WholeBodyController()
        self.balance_threshold = 0.05  # 平衡阈值
        
    def compute_joint_torques(self, state, desired_foot_pos):
        # 1. 使用MPC预测未来状态
        predicted_states = self.mpc.predict(state, desired_foot_pos)
        
        # 2. 计算CoM（质心）位置
        com = self.compute_center_of_mass(state)
        
        # 3. 检查平衡状态
        if abs(com.x - support_polygon_center.x) > self.balance_threshold:
            # 需要调整步态
            return self.wbc.balance_recovery(state)
        
        # 4. 正常行走计算
        return self.wbc.compute_torques(state, desired_foot_pos)

5.2 环境感知与建图

要让机器人在陌生环境中自主移动，需要解决**同步定位与建图（SLAM）**问题。

2026年的机器人普遍采用了多传感器融合方案：

深度相机：获取环境的三维信息
激光雷达：精确测量距离，尤其在室外环境
IMU（惯性测量单元）：测量姿态和加速度
触觉传感器：感知脚与地面的接触状态

5.3 端侧AI芯片：让机器人“自己思考”

2025年以前，大多数机器人需要依赖云端算力完成AI推理，网络延迟成为瓶颈。2026年，华为昇腾、英伟达Jetson等端侧AI芯片的性能大幅提升，机器人可以在本地完成环境感知、路径规划等核心计算。

以昇腾芯片为例，其昇腾950PR芯片能提供约1.56P的算力，足以支撑实时的人体姿态识别和场景理解。

六、优缺点总结：具身智能的现状与局限

优点

优势	说明
不知疲倦	可24小时连续工作，适合高强度重复性任务
精度可控	动作精度可达毫米级，不会因疲劳下降
适应恶劣环境	可在高温、低温、有毒有害环境中工作
可复制性强	一套算法可部署到多台机器人

缺点

局限	说明
成本高昂	商用人形机器人单台造价仍在30-100万元区间
场景适应有限	复杂、非结构化环境下的表现仍有差距
能耗问题	高性能运行时的续航仍是瓶颈
安全验证	在人类身边工作的安全性需要大量验证

七、未来展望：具身智能的下一个五年

展望未来，具身智能的发展可能遵循以下路径：

2026-2027年：工业场景规模化落地
工厂、仓库、物流中心将成为人形机器人最先规模应用的场景。成本将下降到10-20万元区间。

2028-2030年：服务场景初步渗透
酒店、餐厅、医院等服务场景将出现更多机器人身影。家用机器人仍以单功能为主。

2030年以后：技术收敛与成本下降
随着核心零部件的标准化和量产，机器人成本将大幅下降。2035年前后，或许能看到万元级的家用机器人。

结语

“闪电”用50分26秒跑完了21公里的半马赛道，这个成绩值得庆祝，但我们也要清醒地看到：机器人距离真正“跑进”日常生活，还有很长的路要走。

技术突破让人振奋，但商业落地需要的是耐心。在期待机器人早日走进千家万户的同时，我们或许可以把掌声先给那些在实验室和车间里日复一日攻关的工程师们——没有他们的付出，就没有“闪电”的这一程奔跑。

AI编程工具横评2026：Cursor、Claude Code、Windsurf三大工具深度对比与选择指南

2026年，AI编程工具不再是简单的”代码补全助手”，而是进化为能自主完成复杂任务的”编程Agent”。

Cursor、Claude Code、Windsurf三大工具形成三强格局，各有所长。本文从核心能力、适用场景、定价策略等维度进行深度横评，帮你找到最适合的AI编程搭档。

一、市场格局：三强争霸

1.1 市场规模爆发

AI编程工具市场正在经历爆发式增长：

2025年，全球AI编程工具市场规模突破50亿美元
预计2026年将增长至120亿美元
超过60%的开发者已经在日常工作中使用AI编程工具

1.2 三大玩家

工具	开发商	核心优势	市场份额
Cursor	Anysphere	生态+协作	~40%
Claude Code	Anthropic	深度工程能力	~35%
Windsurf	Codeium	记忆+Agent管理	~25%

二、核心能力对比

2.1 代码生成能力

Claude Code登顶

Claude Code在SWE-bench测试中以80.8%的得分登顶，这是目前AI编程工具在真实代码库任务上的最高分。

测试内容：让AI修复真实的GitHub issue，包括理解代码、定位问题、编写补丁。

工具	SWE-bench得分	特点
Claude Code	80.8%	最强代码理解
Cursor	72.3%	实时协作加持
Windsurf	68.5%	长代码库友好

2.2 上下文处理能力

Windsurf最强记忆

Windsurf在长代码库处理上表现出色，支持：

超过100万token的上下文窗口
跨文件的依赖关系理解
智能代码切片技术

Cursor的协作优势

Cursor的独特之处在于多Agent并行协作：

多个Agent可以同时处理不同模块
实时同步代码变更
支持团队协作模式

2.3 多模态能力

三大工具都支持代码相关的多模态任务：

Cursor：支持图片生成UI并自动转换为代码
Claude Code：擅长代码可视化解释
Windsurf：支持架构图自动生成

三、适用场景分析

3.1 复杂工程项目

推荐：Claude Code

Claude Code在处理复杂工程任务时表现出色：

大型代码库重构
多模块依赖分析
Bug定位与修复

适用人群：资深开发者、系统架构师

3.2 快速迭代项目

推荐：Cursor

Cursor的多Agent协作模式非常适合：

创业公司的快速原型开发
需要多模块并行开发的大型项目
团队协作开发场景

适用人群：全栈开发者、创业团队

3.3 遗留代码维护

推荐：Windsurf

Windsurf的强大上下文记忆能力适合：

维护年代久远的代码库
需要理解复杂业务逻辑的场景
频繁切换项目的开发者

适用人群：维护工程师、全栈开发者

四、用户体验对比

4.1 界面设计

Cursor：Glass界面

Cursor的界面设计现代感十足，Glass效果让人眼前一亮。但也因为界面元素较多，新手需要一定时间适应。

Claude Code：终端优先

Claude Code采用终端优先的设计理念，命令行交互更高效，适合习惯终端操作的开发者。

Windsurf：平衡之美

Windsurf在界面设计上找到了平衡，既保持了专业感，又不会让新手望而却步。

4.2 学习曲线

工具	上手难度	适合人群
Cursor	中等	有VS Code经验的开发者
Claude Code	较低	习惯命令行的开发者
Windsurf	较低	初学者和中级开发者

4.3 Agent面板

Windsurf的Agent面板设计非常直观：

清晰展示当前Agent状态
方便管理多个并行任务
实时查看Agent决策过程

五、定价策略

5.1 Cursor

Free版：每月200次生成
Pro版：$20/月，无限生成
Business版：$40/月/席位，包含团队协作功能

5.2 Claude Code

包含在Claude Pro中：$100/月
API计费：按token消耗计费

5.3 Windsurf

Free版：每月500次生成
Pro版：$15/月，无限生成
Team版：$25/月/席位

5.4 性价比分析

工具	入门门槛	性价比	推荐指数
Cursor	中	⭐⭐⭐⭐	⭐⭐⭐⭐
Claude Code	低	⭐⭐⭐	⭐⭐⭐⭐⭐
Windsurf	低	⭐⭐⭐⭐⭐	⭐⭐⭐⭐

六、技术架构对比

6.1 模型支持

Cursor

支持Claude、GPT-4o、Gemini等多个模型
可以根据任务类型自动切换模型
支持自定义模型配置

Claude Code

专注于Claude系列模型
针对代码任务进行了深度优化
支持模型思考过程可视化

Windsurf

基于Codeium自研模型
在代码补全任务上表现优异
支持本地部署

6.2 上下文管理

工具	上下文窗口	切片技术	索引速度
Cursor	100万token	✅	快
Claude Code	20万token	✅	中
Windsurf	100万+token	✅	中

七、实际使用体验

7.1 Cursor用户反馈

“Cursor的多Agent协作真的太香了！同时处理前端和后端开发，效率提升至少3倍。”

“界面确实有点复杂，但上手之后就离不开了。”

7.2 Claude Code用户反馈

“Claude的代码理解能力真的很强，有时候比我还懂代码库的结构。”

“终端操作有点不习惯，但习惯了之后效率很高。”

7.3 Windsurf用户反馈

“记忆功能太实用了，切换项目再也不用重新解释背景。”

“免费额度够用，Pro版价格也很良心。”

八、如何选择

8.1 选择建议

场景	推荐工具	原因
创业公司快速开发	Cursor	多Agent协作，效率最高
大型项目维护	Claude Code	代码理解能力最强
预算有限	Windsurf	免费额度充足，性价比高
学习阶段	Windsurf	上手简单，容错率高
专业工程	Claude Code	SWE-bench得分最高

8.2 组合使用

其实，很多资深开发者会根据任务类型组合使用多个工具：

日常代码补全 → Windsurf
复杂重构 → Claude Code
团队协作 → Cursor

8.3 试用建议

建议先从免费版开始试用：

Windsurf免费版：体验基础功能
Cursor免费版：感受协作能力
Claude Code Pro试用：测试深度工程能力

九、未来展望

9.1 技术趋势

AI编程工具正在经历以下趋势：

Agent化：从工具到伙伴的转变
多模态：代码、UI、文档的统一理解
自动化：更高程度的代码自动生成

9.2 市场预测

2027年，AI编程工具将覆盖90%以上的开发者
“纯手写代码”将成为稀缺技能
人机协作编程成为主流范式

十、总结

AI编程工具的三强格局已经形成，每个工具都有其独特优势：

Cursor：协作能力强，适合团队开发
Claude Code：深度工程能力强，适合复杂任务
Windsurf：性价比高，适合个人开发者和初学者

选择工具时，关键是找到最适合自己工作方式的搭档。

模型	总参数	激活参数	上下文	评测得分
Qwen3.6-Plus	3970亿	170亿	100万	直逼Claude Opus 4.5
Claude Opus 4.5	~2万亿	–	20万	基准

指标	HappyHorse	Seedance 2.0	差距
画质	9.5	8.8	+0.7
流畅度	9.3	8.6	+0.7
物理真实感	9.4	8.5	+0.9
语义理解	9.2	8.7	+0.5
音画同步	9.6	8.4	+1.2

模型	下载量	衍生模型	开源协议
Qwen	9.42亿	3.4万+	Apache 2.0
Llama	4.76亿	2万+	Llama License

参数	规格
重量	45克
续航	8小时（连续使用）
处理器	端侧7B大模型
屏幕	无显示屏（音频交互）
摄像头	1200万像素
防水等级	IPX4

对比项	千问S1	Meta Ray-Ban
AI能力	端侧7B	云端Llama
重量	45克	49克
续航	8小时	4小时
翻译	支持12种语言	支持4种语言
价格	待定	$299

能力	Qwen 3.6	GPT-4	Claude
文本理解	✅	✅	✅
代码生成	✅⭐	✅	✅
视频生成	✅⭐	❌	❌
开源	✅	❌	❌

作者： admin

小米miclaw通过首批可信AI评测：手机端智能助手有了”照妖镜”

一、为什么我们需要可信AI评测？

1.1 行业乱象：谁都在说“智能”，但谁也说不清多智能

1.2 评测缺失的后果

1.3 监管与技术双重需求

二、评测框架揭秘：三个维度定义”真智能”

2.1 基础能力：AI的”基本功”

2.2 端侧应用：AI在手机上能做什么

2.3 综合能力：AI的”实战表现”

三、首批通过评测：小米miclaw强在哪？

3.1 miclaw的技术底座

3.2 评测结果亮点

3.3 与竞品的差异

四、评测体系的意义：不止于小米

4.1 对消费者的价值

4.2 对行业的价值

4.3 未来的评测方向

五、实际体验：miclaw能让你的生活变简单吗？

5.1 日常使用场景

5.2 需要改进的地方

六、优缺点总结

优点

缺点

结语

相关AI技术文章

Hermes Agent狂揽9万星：自进化AI智能体重新定义”越用越懂你”

一、为什么Hermes Agent能火？

1.1 痛点：传统AI助手“记性太差”

1.2 差异化定位：不是“工具箱”，是“成长伙伴”

二、核心技术解析：AI如何学会“自我进化”

2.1 四层记忆架构：让AI拥有“持久记忆”

2.2 技能自动生成：从经验中提炼“方法论”

2.3 GEPA进化算法：让技能“自我优化”

2.4 安全沙箱：让AI“懂规矩”

三、实测体验：10分钟部署，能做什么？

3.1 部署有多简单？

3.2 能完成哪些任务？

3.3 一个真实案例

四、生态布局：国内外厂商纷纷跟进

4.1 国内厂商合作

4.2 OpenClaw的迁移工具

五、两条路线之争：工具箱 vs 成长伙伴

六、开发者建议：如何快速上手

6.1 最佳实践

6.2 注意事项

七、优缺点总结

优点

缺点

结语

相关AI技术文章

GPT-Rosalind发布：AI如何在25分钟内完成一周的生物科研？

一、RNA预测超越95%专家：一项里程碑式的突破

1.1 什么是RNA？它为什么关键？

1.2 GPT-Rosalind的表现有多炸裂？

1.3 一个具体案例：科研周期从数月压缩到数分钟

二、技术深度：GPT-Rosalind的架构解析

2.1 为什么不能直接用通用大模型？

2.2 训练数据与知识体系

2.3 核心推理能力

2.4 开源插件：Codex生命科学研究助手

三、应用场景：GPT-Rosalind能做什么？

3.1 药物靶点发现

3.2 RNA药物设计

3.3 基因治疗优化

3.4 科研加速：从文献到实验

四、行业影响：AI正在重塑生物医药格局

4.1 大型药企的布局

4.2 中小企业的新机遇

4.3 科研机构的变革

五、局限与挑战：别把AI当万能药

5.1 预测≠实验

5.2 数据偏见风险

5.3 监管挑战

六、优缺点总结

优点

缺点

结语

相关AI技术文章

人形机器人半马夺冠背后：AI具身智能走到哪一步了？