硅谷新宠Hermes Agent近期受到广泛关注,不仅在GitHub上获得大量关注,其原生接入微信的功能也引发了开发者社区的讨论。近日,首篇以Hermes署名的研究论文也已发布。
Hermes Agent的热度持续攀升。目前,它在OpenRouter平台上的Token日消耗量已位居第二,仅次于OpenClaw。同时,该应用在全球“编程应用”榜单中位列第一,在“生产力”榜单中排名第二。

经过9个月的开发,该项目在GitHub上已获得66k星标和8.8k分支。由于关注度较高,项目提交的Issues数量也达到了2.3k。

项目地址:https://github.com/nousresearch/hermes-agent
原生接入微信
凭借其“自我成长型”智能体的特性,Hermes Agent获得了不少开发者的青睐。YC首席执行官Garry Tan在亲自尝试后表示已转向使用该工具。

近日,Nous Research宣布Hermes已支持“原生”接入微信。该功能基于公网服务器,无需配置Webhook,通过扫码即可完成登录。

官方文档:https://hermes-agent.nousresearch.com/docs/user-guide/messaging/weixin
此功能上线后,Nous Research官方账号发布了一条相关中文推文,获得了较高的浏览量和互动。

值得提及的是,Nous Research表示,这条中文推文的内容经过了Hermes的润色处理。

在技术实现上,该功能基于腾讯官方的iLink Bot API,并非使用第三方破解协议或非官方客户端。不过,建议用户先使用备用账号进行测试。

此外,Hermes也已支持接入国内其他主流即时通讯工具,如钉钉、飞书、企业微信等,用户可根据自身工作流进行选择。

微信接入配置流程如下:
1. 安装依赖
两个核心依赖包不可或缺:
* pip install aiohttp cryptography
若需在终端直接显示二维码,可额外安装:
* pip install qrcode
2. 扫码登录
执行以下命令启动设置向导:
* hermes gateway setup
选择“Weixin”选项。向导将自动生成二维码(或在终端显示链接),等待用户使用手机微信扫码并确认登录。登录成功后,账号凭证将保存至 ~/.hermes/weixin/accounts/ 目录,终端会显示“微信连接成功”及对应的 account_id。
3. 配置环境变量
编辑 ~/.hermes/.env 文件,至少需配置:
* WEIXIN_ACCOUNT_ID=your-account-id
如需限制可向Bot发送消息的用户,可添加:
* WEIXIN_DM_POLICY=allowlist
* WEIXIN_ALLOWED_USERS=user_id_1,user_id_2
群消息默认关闭,如需在特定群组启用,需手动设置白名单:
* WEIXIN_GROUP_POLICY=allowlist
* WEIXIN_GROUP_ALLOWED_USERS=group_id_1
如需将定时任务或通知发送至固定聊天窗口,可配置:
* WEIXIN_HOME_CHANNEL=chat_id
* WEIXIN_HOME_CHANNEL_NAME=Home
4. 启动服务
执行以下命令启动网关服务:
* hermes gateway
适配器将使用已保存的凭证连接iLink并开始长轮询。此时,向Bot发送消息,通常可在几秒内收到回复。
已知问题与解决方案:
* 消息分段:由于微信单条消息存在Token上限(约4000),长回复会被自动切分发送,可能影响阅读连贯性。
* 会话过期:若遇到错误码-14,通常意味着会话过期,需重新执行 hermes gateway setup 扫码登录。
* Token占用:若提示“Another local Hermes gateway is already using this Weixin token”,表明同一Token正被另一个网关实例使用,需停止冲突的实例。
* 媒体文件收发失败:请确保已安装 cryptography 库,该库用于处理微信CDN的AES-128-ECB加密。
性能与评价
一些开发者对Hermes Agent和OpenClaw进行了对比评测。整体反馈认为,Hermes在开箱即用体验上表现较好。

部分国内开发者在体验后,认为Hermes Agent较好地体现了“自我进化”的概念。

首篇署名论文发布
近日,首篇以Hermes署名的研究论文发布。该论文提出了一种名为“Autoreason”的新推理方法,其灵感来源于Karpathy的AutoResearch。

论文探讨了大模型使用中的一个常见现象:人们往往倾向于让模型多次修改输出,以期获得更好的结果。

然而,Hermes 的研究为这种“执念”提供了新的视角。实验表明,传统的“自我优化”(Self-Refinement)方法往往会导致输出质量下降。

相关论文指出,无论提示词设计得多么精良,传统的“批评-修改”循环普遍存在三个核心缺陷:
- 幻觉瑕疵: 为了迎合批评指令,模型可能凭空捏造出原本不存在的缺陷。
- 规模失控: 每次迭代都可能导致内容无节制地膨胀,偏离初衷。
- 拒绝无能: 即使初始输出已足够优秀,模型也几乎从不拒绝修改建议,导致过度优化和性能劣化。
Autoreason 方法的核心逻辑摒弃了盲目的迭代修改,转而引入了一套严谨的竞争与收敛机制。
每一轮迭代被设计为一场 “三方锦标赛” :选手A(维持现状)、选手B(对抗修改)、选手AB(优势合成)。这三个候选版本将由一组“盲评智能体”进行评审,并采用 Borda 计数法 进行投票。

Autoreason 引入了一个关键的停止逻辑:如果“维持现状(选手A)”连续两次胜出,系统将立即终止迭代。 这一机制确保了输出的稳定性——只有当修改被证实能带来明确价值时,迭代才会继续;当模型无法做出建设性贡献时,它会自动停止。
小模型的逆袭表现
在涵盖策略、系统设计、政策制定、竞争分析及事故响应等五项复杂写作任务中,Autoreason 展现了显著优势。
使用成本仅为 Sonnet 十分之一的 Haiku 3.5 模型,结合 Autoreason 方法,其产出质量可与 Sonnet 4 的单次生成结果持平。在蒙特卡洛模拟中,三项任务均获得了 42/42 的满分评价。

对比实验凸显了其价值:经过15轮传统自我优化后,模型因无法区分“优化”与“破坏”,将一篇345字的文稿删减至仅102字(内容损失70%),导致内容崩溃。而 Autoreason 的输出则始终保持增长趋势,其评审机制有效拦截了“越改越差”的情况。

在基于 Sonnet 4 模型的五个写作任务测试中,Autoreason 的 Borda 计分平均达到 27.8 分,且最差表现也未跌出前两名。在需要进行实质性权衡取舍的任务中,其优势尤为明显。

此外,在解决150个编程难题的测试中,Autoreason 的失败恢复率达到 62%,远高于单次生成 43% 的成功率。其强制性的结构化分析步骤,促使模型在尝试修复前先深入思考失败原因。

Autoreason 的提出,标志着 AI 推理正从依赖模型规模的“暴力计算”转向注重方法论的“结构化效率”。值得一提的是,其研究论文最终也由 Autoreason 自身进行了润色优化。

相关的研究代码与技能模板已同步发布。

参考资料:
* 论文地址:https://github.com/NousResearch/autoreason/blob/main/paper/autoreason.pdf
* Hermes Agent 发布页面:https://github.com/NousResearch/hermes-agent/releases
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/29951

