Anthropic 正式发布其迄今最强大的公开模型 Claude Opus 4.7。这款模型在多项关键基准测试中超越了 OpenAI 的 GPT-5.4 和 Google 的 Gemini 3.1 Pro,但领先幅度极其微弱——在可比基准上仅以 7:4 领先 GPT-5.4,显示出顶级模型之间的竞争已进入白热化阶段。
Opus 4.7 最显著的升级在于三个方面:一是支持最高 375 万像素的高分辨率图像输入,是此前的 3 倍;二是引入"rigor"机制,模型在完成任务前会自主设计验证步骤,大幅减少幻觉循环;三是新增"effort"参数和"task budgets"功能,让开发者能精细控制模型的推理深度和 token 开销。在 SWE-bench Pro 编码基准上,Opus 4.7 解决率从 53.4% 跃升至 64.3%;视觉推理(带工具)从 84.7% 提升至 91.0%。不过,在多语言问答和自主搜索等部分领域,GPT-5.4 依然保持领先。
? 参考:VentureBeat
Anthropic 同步推出了代号为"Project Glasswing"的网络安全计划,向 Nvidia、Apple、AWS、Microsoft、JPMorgan Chase 等 40 余家合作方提供 Claude Mythos Preview 模型。该模型在过去数周内自主发现了数千个高危漏洞,覆盖了"所有主流操作系统和 Web 浏览器"。
值得关注的是,Mythos Preview 并非专为网络安全训练,而是凭借其强大的自主编程和推理能力实现安全突破。Anthropic 强调,该模型在完全无人干预的情况下完成漏洞发现与利用开发。出于安全考虑,Mythos Preview 不会公开发布,仅限于经过审核的合作伙伴使用。Anthropic 同时承诺提供最高 1 亿美元的用量补贴,并向 Linux 基金会和 Apache 软件基金会捐赠 400 万美元。
? 参考:The Verge
Meta 联合多所大学的研究者提出了"Hyperagents"(超级智能体)框架,突破了现有自我改进 AI 系统仅限于编程领域的瓶颈。传统方案如 Sakana AI 的 Darwin Gödel Machine 依赖编码能力与自我改进能力之间的天然对齐,一旦任务领域跳出编程就失效。
Hyperagents 将"任务智能体"和"元智能体"融合为单一可自我重写的程序,实现了"元认知自我修改"——系统不仅能改进任务表现,还能改进自我改进过程本身,使进步跨任务累积。实验中,Hyperagents 在论文评审和机器人奖励设计任务上超越专用基线,甚至在一个完全未见过的数学评分任务上取得了 0.630 的改进指标,而传统 DGM 架构始终停留在 0.0。更令人惊喜的是,系统自主发展出了持久记忆工具、性能追踪器和计算预算感知行为。
? 参考:VentureBeat
| 排名 | 项目 | 描述 | ⭐ 总计 | ? 今日 |
|---|---|---|---|---|
| 1 | Donchitos/Claude-Code-Game-Studios | 把 Claude Code 变成完整游戏开发工作室 | 11,480 | +1,107 |
| 2 | Lordog/dive-into-llms | 《动手学大模型》系列编程实践教程 | 31,304 | +949 |
| 3 | lsdefine/GenericAgent | 从 3.3K 行种子自进化的智能体,6 倍 token 节省 | 3,282 | +848 |
| 4 | EvoMap/evolver | GEP 驱动的 AI 智能体自我进化引擎 | 3,656 | +750 |
| 5 | BasedHardware/omi | 能看屏幕、听对话并给出建议的 AI | 9,516 | +821 |
| 6 | jamiepine/voicebox | 开源语音合成工作室 | 19,539 | +802 |
| 7 | SimoneAvogadro/android-reverse-engineering-skill | Claude Code 安卓逆向工程技能 | 2,562 | +375 |
| 8 | z-lab/dflash | DFlash:用于 Flash 推测解码的 Block Diffusion | 1,741 | +285 |
| 9 | Tracer-Cloud/opensre | 构建你自己的 AI SRE 智能体开源工具包 | 1,163 | +167 |
| 10 | lukilabs/craft-agents-oss | Craft 智能体开源框架 | 4,204 | +107 |
项目地址: https://github.com/Donchitos/Claude-Code-Game-Studios
今日增长: ⭐ +1,107 | 总计: 11,480 ⭐ | 语言: Shell
如果说 AI 辅助编程已经不新鲜,那用 AI 搭建一整个游戏开发工作室呢?Claude-Code-Game-Studios 正是这样一个令人兴奋的项目——它把 Anthropic 的 Claude Code 变成了一间拥有 49 个 AI 智能体、72 项工作流技能的完整游戏开发工作室,层级结构完全模拟真实游戏公司。
项目设计了一套精细分工的 AI 团队协作体系:
每个智能体都有明确的职责定义和交互协议,72 项工作流技能覆盖了从概念设计到版本发布的全流程。
对于独立开发者来说,这意味着一个人就可能指挥一整支虚拟团队完成游戏开发。虽然 AI 生成的内容质量仍需人工把关,但项目展示的智能体协作模式,很可能就是未来 AI 辅助创作的主流形态。
数据来源:GitHub Trending、The Verge、VentureBeat | 图片来源:Pexels
关注「数字彩云」,每日获取 AI 最前线资讯 ?
评论区