Anthropic于5月29日宣布推出旗舰新模型Claude Opus 4.8,主打更强的智能体编程、多领域推理和知识工作能力。官方称新版本显著减少了"无依据结论"(hallucination)问题。对于依赖Claude Code进行日常开发的工程师来说,这是一次值得关注的升级——编程可靠性直接影响AI辅助开发的实际效率。
The Information深度披露:苹果正在用Gemini模型训练iOS 27的本地AI功能,同时部分Siri请求将转向谷歌云处理。这意味着苹果"隐私优先、本地处理"的AI策略正在发生微妙转变——端侧算力不够,只能上云。苹果与谷歌在AI层面的合作深度,可能超出很多人预期。
英伟达研究团队发布开源框架Polar,在不破坏原有工具调用、上下文组织和补丁提交方式的前提下,让Codex、Claude Code、Qwen Code等现有智能体框架接入GRPO(广义相对策略优化)训练。跑分提升近6倍——这个数字相当夸张,但需要看具体测试场景。框架已开源,开发者可以自行验证。
AI音频公司ElevenLabs宣布和Stan Lee Universe达成合作,将在其平台整合斯坦·李的声音、形象与相关音乐风格。用户可以通过AI生成的斯坦·李"本人"讲述漫威经典故事。这件事的法律和伦理边界在哪里?斯坦·李本人无法授权,他的遗产委员会可以——但"复活"逝者这件事,始终让人感觉微妙。
Robinhood推出智能体交易功能:用户授权后,AI智能体可以代其执行交易。每次交易会推送通知,用户可实时查看盈亏,随时可断开连接。这标志着AI从"提供建议"到"直接执行"的跨越。但问题是:AI亏了钱,谁负责?
企业为推广新能源汽车,用AI生成虚构消费者排队抢购的火爆场景视频,全程无真实交易记录。监管部门认定其构成虚假广告且未履行AI内容标识义务。这是国内较早针对AI生成虚假营销内容的行政处罚案例,对行业有警示意义。
谷歌AI Overviews频频出现令人啼笑皆非的低级拼写错误。专家解释,这源于大语言模型基于词元(token)的处理方式——LLM并不"拼写",它预测下一个token。这种底层机制决定了拼写错误是LLM的固有缺陷,很难根治。对人类来说的"基本功",对AI来说恰恰是短板。
| 排名 | 项目 | 星标 | 简介 |
|---|---|---|---|
| 🥇 1 | Agent Skills | 23K+ | 面向生产环境的AI编码工程技能库 |
| 🥈 2 | oh-my-codex (OmX) | 18K+ | Codex工作流增强层 |
| 🥉 3 | Hello-Agents | 15K+ | 从零构建智能体完整教程 |
| 4 | Fara-Agent | 13K+ | 微软Fara浏览器智能体工具包 |
| 5 | Glasswing-Tools | 11K+ | Anthropic安全审计AI工具集 |
数据来源:GitHub Trending(2026年5月第4周)
Agent Skills连续六周霸榜。今天聊聊它在代码审查自动化中的实战配置。
在项目的.codex/skills/code-review/目录下创建技能定义文件:
{
"name": "code-review",
"description": "自动化代码审查,覆盖安全、性能、可读性",
"triggers": ["review", "审查代码", "code review"],
"checks": [
"security:sql-injection,xss,hardcoded-secrets",
"performance:n-plus-1,unnecessary-loops",
"readability:naming,function-length,nesting-depth"
]
}
在GitHub Actions中调用Agent Skills进行MR审查:
// .github/workflows/ai-review.yml
- name: Agent Skills Code Review
uses: anthropics/agent-skills-action@v1
with:
skill: code-review
fail-on: high
comment-on-pr: true
每次MR创建时,Agent Skills自动审查并在PR中添加评论,高危问题直接标记失败。
🔗 项目地址:github.com/anthropics/agent-skills
评论区