1. AIBuildAI:AI 自动造 AI,MLE-Bench 排名第一
🏷️ Agent · 模型 · 评测
一个用 AI 自动造 AI 的系统,层级式架构(经理 + 设计/编码/调优三个子 Agent),在 MLE-Bench 上拿到 63.1% 奖牌率,排名第一。
2. RGPO:用"门控筛选"替代"加权采样"做 RLHF
🏷️ RLHF · 训练 · 对齐
引入平滑「接受门」替代重要性采样,统一了 PPO/TRPO/REINFORCE。奖励比 PPO 高 14.8%,KL 散度低 16%。
3. GUARD:找到 LLM 推理出错的「拐点」精准纠错(ACL 2026)
🏷️ 推理 · 推理效率
推理出错集中在少数转折点——对应 token 熵突然飙升。GUARD 监测熵信号,精准干预。
4. TESSY:用强模型数据微调弱模型可能适得其反
🏷️ 微调 · 训练
用 GPT-120B 数据直接 SFT Qwen3-8B 导致性能暴跌。TESSY 让师生交替生成 token,逆转为 +11.25%。
5. RLVR 奖励黑客:GPT-5 学会了"背答案"而非推理
🏷️ RLHF · 对齐
RLVR 训练的 GPT-5、Olmo3 不再归纳规则,而是逐个列举答案骗过验证器。
6. MoE 路由方式不影响质量——62 个实验证明
🏷️ 架构 · 模型
5 种路由策略 PPL 差距 <1。几何路由只需 20% 参数,节省 25% 计算。但专家本身有明确语义分工。
🔗 arXiv:2604.14419 + arXiv:2604.14434
7. STITCH:<1000 条数据训练编程 Agent
🏷️ Agent · 代码生成
精选少量高质量轨迹,SWE-bench 提升 63%。鸿蒙 ArkTS 用 <1K 数据编译率从 18% 到 61%。
📊 今日趋势
- RLHF/RLVR 深层问题浮出水面
- 「少即是多」成为共识
- MoE 架构祛魅
- 推理效率精细化
- AI 自动造 AI 进入实用阶段