🏷️ Agent · 模型 · 评测
一个用 AI 自动造 AI 的系统,层级式架构(经理 + 设计/编码/调优三个子 Agent),在 MLE-Bench 上拿到 63.1% 奖牌率,排名第一。
🏷️ RLHF · 训练 · 对齐
引入平滑「接受门」替代重要性采样,统一了 PPO/TRPO/REINFORCE。奖励比 PPO 高 14.8%,KL 散度低 16%。
🏷️ 推理 · 推理效率
推理出错集中在少数转折点——对应 token 熵突然飙升。GUARD 监测熵信号,精准干预。
🏷️ 微调 · 训练
用 GPT-120B 数据直接 SFT Qwen3-8B 导致性能暴跌。TESSY 让师生交替生成 token,逆转为 +11.25%。
🏷️ RLHF · 对齐
RLVR 训练的 GPT-5、Olmo3 不再归纳规则,而是逐个列举答案骗过验证器。
🏷️ 架构 · 模型
5 种路由策略 PPL 差距 <1。几何路由只需 20% 参数,节省 25% 计算。但专家本身有明确语义分工。
🔗 arXiv:2604.14419 + arXiv:2604.14434
🏷️ Agent · 代码生成
精选少量高质量轨迹,SWE-bench 提升 63%。鸿蒙 ArkTS 用 <1K 数据编译率从 18% 到 61%。
arXiv,论文精选,AI,LLM,RLHF,RGPO,GUARD,TESSY,MoE,STITCH,AIBuildAI