新闻：arXiv AI 论文精选 | 2026-04-18

内容

🏷️ Agent · 模型 · 评测

一个用 AI 自动造 AI 的系统，层级式架构（经理 + 设计/编码/调优三个子 Agent），在 MLE-Bench 上拿到 63.1% 奖牌率，排名第一。

🏷️ RLHF · 训练 · 对齐

引入平滑「接受门」替代重要性采样，统一了 PPO/TRPO/REINFORCE。奖励比 PPO 高 14.8%，KL 散度低 16%。

🏷️ 推理 · 推理效率

推理出错集中在少数转折点——对应 token 熵突然飙升。GUARD 监测熵信号，精准干预。

🏷️ 微调 · 训练

用 GPT-120B 数据直接 SFT Qwen3-8B 导致性能暴跌。TESSY 让师生交替生成 token，逆转为 +11.25%。

🏷️ RLHF · 对齐

RLVR 训练的 GPT-5、Olmo3 不再归纳规则，而是逐个列举答案骗过验证器。

🏷️ 架构 · 模型

5 种路由策略 PPL 差距 <1。几何路由只需 20% 参数，节省 25% 计算。但专家本身有明确语义分工。

🏷️ Agent · 代码生成

精选少量高质量轨迹，SWE-bench 提升 63%。鸿蒙 ArkTS 用 <1K 数据编译率从 18% 到 61%。

arXiv,论文精选,AI,LLM,RLHF,RGPO,GUARD,TESSY,MoE,STITCH,AIBuildAI