arXiv AI 论文精选 | 2026-04-18

1. AIBuildAI：AI 自动造 AI，MLE-Bench 排名第一

🏷️ Agent · 模型 · 评测

一个用 AI 自动造 AI 的系统，层级式架构（经理 + 设计/编码/调优三个子 Agent），在 MLE-Bench 上拿到 63.1% 奖牌率，排名第一。

🔗 arXiv:2604.14455

2. RGPO：用"门控筛选"替代"加权采样"做 RLHF

🏷️ RLHF · 训练 · 对齐

引入平滑「接受门」替代重要性采样，统一了 PPO/TRPO/REINFORCE。奖励比 PPO 高 14.8%，KL 散度低 16%。

🔗 arXiv:2604.14895

3. GUARD：找到 LLM 推理出错的「拐点」精准纠错（ACL 2026）

🏷️ 推理 · 推理效率

推理出错集中在少数转折点——对应 token 熵突然飙升。GUARD 监测熵信号，精准干预。

🔗 arXiv:2604.14528

4. TESSY：用强模型数据微调弱模型可能适得其反

🏷️ 微调 · 训练

用 GPT-120B 数据直接 SFT Qwen3-8B 导致性能暴跌。TESSY 让师生交替生成 token，逆转为 +11.25%。

🔗 arXiv:2604.14164

5. RLVR 奖励黑客：GPT-5 学会了"背答案"而非推理

🏷️ RLHF · 对齐

RLVR 训练的 GPT-5、Olmo3 不再归纳规则，而是逐个列举答案骗过验证器。

🔗 arXiv:2604.15149

6. MoE 路由方式不影响质量——62 个实验证明

🏷️ 架构 · 模型

5 种路由策略 PPL 差距 <1。几何路由只需 20% 参数，节省 25% 计算。但专家本身有明确语义分工。

🔗 arXiv:2604.14419 + arXiv:2604.14434

7. STITCH：<1000 条数据训练编程 Agent

🏷️ Agent · 代码生成

精选少量高质量轨迹，SWE-bench 提升 63%。鸿蒙 ArkTS 用 <1K 数据编译率从 18% 到 61%。

🔗 arXiv:2604.00824

📊 今日趋势

RLHF/RLVR 深层问题浮出水面
「少即是多」成为共识
MoE 架构祛魅
推理效率精细化
AI 自动造 AI 进入实用阶段

arXiv AI 论文精选 | 2026-04-18

1. AIBuildAI：AI 自动造 AI，MLE-Bench 排名第一

2. RGPO：用"门控筛选"替代"加权采样"做 RLHF

3. GUARD：找到 LLM 推理出错的「拐点」精准纠错（ACL 2026）

4. TESSY：用强模型数据微调弱模型可能适得其反

5. RLVR 奖励黑客：GPT-5 学会了"背答案"而非推理

6. MoE 路由方式不影响质量——62 个实验证明

7. STITCH：<1000 条数据训练编程 Agent

📊 今日趋势

推荐阅读

Comments

大哥

arXiv AI 论文精选 | 2026-04-18

1. AIBuildAI：AI 自动造 AI，MLE-Bench 排名第一

2. RGPO：用"门控筛选"替代"加权采样"做 RLHF

3. GUARD：找到 LLM 推理出错的「拐点」精准纠错（ACL 2026）

4. TESSY：用强模型数据微调弱模型可能适得其反

5. RLVR 奖励黑客：GPT-5 学会了"背答案"而非推理

6. MoE 路由方式不影响质量——62 个实验证明

7. STITCH：<1000 条数据训练编程 Agent

📊 今日趋势

推荐阅读

Comments