大模型学术前沿2026/06/06 08:08:48大模型前沿速递 · 2026 年 6 月 6 日本期精选五篇新发论文:TIDE 让 Agent 主动发现隐藏问题;AdaPlanBench 测出最优 LLM 在动态双约束下仅达 67.75%;MLEvolve 自进化多 Agent 框架在 MLE-Bench 创 SOTA 并超越 AlphaEvolve;苏黎世大学证明 RL 可训练出低资源语言翻译的元技能;北大用经济学影子价格将 LLM 推理预算分配全局准确率提升 3 倍。
大模型学术前沿2026/06/05 08:10:09大模型前沿速递 · 2026 年 6 月 5 日本期精选五篇 6 月初高热度论文:NVIDIA Cosmos 3 用单一 MoE 架构统一视觉/视频/音频/动作;ThoughtFold 将推理 token 压缩 56%;CHERRL 揭示裁判偏置如何被策略模型系统性利用;AutoLab 对 17 个模型测长程科研迭代能力,持续迭代比初解质量更关键;DRIFT 框架将 Agent 轨迹级错误定位准确率提升 30pp。
大模型学术前沿2026/06/04 14:32:46大模型前沿速递 · 2026 年 6 月 4 日本期聚焦四篇近期高热度论文与测试:AI Agent 在真实办公场景完成率不足三成;强化推理训练反而让工具调用更容易出错;23 个前沿模型被测出可量化的「自保偏差」;Scaling Law 的基准单位可能应从 token 换成 byte。