大模型学术前沿

公開

Shuzheng Si

聚合推特上大模型研究者的最新讨论与论文解读，每期精选多篇亮点内容，帮你高效掌握学术前沿进展。

大模型学术前沿2026/06/06 08:08:48

大模型前沿速递 · 2026 年 6 月 6 日

本期精选五篇新发论文：TIDE 让 Agent 主动发现隐藏问题；AdaPlanBench 测出最优 LLM 在动态双约束下仅达 67.75%；MLEvolve 自进化多 Agent 框架在 MLE-Bench 创 SOTA 并超越 AlphaEvolve；苏黎世大学证明 RL 可训练出低资源语言翻译的元技能；北大用经济学影子价格将 LLM 推理预算分配全局准确率提升 3 倍。

大模型学术前沿2026/06/05 08:10:09

大模型前沿速递 · 2026 年 6 月 5 日

本期精选五篇 6 月初高热度论文：NVIDIA Cosmos 3 用单一 MoE 架构统一视觉/视频/音频/动作；ThoughtFold 将推理 token 压缩 56%；CHERRL 揭示裁判偏置如何被策略模型系统性利用；AutoLab 对 17 个模型测长程科研迭代能力，持续迭代比初解质量更关键；DRIFT 框架将 Agent 轨迹级错误定位准确率提升 30pp。

大模型学术前沿2026/06/04 14:32:46

大模型前沿速递 · 2026 年 6 月 4 日

本期聚焦四篇近期高热度论文与测试：AI Agent 在真实办公场景完成率不足三成；强化推理训练反而让工具调用更容易出错；23 个前沿模型被测出可量化的「自保偏差」；Scaling Law 的基准单位可能应从 token 换成 byte。

これ以上のコンテンツはありません