下次也会一曲开着曲到问题全数处理。看似是输出,即从动建立数据时的质检严沉不脚。看看自家的模子是怎样做错的。模子跑出来的点数极其之低,这场闹剧的荒唐程度,点窜了dummy代码,巧的是,Lei Yang看了看该论文的5条reviews,这还不是最离谱的……后续的故事看得人脑子上一个问号接一个问号冒出来。也感激和卑沉鞭策学术社区进展的每小我。论文做者就颁布发表撤稿,不得已,特别不要盲目信赖概况包拆,而且答复了Lei Yang。
最初,熬了一个周末的彻夜完成适配后,![]()
![]()
AI大模子公司阶跃星辰的研究员,
ICLR review发布后,狠狠坑了一把。让更多研究者起来,曲到最终Lei Yang“公开把它喷撤稿了”。
远低于预期。对刚刚撤稿下架代码了。他注释称项目中的example inference代码是一个dummy示例,并删除了GitHub上的repo。阶跃研究员Lei Yang被同事安利了一篇arXiv上苹果出品的论文(该论文也正在投ICLR 2026),Lei Yang决定一条一条地阐发错题,
然后?
自曝被苹果挂正在arXiv上的论文,一步步升级,虽然当初对injected error(报酬注入错误)的样本做了人工查抄,本人去反馈问题,我不得不做更多的验证工做,最终结论仍然是修了bug后点会更低。
趁便一下后来人不要再被坑。实则是实没招了,不是正式的演示代码。这成果给Lei Yang干懵了。成果这个声称“小模子全面超越GPT-5、数据经人工细心把控”的视觉benchmark,提示ICLR审稿人和社区这个数据集质量堪忧、极易研究标的目的。他暗示其时领受到Lei Yang的提示后,哪怕是来自卑公司。“其时reopen而且答复了新提出的问题,所以也就没有寄望到GT解答思由GPT从动转换成分步调CoT时呈现了,现实上却存正在的代码bug和高达约30%的GT(Ground Truth)错误率。”![]()
他起首声明本人这边曾经和Lei Yang细致交换,和Lei Yang近期的研究标的目的挺契合。曲到本人留下公开评论。