数据污染
-
AI生成数据污染:医疗诊断可靠性的隐形杀手与破解之道
随着生成式人工智能在医疗领域加速渗透,越来越多的病历、影像报告及各类临床文本正逐步纳入AI参与生成的范畴。这一旨在提升效率的技术革新背后,潜藏着威胁诊断安全性的深层隐患。 一项由新加坡国立大学、哈佛大学、斯坦福大学、耶鲁大学、谷歌及梅奥诊所等机构的跨学科团队完成的最新研究表明,当AI生成的临床文本被用作训练新一代AI模型时,一些罕见但关键的病理信息会在数据迭…
-
北航开源Code2Bench:双扩展动态评测,终结代码大模型高分幻觉
在衡量大语言模型(LLM)代码生成能力的竞赛中,一个日益严峻的问题正浮出水面:当模型在 HumanEval、MBPP 等经典基准上纷纷取得近乎饱和的成绩时,我们究竟是在评估其真实的泛化推理能力,还是在检验其对训练语料库的「记忆力」? 现有的代码基准正面临两大核心挑战:数据污染的风险,以及测试严谨性不足。前者使评测可能退化为「开卷考试」,后者则常常导致一种「正…