训练数据 - 鲸林向海

开源项目

OpenSeeker：首个开源全量训练数据的深度搜索Agent，纯学术团队打破大厂数据垄断

一直以来，高性能的深度搜索智能体（Search Agent）领域仿佛被一道“数据护城河”所隔绝。尽管开源模型层出不穷，但决定智能体能力上限的高质量训练数据——尤其是包含复杂决策与工具调用轨迹的数据——却始终被大型科技企业严密掌控。这种数据稀缺的局面，严重制约了更广泛研究社区在该领域的创新与探索。今天，这一现状被上海交通大学的研究团队彻底打破。他们推出了 O…

2026年4月1日

402000

AI产业动态

破折号成瘾：AI写作风格如何暴露大模型训练数据的历史断层

在人工智能写作领域，一个看似微不足道的标点符号——破折号——正成为揭示大模型训练数据来源与时代局限性的关键线索。用户普遍观察到，以ChatGPT为代表的AI产品在生成文本时频繁使用破折号，这种现象已从偶然特征演变为AI写作的标志性风格。OpenAI甚至将“减少破折号使用”作为产品改进功能单独发布，反映出用户对此现象的普遍关注。这一现象背后，隐藏着大模型训练数…

2025年11月29日

382000