数据演化

大模型评测

DeepEval开源方案：用LLM合成数据，90%成本锐减，评测效率飙升

测试LLM输出效果，离不开大量数据集。从零开始准备这些数据，费时、烧钱，还特别折腾。但现在情况不一样了：以前要花几周手工打造的数千条测试用例，现在几分钟就搞定。合成数据生成的核心思路很简单：让LLM自己造数据，省掉收集、清洗、标注这些苦力活。有了GPT-4等这样的模型，合成出来的数据集比人工标注的更全面、更多样，速度还快得多。这些数据可以用来给LLM系统做…

2025年10月24日
923000