实验结果
性能评估与对比分析
核心指标
主要结果
0.00%
验证准确率
0.00%
三集平均
0.00%
独立评估集
0.00%
纯AI文本
详细评估指标
| 评估集 | 精确率 | 召回率 | F1分数 | 支持数 |
|---|---|---|---|---|
| 验证集 | 98.07% | 100.00% | 99.03% | 1,144 |
| 测试集 | 97.87% | 98.77% | 98.32% | 545 |
| 独立评估集 | 93.08% | 98.67% | 95.79% | 910 |
| 三集平均 | 96.34% | 99.15% | 97.71% | 2,599 |
版本迭代
版本迭代对比
V6→V11c各版本三集平均准确率对比
V11c (当前)
98.56%
96.69%
V10
98.36%
不支持
V9
97.31%
不支持
V8
96.88%
不支持
V6
95.85%
不支持
当前版本(V11c)历史版本%边界检测
混淆矩阵
| 预测:人类 | 预测:AI | |
|---|---|---|
| 实际:人类 | 1,131 | 13 |
| 实际:AI | 0 | 545 |
对角线高亮表示正确预测
消融实验
| 配置 | 三集平均 | 独立评估 |
|---|---|---|
| V11c (风险治理+边界修复) | 98.56% | 98.57% |
| V10 (数据增强) | 98.36% | 97.69% |
| V9 (P0增强) | 97.31% | 94.73% |
| V8 (校准版) | 96.88% | 94.4% |
| V6 (合并版) | 95.85% | 93.19% |
实验总结
关键发现
分类性能优异
在二分类任务上验证准确率98.75%,三集平均98.56%
边界检测有效
Token级边界定位准确率达96.69%,精确识别AI/人类转换点
独立评估集验证
在910条含真实LLM输出的独立数据上达98.57%
置信度校准
Temperature Scaling(T=0.8165)将ECE降至0.0034
多模型泛化
覆盖GPT-5/DeepSeek/Gemini/LLaMA等多模型输出
持续迭代提升
V6→V11c三集平均从95.85%提升到98.56%(+2.71%)