实验结果

性能评估与对比分析

核心指标

主要结果

0.00%
验证准确率
0.00%
三集平均
0.00%
独立评估集
0.00%
纯AI文本

详细评估指标

评估集精确率召回率F1分数支持数
验证集98.07%100.00%99.03%1,144
测试集97.87%98.77%98.32%545
独立评估集93.08%98.67%95.79%910
三集平均96.34%99.15%97.71%2,599
版本迭代

版本迭代对比

V6→V11c各版本三集平均准确率对比

V11c (当前)
98.56%
96.69%
V10
98.36%
不支持
V9
97.31%
不支持
V8
96.88%
不支持
V6
95.85%
不支持
当前版本(V11c)历史版本%边界检测

混淆矩阵

预测:人类预测:AI
实际:人类1,13113
实际:AI0545

对角线高亮表示正确预测

消融实验

配置三集平均独立评估
V11c (风险治理+边界修复)98.56%98.57%
V10 (数据增强)98.36%97.69%
V9 (P0增强)97.31%94.73%
V8 (校准版)96.88%94.4%
V6 (合并版)95.85%93.19%
实验总结

关键发现

分类性能优异

在二分类任务上验证准确率98.75%,三集平均98.56%

边界检测有效

Token级边界定位准确率达96.69%,精确识别AI/人类转换点

独立评估集验证

在910条含真实LLM输出的独立数据上达98.57%

置信度校准

Temperature Scaling(T=0.8165)将ECE降至0.0034

多模型泛化

覆盖GPT-5/DeepSeek/Gemini/LLaMA等多模型输出

持续迭代提升

V6→V11c三集平均从95.85%提升到98.56%(+2.71%)