数据集
数据构建与样本展示
数据集概览
63,000+
训练样本数
30,369
人类文本
32,744
AI文本
63,187
数据候选
文本类别分布
新闻报道
18000
29%
知乎问答
12000
19%
技术教程
10000
16%
HC3数据集
8000
13%
学术/正式
7500
12%
弱域增补
7687
11%
构建流程
01
数据收集
从多个高质量来源收集中文文本
- 知乎/百度知道爬取
- 新闻媒体文章
- HC3开源数据集整合
02
AI文本生成
使用最新大语言模型生成AI文本
- DeepSeek V3
- Qwen-Turbo
- GLM-4
03
混合文本构造
构建高质量的混合文本样本
- C2续写模式(随机截断)
- C3改写模式
- C4润色模式
04
清洗与预处理
严格的数据清洗流程
- 去除HTML/特殊字符
- 长度平衡(100-500字)
- 格式统一化
05
精细标注
双层标注体系
- 篇章级标签(Human/AI)
- Token级边界标注
- [SEP]边界标记插入
06
数据集划分
科学的数据集分割
- 训练集 80%
- 验证集 10%
- 测试集 10%
数据样例
人类文本
今天下班后去超市买了点菜,准备晚上做个红烧肉。路上还碰到了老同学小李,聊了几句近况,他说最近工作挺忙的。
AI文本
人工智能技术的发展正在深刻改变各行各业。从医疗诊断到金融风控,从智能制造到自动驾驶,AI的应用场景日益广泛,为社会发展带来了前所未有的机遇。
混合文本包含边界标注
人类
昨天晚上失眠了,翻来覆去睡不着,脑子里想着各种事情。
AI
人工智能技术在睡眠监测领域的应用正在快速发展,通过可穿戴设备和智能算法,可以实现对睡眠质量的精准分析和个性化建议。
边界位置: 第1句末尾 (字符位置: 28)
数据质量保证
多源验证
交叉验证确保评估集无数据泄露
风险治理
移除模板/unknown样本,提升数据纯度
弱域增补
定向补充formal/LLaMA-405B等弱域样本
平衡采样
AI/Human二分类样本比例接近1:1