数据集

数据构建与样本展示

数据集概览

63,000+
训练样本数
30,369
人类文本
32,744
AI文本
63,187
数据候选

文本类别分布

新闻报道
18000
29%
知乎问答
12000
19%
技术教程
10000
16%
HC3数据集
8000
13%
学术/正式
7500
12%
弱域增补
7687
11%

构建流程

01

数据收集

从多个高质量来源收集中文文本

  • 知乎/百度知道爬取
  • 新闻媒体文章
  • HC3开源数据集整合
02

AI文本生成

使用最新大语言模型生成AI文本

  • DeepSeek V3
  • Qwen-Turbo
  • GLM-4
03

混合文本构造

构建高质量的混合文本样本

  • C2续写模式(随机截断)
  • C3改写模式
  • C4润色模式
04

清洗与预处理

严格的数据清洗流程

  • 去除HTML/特殊字符
  • 长度平衡(100-500字)
  • 格式统一化
05

精细标注

双层标注体系

  • 篇章级标签(Human/AI)
  • Token级边界标注
  • [SEP]边界标记插入
06

数据集划分

科学的数据集分割

  • 训练集 80%
  • 验证集 10%
  • 测试集 10%

数据样例

人类文本

今天下班后去超市买了点菜,准备晚上做个红烧肉。路上还碰到了老同学小李,聊了几句近况,他说最近工作挺忙的。

AI文本

人工智能技术的发展正在深刻改变各行各业。从医疗诊断到金融风控,从智能制造到自动驾驶,AI的应用场景日益广泛,为社会发展带来了前所未有的机遇。

混合文本包含边界标注
人类

昨天晚上失眠了,翻来覆去睡不着,脑子里想着各种事情。

AI

人工智能技术在睡眠监测领域的应用正在快速发展,通过可穿戴设备和智能算法,可以实现对睡眠质量的精准分析和个性化建议。

边界位置: 第1句末尾 (字符位置: 28)

数据质量保证

多源验证

交叉验证确保评估集无数据泄露

风险治理

移除模板/unknown样本,提升数据纯度

弱域增补

定向补充formal/LLaMA-405B等弱域样本

平衡采样

AI/Human二分类样本比例接近1:1