中文AI文本检测系统 - V11c 稳定模型

Dataset Summary

数据工作不是“找数据”，而是“治理数据”

这一页展示的不只是样本规模，还包括风险清理、弱域增补、长文修复、公平评估集切分和 hard case 审计，这些步骤共同决定了 V11c 的稳定性。

63,113

训练样本数

30,369

Human样本

32,744

AI样本

63,187

V11c候选池

Overview

数据集概览

V11c 人类侧来源分布

Human 一侧的主要来源构成，说明数据并非单一来源拼接

Human vs AI 样本对比

训练集中两类样本数量基本均衡

Sources

数据来源总览

项目数据由公开中文语料、公开 AI 检测数据、项目自建生成数据和独立评估集共同组成。

人类文本来源

用于覆盖真实中文写作风格，避免模型只学到单一语域。

HC3 中文问答、人类回答样本
THUCNews、头条新闻等新闻文本
Wikipedia 中文百科条目
M4、VCSUM 等外部数据集
评论、正式文书与 formal_collected 补充样本

AI 文本来源

用于覆盖不同生成模型、不同风格和不同长度的 AI 输出。

GPT 系列与 GPT-OSS 系列输出
DeepSeek、Qwen、GLM、Kimi 等中文常用模型
Claude、Gemini、LLaMA 等跨厂商模型输出
V10 定向补充教育/技术类 AI 文本
V11c 增补 2,131 条 256+ 字符长文 AI 样本

评估数据来源

用于证明模型不是只在训练集附近表现好。

core_v1_test_clean：核心测试集清洗版
independent_data：含真实新模型输出的独立评估集
merged_v2_val_clean：验证集清洗版
hard_eval_balanced：额外审计困难误判场景
评估集与训练池执行去重和泄露排查

Public Datasets

公开数据集与外部语料

这些数据不是项目原创采集，主要用于提供真实中文文本、公开 AI 检测样本和外部语体覆盖。

HC3-Chinese

公开 AI 检测问答数据

提供中文问答场景的人类回答与 ChatGPT 回答，是 Human 侧问答文本和早期 ChatGPT 样本的重要来源。

覆盖百科、金融、法律、医学、心理、NLP 等问答领域，帮助模型学习真实问答写作风格。

THUCNews

公开中文新闻分类数据

提供真实新闻报道文本，主要作为 Human 样本使用。

补充客观、正式、新闻报道类文本，降低模型只熟悉问答语域的风险。

Wikipedia_CN

中文百科语料

提供知识性、说明性、百科式中文文本，主要作为 Human 侧补充来源。

扩展说明文和百科语体覆盖，增加与问答、新闻不同的表达风格。

M4

多领域多模型机器生成文本检测数据

作为外部 AI 检测相关数据来源，补充公开机器生成文本和部分人类对照文本。

提供多模型、多领域机器生成文本检测任务背景，增强跨来源泛化参考。

VCSUM

视频字幕摘要数据

用于补充摘要类、说明类中文文本风格。

增加摘要表达和信息压缩类文本覆盖，避免训练数据过度集中在问答与新闻。

DuReader / LCSTS

候选外部中文语料

仓库中保留为外部候选语料和调研资源，不作为当前 V11c 主口径重点来源。

用于数据调研和后续扩展参考，不作为当前核心贡献强调。

Self-Built Data

项目自建与生成数据

这些部分是本项目的数据构建工作重点，包括多模型生成、弱域补充、长文修复、混合文本和无泄露评估集。

多模型 AI 生成文本

来源: GPT、GPT-OSS、DeepSeek、Qwen、GLM、Kimi、Claude、Gemini、LLaMA 等模型家族
用途: 围绕中文 AI 文本检测任务生成或整理不同模型、不同领域、不同长度的 AI 样本。
项目作用: 避免模型只识别 ChatGPT，提升对多模型 AI 输出的泛化能力。

formal_collected 正式文体样本

来源: 项目内针对正式书面表达补充整理
用途: V11b 阶段补充约 300 条，用于修复正式人类文本容易被误判为 AI 的问题。
项目作用: 削弱“正式、规范、书面化 = AI”的伪相关。

LLaMA-405B 弱域补充样本

来源: real_ai_llama-3.1-405b-instruct
用途: V11b 阶段补充约 300 条，针对 LLaMA-405B 检出率不足进行补强。
项目作用: 把 LLaMA-405B 检出率从弱域状态提升到稳定水平。

长文 AI 边界修复数据

来源: 项目内构建的 256+ 字符 AI 长文本样本
用途: V11c 阶段补充 2,131 条长文 AI 样本，修复长文本覆盖不足。
项目作用: 缓解长文本截断和长文 AI 决策边界退化问题。

混合文本与 Span 标注数据

来源: C2 人类开头+AI续写、C3 AI改写、C4 AI润色
用途: 构建混合文本样本，并为 C2 样本生成 token 级边界标注。
项目作用: 支持 [SEP] 边界标记实验和 token 级边界检测器训练。

fair test / independent / hard case

来源: 从训练池外构建并去重审计的评估集合
用途: 包含 core_v1_test_clean、independent_data、merged_v2_val_clean 和 hard_eval_balanced。
项目作用: 用于证明模型不是只在训练集附近表现好，而是在新来源和困难样本上仍然稳定。

统一数据 Schema

text

原始文本内容，统一为 UTF-8 字符串

label

二分类标签，0 = Human，1 = AI

source

来源标识，是 V11c 最重要的追踪字段

当前评估集口径

评估集	样本数	说明	平均长度
core_v1_test_clean	545	核心测试集清洗版	736.6 字
independent_data	910	独立评估，含真实 LLM 输出	253.4 字
merged_v2_val_clean	1,144	验证集清洗版	662.5 字

当前首页展示采用三集平均准确率 98.56%，实验页同时展示三集加权汇总与混淆矩阵。

Pipeline

构建流程

主数据池构建

以 HC3、新闻、百科、评论和多来源生成文本为基础构建统一训练池

保留 source 字段用于溯源
统一转换为 text / label / source
形成 merged_v2 主数据池

风险审计

先清理模板化和来源不明的高风险样本，避免模型学到伪特征

移除 750 条硬编码模板
移除 1,767 条 unknown
V10 → V11a

弱域增补

针对薄弱来源补充 formal_collected 与 LLaMA-405B 样本

formal_collected +300
real_ai_llama-3.1-405b-instruct +300
V11a → V11b

长文AI修复

补充 256+ 字符 AI 样本，修复长文本决策边界退化

+2,131 条长文 AI
恢复长文本覆盖率
V11b → V11c

公平评估集构建

从训练池外切出三套 fair test，避免直接泄露带来虚高结果

core_v1_test_clean = 545
independent_data = 910
merged_v2_val_clean = 1,144

Hard Case 审计

额外构建 hard_eval_balanced，用于专门检查困难误判场景

human_hard / ai_hard 标签
平衡评估集 762 条
专门评估误报与漏报

Processing Methods

数据处理方法

数据处理目标不是把样本简单拼接，而是控制来源、格式、长度、重复和混合文本边界等关键风险。

原始数据 / 生成数据

统一 Schema

清洗与去偏

去重与泄露检查

平衡划分

分类 / Span 训练数据

统一 Schema 转换

把 CSV、JSON、JSONL 和生成记录转换为同一套训练字段。

保留 text、label、source、model、scenario_id、style、length_bucket 等核心字段。
根据 source 自动推断来源模型、场景类别和文本风格，保证后续可追踪。
使用文本哈希生成 text_id，为合并、去重和泄露检查提供稳定标识。

文本清洗与残留过滤

去掉会让模型学到捷径的非语义线索。

过滤空文本、过短文本、过长文本、中文比例过低和明显乱码样本。
清理提示词复述、分析过程、限制条件、输出规则等生成过程残留。
显式移除“作为一个AI”“AI语言模型”等自我揭露模板。

格式去偏

避免模型把 Markdown 或排版格式当成 AI 证据。

统计 Human 与 AI 文本中的标题、列表、粗体、代码块等格式分布。
当前采用纯文本策略，批量去除 AI 样本中的 Markdown 结构。
处理后重新统计格式比例，确认类别之间的格式偏差被压低。

去重与泄露检测

降低训练集和评估集重叠带来的虚高准确率。

构建数据集时基于 text_id / 文本哈希去除精确重复。
评估前使用 SHA1 检查 train、val、test 之间的精确重叠。
使用中文字符 3-gram SimHash 检查近似重复和潜在数据泄露。

长度分桶与采样平衡

控制长度偏差，避免模型只靠长短判断 Human / AI。

按 0-80、80-200、200-500、500-1000、1000-2000、2000+ 建立长度桶。
训练集构建阶段平衡 Human / AI 标签分布并固定随机种子。
训练时使用标签 + 长度联合采样，并加入长度感知损失。

混合文本边界标注

支持 C2 人类开头 + AI 续写场景的边界检测实验。

在 C2 样本的人类段和 AI 段之间插入 [SEP] 边界标记。
将字符级 boundary 转换成 token-level 标签，0 表示 Human，1 表示 AI。
对 [CLS]、[SEP]、[PAD] 等特殊 token 使用 -100 忽略标签。

Samples

数据样例

人类文本

今天下班后去超市买了点菜，准备晚上做个红烧肉。路上还碰到了老同学小李，聊了几句近况，他说最近工作挺忙的。

AI文本

人工智能技术的发展正在深刻改变各行各业。从医疗诊断到金融风控，从智能制造到自动驾驶，AI的应用场景日益广泛，为社会发展带来了前所未有的机遇。

AI难例文本

昨天晚上失眠了，翻来覆去睡不着，脑子里想着各种事情。后来我索性打开窗户坐了一会儿，夜风吹进来有点凉，反而让人慢慢平静下来。

Quality

数据质量保证

规则 1

去除空文本、超短文本、超长文本，并统一基础清洗逻辑。

规则 2

按 text 去重，并显式过滤“作为一个AI”等模板残留。

规则 3

fair test 构建时执行泄露排查，避免训练集直接重叠带来的虚高结果。

规则 4

对 human_hard / ai_hard 单独做 hard set 审计，用于观察误判分布而不是只看总准确率。