中文AI文本检测系统 - V11c 稳定模型

Project Snapshot

当前系统版本与核心指标

当前线上模型为 `bert_v11c_boundary_fix`。系统采用稳定的 Human / AI 二分类输出，历史实验中的 98.71% / 98.69% 属于早期版本评估结果，本页展示当前发布版本的指标。

0.00%

三集平均准确率

0.00%

独立评估集

0.00%

验证准确率

0.00‰

校准后 ECE

bert_v11c_boundary_fix

当前线上模型

Human / AI 二分类

线上输出类型

63,113

训练样本数

2,599

评估总样本

0.8165

最优温度参数

63,187

V11c 候选池

Coverage

项目关注点覆盖

系统从功能演示、数据构建、模型方法、优化过程、实验指标和结论六个方面展示毕业设计成果。

界面化演示程序

系统采用 Next.js 前端和 FastAPI 后端。前端提供文本输入、样例填充、检测结果展示、句级分析、风险提示和人工反馈入口；后端负责加载 BERT 模型、执行推理并返回结构化结果。该系统不是管理后台，而是面向功能展示的在线检测程序。

面向功能展示的交互式系统
在线检测页面完成核心演示
支持误判样本回流

数据来源

数据来源分为公开数据集、项目自建生成数据和独立评估数据三类。公开部分包括 HC3-Chinese、THUCNews、Wikipedia_CN、M4、VCSUM 等；自建部分包括多模型 AI 生成文本、formal 弱域样本、LLaMA-405B 补充、长文 AI 样本和混合文本边界数据。

Human: HC3、新闻、百科、M4、VCSUM、formal 等
AI: GPT、DeepSeek、Qwen、Claude、Gemini、LLaMA、Kimi、GLM 等
三套 fair test 总计 2,599 条

算法或模型关键点

主模型基于 bert-base-chinese 微调，输入中文文本后经过 tokenizer 编码，由 BERT 编码器提取上下文语义表示，再使用 [CLS] 向量接分类头输出 Human / AI 概率。训练中加入标签平滑、长度感知损失和温度校准，降低过拟合、长度捷径和置信度虚高问题。

任务是监督判别，不是生成
线上默认 Human / AI 二分类
mixed 和边界定位作为扩展实验能力

优化过程

优化从早期 BERT 基线开始，逐步发现格式偏差、技术/学术文本漏检、正式人类文本误报和长文本覆盖不足等问题。V11a 清理模板与 unknown 来源，V11b 补充 formal 与 LLaMA-405B 弱域，V11c 补充长文 AI 样本，最后通过 Temperature Scaling 改善置信度可靠性。

V11a 清理模板与 unknown 样本
V11b 补充 formal 与 LLaMA-405B 弱域
V11c 补充 2,131 条长文 AI 样本

性能指标

当前发布版本以 bert_v11c_boundary_fix 为准。验证准确率 98.75%，三集平均准确率 98.56%，独立评估集准确率 98.57%，独立评估集 F1 为 95.79%，校准误差 ECE 为 0.0034，最优温度参数为 0.8165。

验证集准确率 98.75%
独立评估集 F1 95.79%
Temperature Scaling: T = 0.8165

比较过程与结论

比较过程先固定评估集和指标，再比较 FastText、TextCNN、DPCNN、BERT-BiGRU 与最终 BERT V11c。轻量模型速度快但上下文理解弱；复杂 BERT 变体收益不足以抵消部署成本。最终 V11c 在泛化能力、稳定性、误判控制和部署成本之间最平衡。

FastText 89.2%，TextCNN 93.1%
V10 到 V11c 独立评估从 97.69% 到 98.57%
错误数从 21 条降到 13 条

Requirement Map

展示要求与页面对应

每个要求都对应到具体页面，并提供可直接用于现场说明的中立表述。

带界面的演示程序

功能展示，不是管理系统

对应页面在线演示

系统提供可直接操作的在线检测界面。输入中文文本后，前端通过 Next.js Route Handler 调用 FastAPI 后端，后端加载 bert_v11c_boundary_fix 模型完成推理，并返回 Human / AI 判定、置信度、句级分析、风险提示和人工反馈入口。该页面展示的是完整检测链路，包括输入、检测、解释和误判回流，不依赖后台管理功能。

说明口径

本项目已经从离线模型实验落到可交互系统。演示程序的核心流程是文本输入、模型推理、结果解释和反馈回流。前端负责输入、状态展示和交互，后端负责模型加载、概率计算和结构化返回，最终形成面向功能展示的中文 AI 文本检测程序。

数据来源

公开数据、项目自建数据、独立评估数据

对应页面数据集

数据页把数据来源拆成三类：公开数据集与外部语料、项目自建与生成数据、独立评估与困难样本。公开来源包括 HC3-Chinese、THUCNews、Wikipedia_CN、M4、VCSUM 等；自建部分覆盖 GPT、DeepSeek、Qwen、Claude、Gemini、LLaMA、Kimi、GLM 等模型家族生成文本，并补充 formal_collected、LLaMA-405B、长文 AI 和 mixed/span 数据。

说明口径

训练数据不是单一来源，而是由真实人类文本、多模型 AI 生成文本和独立评估集合共同构成。项目保留 source 字段进行溯源，执行去重、模板清理、unknown 来源清理和 fair test 切分，用于降低数据泄露、模板残留和伪特征学习风险。

算法或模型关键点

BERT 微调、训练策略、推理链路

对应页面技术方法

方法页说明当前主模型基于 bert-base-chinese 微调。文本先经 BertTokenizer 编码，再由 BERT 编码器提取上下文语义表示，使用 [CLS] 向量接分类头输出 Human / AI 概率。训练阶段加入 Label Smoothing=0.05、长度感知损失、Early Stopping 和梯度累积；推理阶段使用 Temperature Scaling 做置信度校准。

说明口径

本项目做的是监督判别任务，不是文本生成任务。BERT 的优势在于能够双向读取上下文，适合中文文本分类。线上系统默认保持稳定的 Human / AI 二分类输出，mixed 文本和 token 级边界定位作为扩展实验能力保留，不进入默认主链路。

优化过程

从 V6 到 V11c 的问题定位和版本迭代

对应页面问题与方案

问题与方案页按版本展示优化过程。V6 建立三集评估基线；V7 引入标签平滑、长度感知训练和早停；V8 做置信度校准；V9 补充 P0 数据；V10 修复技术和学术类 AI 文本漏检；V11a 清理模板、unknown 和长度违规样本；V11b 补充 formal 与 LLaMA-405B 弱域；V11c 补充 2,131 条长文 AI 样本。

说明口径

性能提升不是简单更换模型，而是围绕错误来源持续迭代。每一轮先定位问题，再调整数据或训练策略，最后用固定评估集验证变化。V11c 的核心优化是数据治理、弱域增补、长文修复和置信度校准，独立评估错误数相对 V10 从 21 条降到 13 条。

性能指标

准确率、Precision、Recall、F1、混淆矩阵、ECE

对应页面实验结果

实验页展示当前发布版本 bert_v11c_boundary_fix 的指标：验证准确率 98.75%，三集平均准确率 98.56%，独立评估集准确率 98.57%，独立评估集 F1 为 95.79%，Temperature Scaling 最优温度为 0.8165，校准误差 ECE 为 0.0034。页面还展示了混淆矩阵和不同评估集的详细指标。

说明口径

项目没有只使用单一准确率判断模型好坏。因为 AI 文本检测同时存在误报、漏报和置信度可信度问题，所以实验中同时观察 Precision、Recall、F1、混淆矩阵、独立评估集和 ECE。这样可以更完整地说明模型在不同风险维度上的表现。

比较过程

统一数据口径下比较基线、版本和部署代价

对应页面实验结果

比较过程先固定评估数据，再统一指标，最后比较 FastText、TextCNN、DPCNN、BERT-BiGRU 和 BERT V11c。FastText 速度快但语义建模弱，TextCNN 和 DPCNN 能捕捉局部模式但上下文理解不足，BERT-BiGRU 结构更复杂但收益有限。最终 V11c 在准确率、稳定性、泛化和部署成本之间最平衡。

说明口径

比较实验不是只比较谁的分数最高，还要看是否使用同一批评估数据、是否能解释误判变化、是否适合上线部署。最终选择 V11c，是因为它在三集平均、独立评估和工程复杂度之间取得了更稳的综合表现。

结论

系统、数据、模型、实验和边界的最终收束

对应页面项目总览 / 心得体会

结论部分说明项目完成了从数据构建、模型训练、评估验证到前后端部署的完整闭环。当前系统采用 V11c 二分类主模型，覆盖在线检测、风险解释和人工反馈；项目同时明确保留局限，包括短文本、强人工改写、混合文本、多段插入和未来新模型输出带来的误判风险。

说明口径

项目结论不是模型已经绝对可靠，而是在中文 AI 文本检测任务上完成了一套可复现实验和可交互演示系统。系统具备较高检测性能、明确的数据治理过程和可部署的工程链路，同时对模型边界保持客观说明。

Demo Program

界面化功能演示

在线演示页展示从文本输入到模型判定、风险解释和反馈回流的完整功能链路。

系统功能说明

本项目提供面向功能展示的交互式检测界面。用户输入中文文本后，前端调用后端模型服务并返回判定结果；检测结果包含类别、置信度、句级分析和风险提示，同时提供人工反馈入口用于误判样本回流。

打开在线演示

输入文本

用户在演示页粘贴或输入中文文本。

前端代理

Next.js Route Handler 调用后端检测接口。

模型推理

FastAPI 加载 V11c BERT 模型并输出概率。

结果解释

页面展示判定、置信度、句级分析和风险提示。

反馈回流

人工确认错误样本进入后续复核和增量训练。

Information Architecture

展示页面结构

站点按研究问题、系统演示、数据、方法、优化、实验和问答组织内容。

首页

项目目标、研究问题、技术路线和核心指标总览。

在线演示

展示文本输入、模型推理、结果解释和反馈入口。

数据集

展示数据来源、样本规模、清洗治理和 fair test 切分。

技术方法

展示 BERT 微调、训练策略、推理链路和部署版本。

问题与方案

展示从 V6 到 V11c 的问题定位和优化迭代。

实验结果

展示性能指标、版本对比、基线对比和实验结论。

项目问答

提供项目事实、指标、工程实现和边界说明的检索入口。

Conclusion

项目结论

系统层面：完成可交互中文 AI 文本检测演示系统，覆盖前端、后端、在线检测和反馈闭环。
数据层面：构建多来源中文数据集，通过清洗、去偏、弱域补充和长文修复提升泛化能力。
模型层面：以 BERT 微调为主线，结合标签平滑、长度感知训练和温度校准。
实验层面：V11c 三集平均 98.56%，独立评估集 98.57%，相比 V10 错误数减少约 38%。
扩展层面：探索 mixed 文本与 token 级边界定位，但线上默认保持稳定二分类输出。

关键问题说明

围绕模型选择、数据可靠性、优化来源、比较实验、误判处理和系统局限给出正式说明。

01为什么不用 GPT 或 LLaMA 直接判断？+

本项目的核心任务是监督二分类判别，而不是文本生成。BERT 编码器适合读取整段文本并形成上下文语义表示，接分类头后可以稳定输出 Human / AI 概率；GPT 或 LLaMA 这类生成模型虽然能力强，但直接用作判别器会带来推理成本高、提示词敏感、复现性弱和部署资源消耗大的问题。对于本科毕业设计中的可复现实验和在线演示系统，BERT 微调方案更可控。

02数据可靠吗？+

数据来源不是单一语料，而是公开中文数据集、项目自建 AI 生成文本和独立评估集的组合。公开部分包括 HC3-Chinese、THUCNews、Wikipedia_CN、M4、VCSUM 等；自建部分覆盖 GPT、DeepSeek、Qwen、Claude、Gemini、LLaMA、Kimi、GLM 等模型家族。训练和评估过程中保留 source 字段，执行去重、模板残留清理、unknown 来源清理和 fair test 切分，用于降低数据泄露和伪特征学习风险。

03模型是否只学到了格式、长度或模板特征？+

早期实验确实暴露出这类风险，例如部分 AI 文本带有 Markdown、列表、模板句式，模型可能学习到表面格式。后续优化中专门做了数据治理：删除 750 条硬编码模板样本、移除 1,767 条 unknown 来源样本，补充 formal 人类文本和长文 AI 样本，并引入长度感知损失与分组评估。最终模型不是只看一个总准确率，而是在独立评估集、长度分段和困难样本上共同验证。

04为什么当前线上只输出 Human / AI 二分类？+

当前最稳定的生产链路是 V11c 二分类主模型。项目确实做过 mixed 文本和 token 级边界定位实验，并通过 [SEP] 边界标记提升 C2 续写类检测效果；但真实混合文本场景更复杂，可能包含多段插入、人工润色和局部改写。为了保证线上演示稳定性，系统默认输出 Human / AI，同时把 mixed 和边界定位作为扩展实验能力保留。

05性能指标为什么不只看准确率？+

AI 文本检测任务中，总准确率不能完整反映系统风险。误报会把人类文本错误判为 AI，漏报会把 AI 文本放过；置信度不校准时，模型还可能给出很高但不可靠的概率。因此实验页同时展示验证准确率、三集平均、独立评估集、Precision、Recall、F1、混淆矩阵和 ECE。当前 V11c 的三集平均为 98.56%，独立评估集为 98.57%，ECE 为 0.0034。

06V11c 相比 V10 的提升来自哪里？+

V11c 的提升主要来自数据治理和弱域补充，而不是简单换模型。V11a 先清理高风险模板样本和 unknown 来源样本；V11b 补充 formal_collected 和 LLaMA-405B 弱域样本；V11c 再补充 2,131 条 256+ 字符长文 AI 样本。结果上，独立评估集从 V10 的 97.69% 提升到 V11c 的 98.57%，错误数从 21 条降到 13 条，减少约 38%。

07与 FastText、TextCNN、DPCNN 等方法相比优势是什么？+

FastText 和 TextCNN 速度快、实现简单，但主要依赖词袋、子词或局部 n-gram 特征，对上下文语义和长距离表达模式理解有限。DPCNN 能建模更深层局部结构，但仍弱于预训练语言模型的上下文表示。BERT V11c 通过中文预训练编码器提取语义特征，再结合数据治理和校准，在综合准确率、独立评估稳定性和部署成本之间取得更好的平衡。

08系统如何处理误判样本？+

前端提供人工反馈入口。用户发现检测结果与人工判断不一致时，可以提交正确标签；后端将反馈样本保存到误判回流数据集中。该机制不直接自动改模型，而是作为后续人工复核和增量训练的数据来源，避免把未经确认的反馈直接混入训练集造成新的噪声。

09项目的创新点体现在哪里？+

项目创新主要体现在三方面：第一，围绕中文 AI 文本检测构建了从数据、模型、评估到部署的完整闭环；第二，采用 Data-Centric AI 思路，通过模板清理、来源治理、弱域补充和长文修复提升泛化能力；第三，探索了混合文本和 token 级边界定位，使系统具备从整篇分类扩展到局部定位的实验基础。

10当前系统的局限是什么？+

AI 文本检测本身不能保证 100% 准确，尤其在极短文本、深度人工改写、强风格模仿、混合插入和未来新模型输出上仍可能出现误判。当前解释层主要基于置信度、句级分析和风险提示，不等同于严格的模型内部可解释性。后续可以继续扩充最新模型样本、强化混合文本定位、引入段落级证据和更细粒度的错误分析。