AI Text Detection

项目展示

Overview

项目展示总览

项目总览:系统演示、数据来源、模型方法、优化过程、性能指标、比较实验和最终结论。

Project Snapshot

当前系统版本与核心指标

当前线上模型为 `bert_v11c_boundary_fix`。系统采用稳定的 Human / AI 二分类输出,历史实验中的 98.71% / 98.69% 属于早期版本评估结果,本页展示当前发布版本的指标。

0.00%
三集平均准确率
0.00%
独立评估集
0.00%
验证准确率
0.00
校准后 ECE
bert_v11c_boundary_fix
当前线上模型
Human / AI 二分类
线上输出类型
63,113
训练样本数
2,599
评估总样本
0.8165
最优温度参数
63,187
V11c 候选池
Coverage

项目关注点覆盖

系统从功能演示、数据构建、模型方法、优化过程、实验指标和结论六个方面展示毕业设计成果。

01

界面化演示程序

系统采用 Next.js 前端和 FastAPI 后端。前端提供文本输入、样例填充、检测结果展示、句级分析、风险提示和人工反馈入口;后端负责加载 BERT 模型、执行推理并返回结构化结果。该系统不是管理后台,而是面向功能展示的在线检测程序。

  • 面向功能展示的交互式系统
  • 在线检测页面完成核心演示
  • 支持误判样本回流
02

数据来源

数据来源分为公开数据集、项目自建生成数据和独立评估数据三类。公开部分包括 HC3-Chinese、THUCNews、Wikipedia_CN、M4、VCSUM 等;自建部分包括多模型 AI 生成文本、formal 弱域样本、LLaMA-405B 补充、长文 AI 样本和混合文本边界数据。

  • Human: HC3、新闻、百科、M4、VCSUM、formal 等
  • AI: GPT、DeepSeek、Qwen、Claude、Gemini、LLaMA、Kimi、GLM 等
  • 三套 fair test 总计 2,599 条
03

算法或模型关键点

主模型基于 bert-base-chinese 微调,输入中文文本后经过 tokenizer 编码,由 BERT 编码器提取上下文语义表示,再使用 [CLS] 向量接分类头输出 Human / AI 概率。训练中加入标签平滑、长度感知损失和温度校准,降低过拟合、长度捷径和置信度虚高问题。

  • 任务是监督判别,不是生成
  • 线上默认 Human / AI 二分类
  • mixed 和边界定位作为扩展实验能力
04

优化过程

优化从早期 BERT 基线开始,逐步发现格式偏差、技术/学术文本漏检、正式人类文本误报和长文本覆盖不足等问题。V11a 清理模板与 unknown 来源,V11b 补充 formal 与 LLaMA-405B 弱域,V11c 补充长文 AI 样本,最后通过 Temperature Scaling 改善置信度可靠性。

  • V11a 清理模板与 unknown 样本
  • V11b 补充 formal 与 LLaMA-405B 弱域
  • V11c 补充 2,131 条长文 AI 样本
05

性能指标

当前发布版本以 bert_v11c_boundary_fix 为准。验证准确率 98.75%,三集平均准确率 98.56%,独立评估集准确率 98.57%,独立评估集 F1 为 95.79%,校准误差 ECE 为 0.0034,最优温度参数为 0.8165。

  • 验证集准确率 98.75%
  • 独立评估集 F1 95.79%
  • Temperature Scaling: T = 0.8165
06

比较过程与结论

比较过程先固定评估集和指标,再比较 FastText、TextCNN、DPCNN、BERT-BiGRU 与最终 BERT V11c。轻量模型速度快但上下文理解弱;复杂 BERT 变体收益不足以抵消部署成本。最终 V11c 在泛化能力、稳定性、误判控制和部署成本之间最平衡。

  • FastText 89.2%,TextCNN 93.1%
  • V10 到 V11c 独立评估从 97.69% 到 98.57%
  • 错误数从 21 条降到 13 条
Requirement Map

展示要求与页面对应

每个要求都对应到具体页面,并提供可直接用于现场说明的中立表述。

01

带界面的演示程序

功能展示,不是管理系统

对应页面在线演示

系统提供可直接操作的在线检测界面。输入中文文本后,前端通过 Next.js Route Handler 调用 FastAPI 后端,后端加载 bert_v11c_boundary_fix 模型完成推理,并返回 Human / AI 判定、置信度、句级分析、风险提示和人工反馈入口。该页面展示的是完整检测链路,包括输入、检测、解释和误判回流,不依赖后台管理功能。

说明口径

本项目已经从离线模型实验落到可交互系统。演示程序的核心流程是文本输入、模型推理、结果解释和反馈回流。前端负责输入、状态展示和交互,后端负责模型加载、概率计算和结构化返回,最终形成面向功能展示的中文 AI 文本检测程序。

02

数据来源

公开数据、项目自建数据、独立评估数据

对应页面数据集

数据页把数据来源拆成三类:公开数据集与外部语料、项目自建与生成数据、独立评估与困难样本。公开来源包括 HC3-Chinese、THUCNews、Wikipedia_CN、M4、VCSUM 等;自建部分覆盖 GPT、DeepSeek、Qwen、Claude、Gemini、LLaMA、Kimi、GLM 等模型家族生成文本,并补充 formal_collected、LLaMA-405B、长文 AI 和 mixed/span 数据。

说明口径

训练数据不是单一来源,而是由真实人类文本、多模型 AI 生成文本和独立评估集合共同构成。项目保留 source 字段进行溯源,执行去重、模板清理、unknown 来源清理和 fair test 切分,用于降低数据泄露、模板残留和伪特征学习风险。

03

算法或模型关键点

BERT 微调、训练策略、推理链路

对应页面技术方法

方法页说明当前主模型基于 bert-base-chinese 微调。文本先经 BertTokenizer 编码,再由 BERT 编码器提取上下文语义表示,使用 [CLS] 向量接分类头输出 Human / AI 概率。训练阶段加入 Label Smoothing=0.05、长度感知损失、Early Stopping 和梯度累积;推理阶段使用 Temperature Scaling 做置信度校准。

说明口径

本项目做的是监督判别任务,不是文本生成任务。BERT 的优势在于能够双向读取上下文,适合中文文本分类。线上系统默认保持稳定的 Human / AI 二分类输出,mixed 文本和 token 级边界定位作为扩展实验能力保留,不进入默认主链路。

04

优化过程

从 V6 到 V11c 的问题定位和版本迭代

对应页面问题与方案

问题与方案页按版本展示优化过程。V6 建立三集评估基线;V7 引入标签平滑、长度感知训练和早停;V8 做置信度校准;V9 补充 P0 数据;V10 修复技术和学术类 AI 文本漏检;V11a 清理模板、unknown 和长度违规样本;V11b 补充 formal 与 LLaMA-405B 弱域;V11c 补充 2,131 条长文 AI 样本。

说明口径

性能提升不是简单更换模型,而是围绕错误来源持续迭代。每一轮先定位问题,再调整数据或训练策略,最后用固定评估集验证变化。V11c 的核心优化是数据治理、弱域增补、长文修复和置信度校准,独立评估错误数相对 V10 从 21 条降到 13 条。

05

性能指标

准确率、Precision、Recall、F1、混淆矩阵、ECE

对应页面实验结果

实验页展示当前发布版本 bert_v11c_boundary_fix 的指标:验证准确率 98.75%,三集平均准确率 98.56%,独立评估集准确率 98.57%,独立评估集 F1 为 95.79%,Temperature Scaling 最优温度为 0.8165,校准误差 ECE 为 0.0034。页面还展示了混淆矩阵和不同评估集的详细指标。

说明口径

项目没有只使用单一准确率判断模型好坏。因为 AI 文本检测同时存在误报、漏报和置信度可信度问题,所以实验中同时观察 Precision、Recall、F1、混淆矩阵、独立评估集和 ECE。这样可以更完整地说明模型在不同风险维度上的表现。

06

比较过程

统一数据口径下比较基线、版本和部署代价

对应页面实验结果

比较过程先固定评估数据,再统一指标,最后比较 FastText、TextCNN、DPCNN、BERT-BiGRU 和 BERT V11c。FastText 速度快但语义建模弱,TextCNN 和 DPCNN 能捕捉局部模式但上下文理解不足,BERT-BiGRU 结构更复杂但收益有限。最终 V11c 在准确率、稳定性、泛化和部署成本之间最平衡。

说明口径

比较实验不是只比较谁的分数最高,还要看是否使用同一批评估数据、是否能解释误判变化、是否适合上线部署。最终选择 V11c,是因为它在三集平均、独立评估和工程复杂度之间取得了更稳的综合表现。

07

结论

系统、数据、模型、实验和边界的最终收束

结论部分说明项目完成了从数据构建、模型训练、评估验证到前后端部署的完整闭环。当前系统采用 V11c 二分类主模型,覆盖在线检测、风险解释和人工反馈;项目同时明确保留局限,包括短文本、强人工改写、混合文本、多段插入和未来新模型输出带来的误判风险。

说明口径

项目结论不是模型已经绝对可靠,而是在中文 AI 文本检测任务上完成了一套可复现实验和可交互演示系统。系统具备较高检测性能、明确的数据治理过程和可部署的工程链路,同时对模型边界保持客观说明。

Demo Program

界面化功能演示

在线演示页展示从文本输入到模型判定、风险解释和反馈回流的完整功能链路。

系统功能说明

本项目提供面向功能展示的交互式检测界面。用户输入中文文本后,前端调用后端模型服务并返回判定结果; 检测结果包含类别、置信度、句级分析和风险提示,同时提供人工反馈入口用于误判样本回流。

打开在线演示
01

输入文本

用户在演示页粘贴或输入中文文本。

02

前端代理

Next.js Route Handler 调用后端检测接口。

03

模型推理

FastAPI 加载 V11c BERT 模型并输出概率。

04

结果解释

页面展示判定、置信度、句级分析和风险提示。

05

反馈回流

人工确认错误样本进入后续复核和增量训练。

Conclusion

项目结论

  • 系统层面:完成可交互中文 AI 文本检测演示系统,覆盖前端、后端、在线检测和反馈闭环。
  • 数据层面:构建多来源中文数据集,通过清洗、去偏、弱域补充和长文修复提升泛化能力。
  • 模型层面:以 BERT 微调为主线,结合标签平滑、长度感知训练和温度校准。
  • 实验层面:V11c 三集平均 98.56%,独立评估集 98.57%,相比 V10 错误数减少约 38%。
  • 扩展层面:探索 mixed 文本与 token 级边界定位,但线上默认保持稳定二分类输出。
QA

关键问题说明

围绕模型选择、数据可靠性、优化来源、比较实验、误判处理和系统局限给出正式说明。

01为什么不用 GPT 或 LLaMA 直接判断?+

本项目的核心任务是监督二分类判别,而不是文本生成。BERT 编码器适合读取整段文本并形成上下文语义表示,接分类头后可以稳定输出 Human / AI 概率;GPT 或 LLaMA 这类生成模型虽然能力强,但直接用作判别器会带来推理成本高、提示词敏感、复现性弱和部署资源消耗大的问题。对于本科毕业设计中的可复现实验和在线演示系统,BERT 微调方案更可控。

02数据可靠吗?+

数据来源不是单一语料,而是公开中文数据集、项目自建 AI 生成文本和独立评估集的组合。公开部分包括 HC3-Chinese、THUCNews、Wikipedia_CN、M4、VCSUM 等;自建部分覆盖 GPT、DeepSeek、Qwen、Claude、Gemini、LLaMA、Kimi、GLM 等模型家族。训练和评估过程中保留 source 字段,执行去重、模板残留清理、unknown 来源清理和 fair test 切分,用于降低数据泄露和伪特征学习风险。

03模型是否只学到了格式、长度或模板特征?+

早期实验确实暴露出这类风险,例如部分 AI 文本带有 Markdown、列表、模板句式,模型可能学习到表面格式。后续优化中专门做了数据治理:删除 750 条硬编码模板样本、移除 1,767 条 unknown 来源样本,补充 formal 人类文本和长文 AI 样本,并引入长度感知损失与分组评估。最终模型不是只看一个总准确率,而是在独立评估集、长度分段和困难样本上共同验证。

04为什么当前线上只输出 Human / AI 二分类?+

当前最稳定的生产链路是 V11c 二分类主模型。项目确实做过 mixed 文本和 token 级边界定位实验,并通过 [SEP] 边界标记提升 C2 续写类检测效果;但真实混合文本场景更复杂,可能包含多段插入、人工润色和局部改写。为了保证线上演示稳定性,系统默认输出 Human / AI,同时把 mixed 和边界定位作为扩展实验能力保留。

05性能指标为什么不只看准确率?+

AI 文本检测任务中,总准确率不能完整反映系统风险。误报会把人类文本错误判为 AI,漏报会把 AI 文本放过;置信度不校准时,模型还可能给出很高但不可靠的概率。因此实验页同时展示验证准确率、三集平均、独立评估集、Precision、Recall、F1、混淆矩阵和 ECE。当前 V11c 的三集平均为 98.56%,独立评估集为 98.57%,ECE 为 0.0034。

06V11c 相比 V10 的提升来自哪里?+

V11c 的提升主要来自数据治理和弱域补充,而不是简单换模型。V11a 先清理高风险模板样本和 unknown 来源样本;V11b 补充 formal_collected 和 LLaMA-405B 弱域样本;V11c 再补充 2,131 条 256+ 字符长文 AI 样本。结果上,独立评估集从 V10 的 97.69% 提升到 V11c 的 98.57%,错误数从 21 条降到 13 条,减少约 38%。

07与 FastText、TextCNN、DPCNN 等方法相比优势是什么?+

FastText 和 TextCNN 速度快、实现简单,但主要依赖词袋、子词或局部 n-gram 特征,对上下文语义和长距离表达模式理解有限。DPCNN 能建模更深层局部结构,但仍弱于预训练语言模型的上下文表示。BERT V11c 通过中文预训练编码器提取语义特征,再结合数据治理和校准,在综合准确率、独立评估稳定性和部署成本之间取得更好的平衡。

08系统如何处理误判样本?+

前端提供人工反馈入口。用户发现检测结果与人工判断不一致时,可以提交正确标签;后端将反馈样本保存到误判回流数据集中。该机制不直接自动改模型,而是作为后续人工复核和增量训练的数据来源,避免把未经确认的反馈直接混入训练集造成新的噪声。

09项目的创新点体现在哪里?+

项目创新主要体现在三方面:第一,围绕中文 AI 文本检测构建了从数据、模型、评估到部署的完整闭环;第二,采用 Data-Centric AI 思路,通过模板清理、来源治理、弱域补充和长文修复提升泛化能力;第三,探索了混合文本和 token 级边界定位,使系统具备从整篇分类扩展到局部定位的实验基础。

10当前系统的局限是什么?+

AI 文本检测本身不能保证 100% 准确,尤其在极短文本、深度人工改写、强风格模仿、混合插入和未来新模型输出上仍可能出现误判。当前解释层主要基于置信度、句级分析和风险提示,不等同于严格的模型内部可解释性。后续可以继续扩充最新模型样本、强化混合文本定位、引入段落级证据和更细粒度的错误分析。

AI Text Detection

基于 BERT 微调的中文 AI 文本检测系统

当前默认模型为 `bert_v11c_boundary_fix`。本网站展示项目主线、实验结果、在线演示与项目问答,统一使用左侧侧栏组织信息结构。

项目信息

2026 本科毕业设计

西安科技大学 · 计算机科学与技术

陕ICP备2025065501号-2