客观计数 + 专家校准, 三步查表得最终等级. 不打分, 但严格可执行, 不同评审结果可复盘.
| 版本 | v1.0 (2026-05-21) |
| 用法 | 三个独立维度评估,最后查表合成等级 |
| 受众 | 直播业务专家 / 语言学顾问 / 主播本人 / 内部评审 |
本质就是打分, 但不是单一数字 (避免"为什么是 73 不是 75"的争议), 而是 分三个独立维度各自评级, 再查表合成最终等级.
客观计数,可自动化. 逐条核对 6 条 AI 标志.
客观计数 + 评审复核. 6 项真人特征的出现强度.
客观计数 + 评审听感. 反问/卡顿/重复是否过密.
评审通读 3 场景, 凭直觉给整体听感.
最终等级由 (①, ②, ③, ④) 四维查表决定. 任一维度的硬约束 (A3 / H2 / O3) 优先.
| 设计选择 | 原因 |
|---|---|
| 三维独立而非单一总分 | 一份脚本可能"AI 感干净但真人感不足", 单一分数会混在一起无法定位问题; 三维分立让评审一眼看出"该补什么、改什么" |
| 客观与主观分离 | ①② 是客观计数 (可脚本自动化, 同脚本每次跑结果一样); ③ 必须人评. 混成一个数字会丢失这种本质区别 |
| 硬约束逻辑 | 单一分数难表达"AI 痕迹再多一处就降级"这种非线性规则, 查表可以直接定义 |
| 档位粗细折中 | 4 档 / 3 档 / 4 档 比 0-100 分粗, 但比 🟢/🟡/🔴 细, 正好够支撑业务判断, 不会卷入"为什么不是 H0.5"的虚假精度 |
逐条核对全文是否触发以下 6 类 AI 标志, 累计命中次数:
| AI 标志 | 触发条件 |
|---|---|
| 1. 书面 AI 口癖词 | 出现 至关重要 / 意义重大 / 标志着 / 跨越 / 极致 / 匠心 / 治愈 / 见证 /
不容错过 / 高级感 / 万金油 / 惊艳 / 接住 等清单字符 (准确字符匹配) |
| 2. 否定对比通用升华 | "不是 X, 而是 Y" 用于抽象升华 (Y 是抽象概念如"生活态度") |
| 3. 工整三连排比 | "更 X, 更 Y, 更 Z" 这种书面对仗 |
| 4. 模板互动反复 | "感谢 XX 选购, 小助理给 XX 安排运费险发现货的哈" 完整模板在 ≥ 3 个 scene 重复 |
| 5. 主持人腔 | 出现"接下来给大家讲讲 / 我们今天的主题是 / 看到有姐妹问 X 了" 任一句 |
| 6. 谨慎书面语 | 出现"我个人觉得 / 应该是 / 我觉得不排除 / 从某种程度上说 / 显然 / 实际上 / 值得注意的是" 任一处 |
| 档位 | 触发情况 |
|---|---|
| A0 干净 | 0 处任何 AI 标志触发 |
| A1 零星 | 1-2 处 AI 标志, 且每条标志 ≤ 1 次 |
| A2 多发 | ≥ 3 处 AI 标志, 或任一标志 ≥ 2 次 |
| A3 重灾 | 标志 4 (模板互动) 命中, OR 标志 1 (书面口癖词) 出现 ≥ 3 次, OR 累计 ≥ 5 处 |
统计全文以下 6 项指标的出现次数. 不打勾, 列计数.
| 指标 | 测量方法 | 满足标准 |
|---|---|---|
| 1. 具体用户名 | 2-3 字昵称 + "姐 / 姐姐" 后缀 (如"晴姐 / 晶晶姐姐") | 全文 ≥ 5 个不同名字 |
| 2. 句末反问 | "对不对? / 是不是啊? / 好不好? / 对吧?" 句末出现 | 全文 3-10 处 (过多反像 AI 强插) |
| 3. 即兴卡顿 | AAA/ABB 字符叠词 ("和和和" / "你你你" / "按按呢") | 全文 ≥ 2 处 |
| 4. 同句修正 | 同义重复词序略变 ("L 码可以, 可以, M 码就行") | 全文 ≥ 1 处 |
| 5. 长短句混合 | 同时存在 ≥ 50 字长句 和 ≤ 10 字超短句 | 都有就算到位 |
| 6. 主播签名口癖 | 主播本人指纹中的 idiosyncratic_markers (如"我跟姐们讲哈") | 全文 ≥ 2 处 |
| 档位 | 满足项数 | 评审复核 |
|---|---|---|
| H0 充分 | 满足 6 项中 ≥ 5 项 | — |
| H1 基本 | 满足 3-4 项 | 若听感仍自然可保持 H1, 否则降 H2 |
| H2 不足 | 满足 ≤ 2 项 | 直接 H2 |
听感是否顺畅, 不憋气、不拖沓、不卡顿过度. 真人感的"反问/卡顿/重复" 适度有加分, 过密就转为减分.
| 检查项 | 不流畅触发条件 |
|---|---|
| 1. 反问过密 | 单 scene 出现 ≥ 3 次反问 (对不对/是不是/好不好) |
| 2. 重叠词过密 | 单 scene 出现 ≥ 2 次 AAA/ABB 重叠 (和和和+活动活动活动) |
| 3. 同卖点重复过密 | 同一卖点 (面料/版型/价格) 在单 scene 出现 ≥ 3 次 |
| 4. 同一句式连发 | "X 就行哈" / "对不对" 等结尾, 连续 2 句相同结尾 |
| 检查项 | 不流畅信号 |
|---|---|
| 5. 节奏感 | 通读觉得"憋气" "拖沓" "断断续续" "句子吞了一半" |
| 6. 句间衔接 | 上下句逻辑跳跃, 没有过渡, 像把卖点硬凑在一起 |
| 档位 | 触发情况 |
|---|---|
| F0 流畅 | 0 项触发, 评审通读自然顺畅 |
| F1 微卡 | 1-2 项客观触发, 或评审觉得略有不顺但可接受 |
| F2 不流畅 | ≥ 3 项触发, 或评审明显感到"憋 / 拖 / 卡" |
评审通读 3 个场景 (开场 / 讲品 / 应答), 给一个整体观感档位:
| 档位 | 描述 |
|---|---|
| O0 完全自然 | 像真人即兴口播, 没有违和点 |
| O1 基本自然 | 单条听起来 OK, 整体有 1-2 处微不顺 |
| O2 有点 AI 味 | 说不上具体哪里, 整体感觉是机器写的 |
| O3 念稿感强 | 一听就是脚本, 完全没有即兴感 |
| AI 感 | 真人感 | 流畅度 | 观感 | 最终等级 | 处理 |
|---|---|---|---|---|---|
| A0 | H0 | F0 | O0 | 🟢 优秀 | 可直接对外播报 |
| A0 | H0 | F0/F1 | O1 | 🟢 合格 | 主播二修后对外 |
| A0 | H1 | F0/F1 | O0/O1 | 🟢 合格 | 同上 |
| A0/A1 | 任意 | F1 | O0/O1 | 🟡 需修订 | 微调过密的反问/重复 |
| A0/A1 | 任意 | 任意 | O2 | 🟡 需修订 | 退回, 评审指出违和点 |
| A1 | H0/H1 | F0/F1 | O0/O1 | 🟡 需修订 | 退回修 1-2 处 AI 痕迹 |
| A2 | 任意 | 任意 | 任意 | 🟡 需修订 | 退回修 AI 痕迹 |
| 任意 | 任意 | F2 | 任意 | 🟡 需修订 | 退回降密 (反问/重复过多) |
| 任意 | H2 | 任意 | 任意 | 🔴 不合格 | 真人感严重缺失, 算法重做 |
| A3 | 任意 | 任意 | 任意 | 🔴 不合格 | AI 痕迹重灾, 算法重做 |
| 任意 | 任意 | 任意 | O3 | 🔴 不合格 | 整体念稿, 算法重做 |
下面是 4 个评级档对应的真实仿写片段, 演示完整评判流程:
姐妹哈, 欢迎来到柚子家高端外单女装的直播间, 我是石头。和和和那个今天给姐妹们带来一款啊, 嗯, 特别舒服的神仙阔腿裤, 天丝亚麻的面料。咱们家一直主打外单品质, 那手感, 那凉爽劲儿, 咱们一会细细讲。呃, 小宝们先点个关注哈, 对不对。
那咱们接着讲哈, 这个天丝棉 T 恤, 您穿上身, 真的, 嗯, 那个柔软亲肤的感觉哈, 就像没穿一样, 夏天 30 度都不闷热啊, 对不对。和和和那个我跟姐们说啊, 咱们回去穿得好, 一定给咱们做做宣传啊, 对不对对不对。透气性哈, 您活动活动活动也不会粘身, 是不是?
大家一定相信咱们柚子家的品控哈, 咱们是做外贸订单的, 跟一般普通淘宝的货, 嗯, 真不一样, 面料体感舒适感都高一个档次。您收到货, 一起, 呃, 三标齐全的哈, 走线做工您看, 很扎实。有运费险有七天无理由, 一丁点不满意的, 这边售前售后都给您服务到位的, 放心去选就行啊。
接下来给大家讲讲咱们柚子家这款 T 恤. 它不是简单的一件 T 恤, 而是一种夏日生活的全新态度。面料采用天丝棉混纺工艺, 更柔软、更亲肤、更轻盈, 真正的匠心品质, 极致体验。显然, 这款产品 值得注意的是它的价格 — 仅 89 元 1. 不容错过这次惊艳的活动。
每次评判输出一份判定表 (格式固定, 内部脚本可解析):
| 维度 | 自动化程度 | 说明 |
|---|---|---|
| ① AI 感 | 100% 自动 | 6 条规则都是字符匹配或正则, 仿写流水线可自动产出 |
| ② 真人感 | ≈ 90% 自动 | 前 4 项纯计数; 长短句混合脚本统计; 签名口癖匹配指纹字段 |
| ③ 流畅度 | ≈ 60% 自动 | 客观可数项 1-4 可脚本扫; 节奏感和句间衔接必须评审听感 |
| ④ 整体观感 | 0% — 必须人评 | 这是专家价值的核心, 不可自动化 |
未来上线 CI 后, 维度 ① + ② 由仿写流水线自动跑出, 评审只需在 PR 描述里看数字 + 通读 3 场景给观感档.
eval-specdocs/design/imitation-evaluation-spec.md