LIVEPULSE · INSIGHTER · 文案评判标准

直播口播仿写文案评判标准

客观计数 + 专家校准, 三步查表得最终等级. 不打分, 但严格可执行, 不同评审结果可复盘.

版本v1.0 (2026-05-21)
用法三个独立维度评估,最后查表合成等级
受众直播业务专家 / 语言学顾问 / 主播本人 / 内部评审

评分方法

本质就是打分, 但不是单一数字 (避免"为什么是 73 不是 75"的争议), 而是 分三个独立维度各自评级, 再查表合成最终等级.

① AI 感

客观计数,可自动化. 逐条核对 6 条 AI 标志.

A0 A1 A2 A3

② 真人感

客观计数 + 评审复核. 6 项真人特征的出现强度.

H0 H1 H2

③ 流畅度

客观计数 + 评审听感. 反问/卡顿/重复是否过密.

F0 F1 F2

④ 整体观感

评审通读 3 场景, 凭直觉给整体听感.

O0 O1 O2 O3

最终等级由 (①, ②, ③, ④) 四维查表决定. 任一维度的硬约束 (A3 / H2 / O3) 优先.

⚠️ 真人感 ② 和流畅度 ③ 是互相约束的双向维度: 真人感不足要补"反问/卡顿/重复", 补过头又会扣流畅度. 评判时必须两边都看, 不能只追真人感.

为什么不用单一总分

设计选择原因
三维独立而非单一总分 一份脚本可能"AI 感干净但真人感不足", 单一分数会混在一起无法定位问题; 三维分立让评审一眼看出"该补什么、改什么"
客观与主观分离 ①② 是客观计数 (可脚本自动化, 同脚本每次跑结果一样); ③ 必须人评. 混成一个数字会丢失这种本质区别
硬约束逻辑 单一分数难表达"AI 痕迹再多一处就降级"这种非线性规则, 查表可以直接定义
档位粗细折中 4 档 / 3 档 / 4 档 比 0-100 分粗, 但比 🟢/🟡/🔴 细, 正好够支撑业务判断, 不会卷入"为什么不是 H0.5"的虚假精度

维度 ① · AI 感 客观计数

逐条核对全文是否触发以下 6 类 AI 标志, 累计命中次数:

AI 标志触发条件
1. 书面 AI 口癖词 出现 至关重要 / 意义重大 / 标志着 / 跨越 / 极致 / 匠心 / 治愈 / 见证 / 不容错过 / 高级感 / 万金油 / 惊艳 / 接住 等清单字符 (准确字符匹配)
2. 否定对比通用升华 "不是 X, 而是 Y" 用于抽象升华 (Y 是抽象概念如"生活态度")
3. 工整三连排比 "更 X, 更 Y, 更 Z" 这种书面对仗
4. 模板互动反复 "感谢 XX 选购, 小助理给 XX 安排运费险发现货的哈" 完整模板在 ≥ 3 个 scene 重复
5. 主持人腔 出现"接下来给大家讲讲 / 我们今天的主题是 / 看到有姐妹问 X 了" 任一句
6. 谨慎书面语 出现"我个人觉得 / 应该是 / 我觉得不排除 / 从某种程度上说 / 显然 / 实际上 / 值得注意的是" 任一处

AI 感分档

档位触发情况
A0 干净0 处任何 AI 标志触发
A1 零星1-2 处 AI 标志, 且每条标志 ≤ 1 次
A2 多发≥ 3 处 AI 标志, 或任一标志 ≥ 2 次
A3 重灾 标志 4 (模板互动) 命中, OR 标志 1 (书面口癖词) 出现 ≥ 3 次, OR 累计 ≥ 5 处

维度 ② · 真人感 客观计数 + 评审复核

统计全文以下 6 项指标的出现次数. 不打勾, 列计数.

指标测量方法满足标准
1. 具体用户名 2-3 字昵称 + "姐 / 姐姐" 后缀 (如"晴姐 / 晶晶姐姐") 全文 ≥ 5 个不同名字
2. 句末反问 "对不对? / 是不是啊? / 好不好? / 对吧?" 句末出现 全文 3-10 处
(过多反像 AI 强插)
3. 即兴卡顿 AAA/ABB 字符叠词 ("和和和" / "你你你" / "按按呢") 全文 ≥ 2 处
4. 同句修正 同义重复词序略变 ("L 码可以, 可以, M 码就行") 全文 ≥ 1 处
5. 长短句混合 同时存在 ≥ 50 字长句 和 ≤ 10 字超短句 都有就算到位
6. 主播签名口癖 主播本人指纹中的 idiosyncratic_markers (如"我跟姐们讲哈") 全文 ≥ 2 处

真人感分档

档位满足项数评审复核
H0 充分满足 6 项中 ≥ 5 项
H1 基本满足 3-4 项 若听感仍自然可保持 H1, 否则降 H2
H2 不足满足 ≤ 2 项直接 H2

维度 ③ · 流畅度 客观计数 + 评审听感

听感是否顺畅, 不憋气、不拖沓、不卡顿过度. 真人感的"反问/卡顿/重复" 适度有加分, 过密就转为减分.

客观可数项 (按 scene 检查)

检查项不流畅触发条件
1. 反问过密 单 scene 出现 ≥ 3 次反问 (对不对/是不是/好不好)
2. 重叠词过密 单 scene 出现 ≥ 2 次 AAA/ABB 重叠 (和和和+活动活动活动)
3. 同卖点重复过密 同一卖点 (面料/版型/价格) 在单 scene 出现 ≥ 3 次
4. 同一句式连发 "X 就行哈" / "对不对" 等结尾, 连续 2 句相同结尾

评审听感项

检查项不流畅信号
5. 节奏感 通读觉得"憋气" "拖沓" "断断续续" "句子吞了一半"
6. 句间衔接 上下句逻辑跳跃, 没有过渡, 像把卖点硬凑在一起

流畅度分档

档位触发情况
F0 流畅0 项触发, 评审通读自然顺畅
F1 微卡1-2 项客观触发, 或评审觉得略有不顺但可接受
F2 不流畅≥ 3 项触发, 或评审明显感到"憋 / 拖 / 卡"

维度 ④ · 整体观感 评审凭直觉

评审通读 3 个场景 (开场 / 讲品 / 应答), 给一个整体观感档位:

档位描述
O0 完全自然 像真人即兴口播, 没有违和点
O1 基本自然 单条听起来 OK, 整体有 1-2 处微不顺
O2 有点 AI 味 说不上具体哪里, 整体感觉是机器写的
O3 念稿感强 一听就是脚本, 完全没有即兴感
⚠️ O2 / O3 需引证 1-2 句让你产生此印象的原文. 凭感觉但要可复盘.

综合判定 (查表)

AI 感真人感流畅度观感 最终等级处理
A0H0 F0O0 🟢 优秀 可直接对外播报
A0H0 F0/F1O1 🟢 合格 主播二修后对外
A0H1 F0/F1O0/O1 🟢 合格 同上
A0/A1任意 F1O0/O1 🟡 需修订 微调过密的反问/重复
A0/A1任意 任意O2 🟡 需修订 退回, 评审指出违和点
A1H0/H1 F0/F1O0/O1 🟡 需修订 退回修 1-2 处 AI 痕迹
A2任意 任意任意 🟡 需修订 退回修 AI 痕迹
任意任意 F2任意 🟡 需修订 退回降密 (反问/重复过多)
任意H2 任意任意 🔴 不合格 真人感严重缺失, 算法重做
A3任意 任意任意 🔴 不合格 AI 痕迹重灾, 算法重做
任意任意任意 O3 🔴 不合格 整体念稿, 算法重做
⚠️ 任一维度触发 🔴 即最终 🔴, 不论其他维度表现.
⚠️ 流畅度 F2 触发 🟡 (不直接 🔴), 因为过密注入是"用力过猛", 微调即可不必重做.

评判示范

下面是 4 个评级档对应的真实仿写片段, 演示完整评判流程:

示例 1 · 🟢 优秀
v28b scene 1 · 柚子家天丝亚麻阔腿裤 · 跨品类零代码改动
姐妹哈, 欢迎来到柚子家高端外单女装的直播间, 我是石头。和和和那个今天给姐妹们带来一款啊, 嗯, 特别舒服的神仙阔腿裤, 天丝亚麻的面料。咱们家一直主打外单品质, 那手感, 那凉爽劲儿, 咱们一会细细讲。呃, 小宝们先点个关注哈, 对不对。
① AI 感
A0 干净 — 0 处 AI 标志触发.
② 真人感
H0 充分 — "和和和那个" / "呃" 卡顿 ✓, "我是石头" 签名 ✓, "对不对" 反问 ✓, 语气词位置不均 ✓.
③ 流畅度
F0 流畅 — 反问 1 处不密, 重叠词 1 处不密, 节奏自然.
④ 整体观感
O0 完全自然 — 通读自然顺畅, 与真人开场无异.

查表结果: A0 + H0 + F0 + O0 = 🟢 优秀
处理: 可直接对外播报 (需主播本人确认人设).
示例 2 · 🟡 需修订 (过密注入)
v27 scene 11 · 真人感丰富但用力过猛 · 流畅度被扣
那咱们接着讲哈, 这个天丝棉 T 恤, 您穿上身, 真的, 嗯, 那个柔软亲肤的感觉哈, 就像没穿一样, 夏天 30 度都不闷热啊, 对不对。和和和那个我跟姐们说啊, 咱们回去穿得好, 一定给咱们做做宣传啊, 对不对对不对。透气性哈, 您活动活动活动也不会粘身, 是不是?
① AI 感
A0 干净 — 0 处 AI 标志.
② 真人感
H0 充分 — "和和和" + "活动活动活动" 卡顿 ✓, 反问 ✓, 签名口癖 ✓.
③ 流畅度
F2 不流畅 — 反问过密 (单 scene "对不对" 3 次 + "对不对对不对" + "是不是" = 4 次反问) + 重叠词过密 ("和和和" + "活动活动活动" 同段 2 次).
④ 整体观感
O1 基本自然 — 真人感丰富, 但"对不对对不对" 三连读起来卡.

查表结果: F2 触发硬约束 → 🟡 需修订
处理: 退回降密 — 把 "对不对对不对" 改成 "啊", "活动活动活动" 改成 "活动一下".
💡 这个示例说明真人感和流畅度互相约束: 之前未引入流畅度时, 此 scene 评级为合格. 加上流畅度维度后, "用力过猛" 应该被退回降密.
示例 3 · 🟡 需修订
v24 scene 6 · 早期版本 · 有零星 AI 痕迹
大家一定相信咱们柚子家的品控哈, 咱们是做外贸订单的, 跟一般普通淘宝的货, 嗯, 真不一样, 面料体感舒适感都高一个档次。您收到货, 一起, 呃, 三标齐全的哈, 走线做工您看, 很扎实。有运费险有七天无理由, 一丁点不满意的, 这边售前售后都给您服务到位的, 放心去选就行啊。
① AI 感
A1 零星 — "售前售后都给您服务到位的" 偏书面客服腔, 触发标志 6 (谨慎书面语) 1 次.
② 真人感
H1 基本 — 有"呃 / 嗯 / 一起" 即兴卡顿 ✓; 但缺反问、缺具体用户名, 维持 H1.
③ 流畅度
F0 流畅 — 节奏 OK, 句间衔接自然.
④ 整体观感
O1 基本自然 — "售前售后" 那一句让人略出戏.

查表结果: A1 + H1 + F0 + O1 = 🟡 需修订
处理: 把"售前售后都给您服务到位"改成"有啥问题随时找我们就行哈".
示例 4 · 🔴 不合格
构造示例 · 演示 AI 重灾 + 念稿感
接下来给大家讲讲咱们柚子家这款 T 恤. 它不是简单的一件 T 恤, 而是一种夏日生活的全新态度。面料采用天丝棉混纺工艺, 更柔软、更亲肤、更轻盈, 真正的匠心品质, 极致体验显然, 这款产品 值得注意的是它的价格 — 仅 89 元 1. 不容错过这次惊艳的活动。
① AI 感
A3 重灾 — 触发 5 项标志: · 标志 1 (口癖词): "匠心" "极致" "不容错过" "惊艳" 4 次命中 · 标志 2 (否定升华): "不是简单的一件 T 恤, 而是...生活的全新态度" · 标志 3 (三连排比): "更柔软、更亲肤、更轻盈" · 标志 5 (主持人腔): "接下来给大家讲讲" · 标志 6 (谨慎书面语): "显然" "值得注意的是"
② 真人感
H2 不足 — 0 用户名, 0 反问, 0 卡顿, 0 签名口癖. 满足项数 0/6.
③ 流畅度
F0 流畅 — 反问/卡顿/重复都没有, 形式上"流畅", 但这是 AI 工整模板的流畅, 不是真人即兴流畅.
④ 整体观感
O3 念稿感强 — 完全是产品发布会文案, 没有任何即兴口播痕迹.

查表结果: A3 (一票否决) → 🔴 不合格
处理: 不可用, 算法层重做. ①②④ 三维都触发 🔴 硬约束, 任一即决定最终等级.

评判产出物

每次评判输出一份判定表 (格式固定, 内部脚本可解析):

评判人: _____ 日期: _____ 脚本版本: _____ 维度 ① · AI 感: - 标志 1 命中: ___ 次, 位置: ___________ - 标志 2 命中: ___ 次, 位置: ___________ - ... (略) 分档: [ A0 / A1 / A2 / A3 ] 维度 ② · 真人感: - 具体用户名: ___ 个 (≥ 5 满足: 是 / 否) - 句末反问: ___ 处 (3-10 满足: 是 / 否) - 即兴卡顿: ___ 处 (≥ 2 满足: 是 / 否) - 同句修正: ___ 处 (≥ 1 满足: 是 / 否) - 长短句混合: 长 ___ 字 + 短 ___ 字 (是 / 否) - 主播签名口癖: ___ 处 (≥ 2 满足: 是 / 否) 满足项数: ___ / 6 分档: [ H0 / H1 / H2 ] 维度 ③ · 流畅度: - 反问过密 scenes: ___ (≥ 3 反问/段: 是 / 否) - 重叠词过密 scenes: ___ (≥ 2 重叠/段: 是 / 否) - 同卖点重复过密 scenes: ___ (≥ 3 次/段: 是 / 否) - 同句式连发: ___ (≥ 2 句相同结尾: 是 / 否) - 节奏感 (评审): 顺畅 / 微卡 / 憋拖卡 - 句间衔接 (评审): 自然 / 略跳 / 硬凑 分档: [ F0 / F1 / F2 ] 维度 ④ · 整体观感: [ O0 / O1 / O2 / O3 ] 证据 (如 O2/O3): ___________________ 最终等级: [ 🟢 优秀 / 🟢 合格 / 🟡 需修订 / 🔴 不合格 ] 处理建议: ___________
⚠️ 表中所有计数与证据必须填. 维度 ① 可由脚本自动产出, 维度 ② 半自动, 维度 ③ 由评审手填.

自动化路径

维度自动化程度说明
① AI 感100% 自动 6 条规则都是字符匹配或正则, 仿写流水线可自动产出
② 真人感≈ 90% 自动 前 4 项纯计数; 长短句混合脚本统计; 签名口癖匹配指纹字段
③ 流畅度≈ 60% 自动 客观可数项 1-4 可脚本扫; 节奏感和句间衔接必须评审听感
④ 整体观感0% — 必须人评 这是专家价值的核心, 不可自动化

未来上线 CI 后, 维度 ① + ② 由仿写流水线自动跑出, 评审只需在 PR 描述里看数字 + 通读 3 场景给观感档.

评判注意

  1. 三维独立: 不要让一个维度的好坏影响另一维度的判读. 先各自打分, 再查表.
  2. 必须引证据: 维度 ② 列具体计数, 维度 ③ 引原文. 没有证据的判定不算数.
  3. 听感否决: 即使 ①② 都 A0/H0, 评审 O3 一票否决直接 🔴.
  4. 复盘可追溯: 同一脚本不同评审独立评判, 维度 ①② 应一致 (客观), ③ 可有差异 (主观), 三维加查表后最终等级差异应 ≤ 1 档.
LivePulse Insighter 团队 · 活文档
反馈走 GitLab Issue label eval-spec
配套源文档: docs/design/imitation-evaluation-spec.md