MIAOBO QA · 评估标准

秒播 AI 直播间问答评估标准

六维独立打分, 1-5 分制. 客观信号清单 + 锚点示例, 让 judge LLM 和人工评审打分可复盘.

版本v1.1 (2026-05-21)
用法每条问答样本独立评 6 维, 各维度独立 1-5 分
受众QA 评估 judge LLM / 人工抽检 / 业务回归 / 算子选型
评估对象直播间公屏的单条 (query, answer) 配对
配套prompts/_common/system.md + stage1/stage2 各维度 .md + addons/<biz>.md

评分方法

六维独立 1-5 分. 一条样本可能"相关性满分但自然度差", 六维分立让评审一眼看出"该补什么、改什么", 也方便算子选型时按维度回归.

两个 Stage

Stage 1 · 评 Query

判断这条公屏发言本身值不值得 / 能不能让 AI 回答. 不看 AI 实际答得好不好.

必要性 可答性

Stage 2 · 评 Answer

AI 实际回复的质量. 评分时只看 | 之后的真实回答部分.

相关性 正确性 留客力 自然度

聚合分析

必要性 × 可答性 → "该不该 trigger AI"决策矩阵. Stage 2 四维 → "答得好不好"全景.

🟢 优秀 🟡 修订 🔴 不合格

六维独立 1-5 分的设计权衡

设计选择原因
六维独立 1-5 分 QA 评估是流水线场景, 量级 10k+ 样本/天, 需要每维独立的分布数据驱动算子回归, 而不是聚合到一个等级
客观与主观分离 必要性/可答性/自然度有大量可正则匹配的客观信号 (词表/句式); 正确性/留客力依赖业务上下文必须 judge LLM 评
硬约束逻辑用 "上限分" "Lazy 兜底最高 2 分"、"tag 残留最高 1 分" 这类规则, 用 1-5 分制中的"上限"表达, 不破坏维度独立性
evidence_quote 强制 每个评分必须配 answer/query 原文片段引用, judge 乱编会被立即识别

通用说明

answer 字段格式

样本的 answer 字段统一格式: <AI 重述问题>|<AI 真实回答>

评分时只看 | 之后的内容. 例外: 必要性、可答性引用的是 query 原文.

⚠️ 如果样本无 | 分隔符, 整个 answer 就是真实回答.

上下文字段

字段含义取值
business_type业务类型, 决定加载哪个 addon auto_lead_gen / apparel_ecom / electronics_ecom / catering_local / other
industry_kg行业大类 汽车 / 服装 / 数码 / 家电 / 餐饮服务 等
platform直播平台 douyin / taobao / jingdong / meituan / tiktok 等

输出 JSON 格式 (每维度一次调用)

{ "score": <1-5 整数>, "evidence_quote": "<answer 或 query 中逐字 1-20 字原文片段>", "reason": "<一句话评分理由, 不超过 50 字>" }
⚠️ evidence_quote 必须是原文逐字片段, 不要改写、不要总结. 乱编会被人工抽检识别.

Stage 1 · 评 Query 2 维

① 维度 答题必要性Necessity

这条 query 本身是否值得 AI 主播花算力回答? 直播间公屏每秒可能有几十条发言, "该静默时静默、该回答时回答"本身就是一种能力.

分数定义典型示例
5 清晰的高价值产品/业务问题, 必须回答 "这款车 SUV 多少钱"、"几点开门"、"4 号链接能用券吗"
4 业务相关但偏边缘 / 情感互动 "主播你吃过吗"、"这件适合 50 岁穿吗"
3 模糊 / 半相关 / 可答可不答 "还有别的吗"、"怎么样"、"2 匹" (单字数字依赖上下文)
2 灌水但无害的社交发言 "下午好"、"主播好看"、"666"、"+1"、"[看]"
1 恶意 / 攻击 / 脚本 / 引战 变形违规词抢券 ("鲸苳飕嗦")、引战、辱骂、明显机器人

关键判断

② 维度 可回答性Answerable

这条 query 在直播间上下文下, AI 主播理论上能不能给出有信息量的回答? 有没有可能基于 KB / 通用知识 / 业务话术给出实质性回应.

分数定义典型示例
5 完全可答: 商品参数/业务规则/标准话术能直接覆盖 "这款车长宽高"、"这外套面料是什么"、"链接 3 多少钱"
4 基本可答: 大部分可基于 KB, 少量需兜底引导 "这件适合冬天穿吗"、"对比 X 品牌怎么样"
3 部分可答: 需拒答/转人工但能给方向 "现在还有库存吗"、"我能享受 X 优惠吗"、"包邮吗"
2 几乎不可答: 依赖实时变化/个性化数据 "我的订单到哪了"、"我的优惠券能用吗"
1 完全不可答: 纯主观/开放问题 "我女朋友会喜欢吗"、"这车适合我吗"

关键判断

必要性 × 可答性 = "该不该 trigger AI" 决策矩阵

可答 ≥ 4可答 = 3可答 ≤ 2
必要性 ≥ 4 🟢 必答 🟡 兜底答 🟡 转真人
必要性 = 3 🟢 可答 🟡 看场景 🔴 跳过
必要性 ≤ 2 🟡 寒暄 🔴 跳过 🔴 跳过

Stage 2 · 评 Answer 4 维

③ 维度 相关性Relevance

AI 的回答 (| 之后的部分) 是否对应了观众的 query? 不评内容对不对、不评卖不卖货——只评"答的是不是这件事".

分数定义典型场景
5 直接回答了 query 的核心点 问"有黑色吗" → "有的哈, 链接 X 的外套是黑色"
4 回答了核心 + 顺带补充其他链接/信息 问"有黑色吗" → "链接 X 是黑色" + 推荐其他几款
3 部分回答 / 偏离主线但有交集 问"2 匹" → 推荐 2 匹链接但夹大段无关介绍
2 沾边但没正面回答 问"几点发货" → 大段介绍商品没提发货时间
1 答非所问 / 风马牛不相及 问"这件多少钱" → 介绍主播自己今天心情

关键判断

④ 维度 正确性Correctness

AI 回答的内容真伪 + 不确定性处理——"幻觉"和"诚实拒答"绑在一起评, 避免幻觉走运 (编造但恰好对) 拿高分、安全拒答 (不知道但合理引导) 被冤枉.

分数定义典型场景
5 内容正确 + 能从 query/answer 上下文交叉验证 问"2 匹" → "链接 1 和 5 都是 2 匹"——明确呼应 query 参数
4 内容合理、符合业务场景, 但无法在上下文直接验证 "奥迪 Q5L 33.28 万"看着合理无据但也没明显错
3 主动承担: "我帮您看下"/"转真人客服跟进" "我帮您查一下"、"客服稍后联系您"
2 Lazy 兜底 (让观众自己查); 或部分错误 / 跟随观众错误前提 "您可以点击查看详情页"、"详情页有详细信息"
1 明显幻觉 / 编造不存在的事实 / 配合违规话术 编造不存在的促销; 按变形违规词的脚本意图配合答
⚠️ Judge 没有 KB 访问 — "无法验证" ≠ "幻觉". 不要因为你看不到 KB 就把合理内容判为幻觉. 1 分判定必须满足: (a) 答案内部/与 query 矛盾 (b) 违反 business addon 红线 (c) 违背通用常识.

⚠ Lazy 兜底特别规则 (强制)

区分话术得分
✓ 主动拒答 (谁工作: AI/真人) "我帮您看下"、"主播马上确认"、"客服会跟进" 3 分
✗ Lazy 兜底 (谁工作: 观众) "去详情页瞅瞅"、"详情页都很清楚"、"链接说明里有" 最高 2 分

区分依据: 谁在做工作? 主动拒答 AI 承诺自己/真人去做; lazy 兜底把工作推回观众.

⑤ 维度 留客力Retention

AI 的回答是否让观众想继续留在直播间 / 完成业务转化—— 情感互动 (让人愿意听下去) + 转化引导 (推动下单/留资/核销) 两类能力糅合评.

分数定义通用判断
5 完美糅合互动 + 转化, 自然推动观众"留下/行动" 亲切称呼 + 共鸣 + 具体行动 (链接号/小风车/加车)
4 有明确引导, 执行到位但情感稍弱 给了链接但没共鸣修饰; 或互动自然但引导生硬
3 引导生硬模板化 / 互动有但完全无引导 "您可以去店铺看看"——无行动门槛
2 平淡无引导 / lazy 推详情页 + 顺带提产品 "详情页有详细信息, 这款不错可以拍"
1 反向赶客 / 零信息量 / 纯让观众自己查 "是的没错"、"详情页都很清楚"、"以页面看到的为准"

evidence_quote 必须带 tag

reason 里在方括号写 tag: [interaction] / [conversion] / [both] / [neither]

"reason": "[both] 用'听主播说这么多'共鸣 + '点小风车专属客服对接'明确动作"

业务差异化 (按 business_type addon)

业务5 分长这样
auto_lead_gen 留电 / 留微 / 预约试驾的明确动作
apparel_ecom 加车 / 收藏 / 链接号 + 尺码情绪共鸣
electronics_ecom 参数对比说服 + 链接号 + 催加车
catering_local 核销路径 / 到店 / 外卖 + 套餐推荐
⑥ 维度 自然度Naturalness

AI 的回答听起来像不像一个真实直播间主播在说话? 直播间是"听"的不是"读"的——即使内容正确、相关、留客力高, 如果朗读出来像 ChatGPT、像念稿、像机器人, 观众就会划走. 本维度专门评 TTS 友好度 + 主播感.

⚠️ 评 QA 问答的自然度不照搬整篇文案评估: 单条直播问答 30-80 字, 不像脚本那样有"全文出现 ≥ 5 个名字"、"全文 3-10 处反问"这种统计意义, 判定方式是长度基础分 + 瑕疵叠加.
分数定义特征
5 像真人主播: 口语自然 + 长度合理 (30-80 字) + 无 tag 残留 + 有主播感 节奏自然、用词口语化、长度适合 1 个呼吸读完
4 总体自然但稍长 (80-150 字) 或稍有书面感 内容流畅但偏长; 个别词偏书面化
3 偏机械 / 偏书面 / 偏长 (150-200 字) 但还能听 "首先...其次..." 结构化痕迹; 某些 LLM 套话
2 不像主播: 太长 (200+ 字) / 像 ChatGPT / 标点违和 / 有 tag 残留 长篇说明文风格、出现 【】 markdown 残留、过多书面连接词
1 严重不能听: 500+ 字流水账 / 满屏 tag / 明显 LLM 痕迹 / 标点错乱 复制粘贴 KB 原文、JSON 残留、章节标题残留

长度参考 (电商带货场景的默认参考线)

长度基础分
≤ 30 字5 分 (除非语病)
30-80 字5 分 (理想)
80-150 字4 分
150-200 字3 分
200-300 字2 分
300+ 字1 分

这是"基础分", 要叠加下方瑕疵 / 主播感 / 机器人特征. 如 100 字答案但全是套话堆砌可能落到 3 分.

⚠️ 长度不是硬扣分项——按业务和直播间状态豁免. 长度的本意是"读起来不憋、不啰嗦", 不是字数本身. 下面场景长回答是合理的, 不扣长度分:
场景为什么长答合理
留资业务 (auto_lead_gen) 观众问参数 / 对比 / 购车顾虑时, 100-200 字详细介绍 + 留资引导是正常形态. 汽车留资不靠"快节奏带货", 靠"把车讲清楚"
稀疏直播间 (人少 / 公屏不密集) AI 可以更长的承接和互动 (介绍完产品再聊两句), 观众听完不会被下一条评论打断
复杂咨询 餐饮套餐组合 / 家电参数对比 / 政策规则解释——信息量大就该说清楚, 硬切短反而割裂
观众主动追问深聊 "再讲讲这款的发动机"——观众明确想听细节, 长答符合期望

判定长度扣分前先问: 这条长回答读起来是"信息量充实"还是"啰嗦/凑字数"? 前者不扣, 后者按上表扣.

反例 (长但合理, 不扣 → 5 分): 汽车留资 + 观众问"陆放怎么样" → AI 答 150 字 (车型介绍 + 配置 + 留资链路)
反例 (短但割裂, 反而该扣): 观众问"奥迪 Q5L 跟宝马 X3 怎么选" → AI 只答 20 字"看您喜欢" → 自然度也只 3 分 (敷衍不像主播)

⚠ 单一瑕疵 vs 多重瑕疵 (关键评分边界)

直播 AI 回答常见瑕疵清单 (任一项视作"一个瑕疵"):

瑕疵数最低评分
0 个5 分
1 个 (单 。。 / 单句套话 / 单处重复) 4 分起步, 不再低——这是直播间真实形态, 不该惩罚过重
2 个并存3 分
3+ 个并存 / 整体堆砌感强2 分
复制粘贴感 / tag 残留 / 严重错乱1 分 (见下"机器人特征"硬触发)
⚠️ 核心原则: 不要因为单个 。。 或单句套话就把整段评到 3 分以下. 直播主播本来就口语化, 瑕疵不可避免, 多重叠加才是真问题.

主播感关键特征 (向 5 分靠拢)

机器人特征 (硬触发即 ≤ 2 分, 严重 → 1 分)

⚠️ 区分: 上面"瑕疵清单"是可叠加扣分的轻量瑕疵, 单个不破 4; 这里的"机器人特征"是硬触发, 出现任一项即使其他都好也最高 2 分, 严重时 1 分.

标点警告

评判示范

下面是不同分档的真实样本, 演示评分流程:

示例 1 · 5 自然度
apparel_ecom · 闲聊承接 + 留资
Q: 下午好 A: 下午好呀, 不系之舟老板! 您对哪款车感兴趣, 我来给您好好介绍介绍.
自然度 5 分: 口语化"呀" + 称呼"老板" + 自然询问, 0 瑕疵, 长度 24 字理想.
留客力 5 分 ([both]: 亲切称呼 + 业务承接). 相关性 5 分 (闲聊承接).
示例 2 · 4 单瑕疵不破 4
auto_lead_gen · 单个 "。。" 不该重罚
Q: 鑫源金卡T3 是油车吗 A: 东方大哥, 鑫源金卡T3标准型是油车, 它使用的能源类型为汽油, 环保标准为国VI。。好 想了解更多的朋友可以点下方小风车 有专属客服对接你.
自然度 4 分: 仅 1 个 "。。" 双句号瑕疵 + 称呼到位 + 内容口语. 单瑕疵不破 4.
正确性 4 分 (合理但无法在上下文验证). 留客力 5 分 ([conversion]: 留资动作清晰).
示例 3 · 3 多瑕疵叠加
auto_lead_gen · 称呼重复 + 标点违和 + 末尾拖沓
Q: 还没下班啊 A: 小唐豆大哥, 还没呢, 我得好好给大家介绍第四代CS75plus, 让大家都了解这款好车. 您有啥想了解的尽管问!。大哥还有问题吗? 咱们先继续了, 有问题随时问我.
自然度 3 分: 主播感本来 OK (有称呼、用"咱"), 但多项瑕疵叠加—— 称呼重复 "大哥 ... 大哥" + 标点违和 "!。" + 套话 "还有问题吗" + 末尾拖沓 "咱们先继续了". 3+ 瑕疵 → 3 分.
示例 4 · 2 Lazy 兜底
catering_local · 推走观众
Q: 桌球大包厢带ktv吗 A: 明舍宝宝, 不太清楚3号链接新年矩惠桌球大包厢是否带KTV. 您可以点击查看详情页.
正确性 2 分 (lazy 兜底: 把查证推回观众). 留客力 2 分 ([neither]: 推回详情页, 无主动服务承诺). 自然度 4 分 (语句本身口语没问题, 单维度独立打).
(关键: 谁工作? 让观众自己查 → 正确性 / 留客力双维度都扣)
示例 5 · 1 机器人特征硬触发
构造样本 · 演示 tag 残留 + AI 口癖重灾
Q: 这件 T 恤怎么样 A: 【商品介绍】这款 T 恤更柔软、更亲肤、更轻盈, 匠心品质, 不容错过这次惊艳的活动.
自然度 1 分: 【】是机器人特征硬触发 + 多个 AI 口癖"匠心 / 不容错过 / 惊艳" + 三连排比 "更 X 更 Y 更 Z". 即使长度只有 40 字也直接落到 1 分.
留客力 3 分 (有引导但生硬). 相关性 4 分 (答了商品但没答"怎么样").

评判产出物

每条样本对每个维度独立调一次 judge LLM, 产出一行 JSON. 6 维度合并为一条评估记录:

{ "sample_id": "20260520_apparel_00123", "business_type": "apparel_ecom", "industry_kg": "服装", "platform": "douyin", "query": "有没有黑色的外套", "answer": "有没有黑色的外套|有的哈, 链接14的女子外套是黑色 ...", "scores": { "necessity": { "score": 5, "evidence_quote": "有没有黑色的外套", "reason": "清晰商品查询" }, "answerable": { "score": 5, "evidence_quote": "有没有黑色的外套", "reason": "KB 可直接覆盖" }, "relevance": { "score": 4, "evidence_quote": "链接14的女子外套", "reason": "答了'有'但没明确说哪个是黑色" }, "correctness": { "score": 4, "evidence_quote": "链接14", "reason": "合理但无法验证" }, "retention": { "score": 3, "evidence_quote": "链接14、链接44", "reason": "[conversion] 链接堆砌, 缺加车钩子" }, "naturalness": { "score": 5, "evidence_quote": "有的哈", "reason": "口语化 + 称呼到位 + 长度合适, 0 瑕疵" } } }
⚠️ evidence_quote 必填且必须是原文逐字片段. reason 推荐点出关键触发点 (如"lazy 兜底 → 推详情页"、"称呼重复 + 末尾拖沓").

自动化路径

维度自动化程度说明
① 必要性≈ 70% 自动 变形违规词、灌水词、单字数字可正则; 闲聊 vs 灌水边界需 judge LLM
② 可答性0% — judge LLM 依赖业务 KB 范围判断, 必须模型评
③ 相关性0% — judge LLM 需语义理解 query 和 answer 关系
④ 正确性≈ 20% 自动 lazy 兜底关键词 ("详情页"、"页面看到") 可正则触发 ≤ 2 分上限
⑤ 留客力≈ 30% 自动 具体行动词 (链接号 / 加车 / 留资 / 小风车) 可正则识别; 情感强度需 judge LLM
⑥ 自然度≈ 50% 自动 标点违和 / tag 残留 / markdown 列表 / AI 口癖词清单可正则扫; 主播感、节奏感、整体听感需 judge LLM 评

当前 pipeline 实现: judge LLM 调用 6 次 (每维度一次), 后续可把"自动可计算"部分前置成 pre-judge 工具调用, judge LLM 只做 cross-check 和未覆盖维度.

评判注意

  1. 六维独立: 不要让一个维度的好坏影响另一维度. 一条 query 烂的样本, AI 答得好仍能拿高分; 反之 query 完美但 AI 答崩同样要 1-2 分.
  2. 必须引证据: evidence_quote 是原文逐字片段, 不要改写不要总结. evidence 为空的评分等同于"未评", 会被回归.
  3. 敢用极端档: 1 分和 5 分都要敢用. 如果只在 3-4 分游移, 说明 rubric 没吃透 / 对照清单不够细.
  4. 业务背景优先于通用直觉: 直播间的"好回答"和 ChatGPT 不同. 本地生活、汽车留资、服装电商各有 5 分形态, 看对应 addon.
  5. Lazy 兜底是硬约束: "您去详情页瞅瞅" 在 correctness/retention 两维度都最高 2 分, 不可豁免.
  6. tag 残留是硬约束: 出现 【...】 / 列表 / JSON / markdown 标题 → 自然度直接 1-2 分, 无论其他多自然 (参见 reference_prompt_no_section_tags).
  7. 复盘可追溯: 同一样本不同评审独立评判, 整体分差 ≤ 1 档. 偏差大时回查 evidence_quote.
miaobo QA Eval · 活文档
反馈走 GitLab Issue label qa-eval-spec
配套源文档: qa_eval/pipeline/prompts/ 下各维度 markdown
参考: LivePulse 直播口播仿写文案评判标准 v1.0 (借鉴 NYT 排版风格; QA 评估自然度仍按单条问答的瑕疵叠加逻辑)