MIAOBO QA · 评估标准

秒播 AI 直播间问答评估标准

六维独立打分, 1-5 分制. 客观信号清单 + 锚点示例, 让 judge LLM 和人工评审打分可复盘.

版本	v1.1 (2026-05-21)
用法	每条问答样本独立评 6 维, 各维度独立 1-5 分
受众	QA 评估 judge LLM / 人工抽检 / 业务回归 / 算子选型
评估对象	直播间公屏的单条 (query, answer) 配对
配套	prompts/_common/system.md + stage1/stage2 各维度 .md + addons/<biz>.md

评分方法

六维独立 1-5 分. 一条样本可能"相关性满分但自然度差", 六维分立让评审一眼看出"该补什么、改什么", 也方便算子选型时按维度回归.

两个 Stage

Stage 1 · 评 Query

判断这条公屏发言本身值不值得 / 能不能让 AI 回答. 不看 AI 实际答得好不好.

必要性可答性

Stage 2 · 评 Answer

AI 实际回复的质量. 评分时只看 | 之后的真实回答部分.

聚合分析

必要性 × 可答性 → "该不该 trigger AI"决策矩阵. Stage 2 四维 → "答得好不好"全景.

🟢 优秀 🟡 修订 🔴 不合格

六维独立 1-5 分的设计权衡

设计选择	原因
六维独立 1-5 分	QA 评估是流水线场景, 量级 10k+ 样本/天, 需要每维独立的分布数据驱动算子回归, 而不是聚合到一个等级
客观与主观分离	必要性/可答性/自然度有大量可正则匹配的客观信号 (词表/句式); 正确性/留客力依赖业务上下文必须 judge LLM 评
硬约束逻辑用 "上限分"	"Lazy 兜底最高 2 分"、"tag 残留最高 1 分" 这类规则, 用 1-5 分制中的"上限"表达, 不破坏维度独立性
evidence_quote 强制	每个评分必须配 answer/query 原文片段引用, judge 乱编会被立即识别

通用说明

answer 字段格式

样本的 answer 字段统一格式: <AI 重述问题>|<AI 真实回答>

评分时只看 | 之后的内容. 例外: 必要性、可答性引用的是 query 原文.

⚠️ 如果样本无 | 分隔符, 整个 answer 就是真实回答.

上下文字段

字段	含义	取值
business_type	业务类型, 决定加载哪个 addon	`auto_lead_gen` / `apparel_ecom` / `electronics_ecom` / `catering_local` / `other`
industry_kg	行业大类	汽车 / 服装 / 数码 / 家电 / 餐饮服务等
platform	直播平台	douyin / taobao / jingdong / meituan / tiktok 等

输出 JSON 格式 (每维度一次调用)

{ "score": <1-5 整数>, "evidence_quote": "<answer 或 query 中逐字 1-20 字原文片段>", "reason": "<一句话评分理由, 不超过 50 字>" }

⚠️ evidence_quote 必须是原文逐字片段, 不要改写、不要总结. 乱编会被人工抽检识别.

Stage 1 · 评 Query 2 维

① 维度答题必要性Necessity

这条 query 本身是否值得 AI 主播花算力回答? 直播间公屏每秒可能有几十条发言, "该静默时静默、该回答时回答"本身就是一种能力.

分数	定义	典型示例
5	清晰的高价值产品/业务问题, 必须回答	"这款车 SUV 多少钱"、"几点开门"、"4 号链接能用券吗"
4	业务相关但偏边缘 / 情感互动	"主播你吃过吗"、"这件适合 50 岁穿吗"
3	模糊 / 半相关 / 可答可不答	"还有别的吗"、"怎么样"、"2 匹" (单字数字依赖上下文)
2	灌水但无害的社交发言	"下午好"、"主播好看"、"666"、"+1"、"[看]"
1	恶意 / 攻击 / 脚本 / 引战	变形违规词抢券 ("鲸苳飕嗦")、引战、辱骂、明显机器人

关键判断

闲聊 ≠ 灌水: 闲聊带可被回应的内容/情绪 → 4 分; 灌水只是刷存在感 → 2 分.
单字数字/参数: 3 分而非更低. "2 匹"可能想问空调规格, AI 顺势推荐链接合理.
变形违规词: 1 分, 无论 AI 答没答出来——本身就是不该回的 query.
evidence_quote 引用 query 原文片段 (本维度唯一不引 answer 的维度).

② 维度可回答性Answerable

这条 query 在直播间上下文下, AI 主播理论上能不能给出有信息量的回答? 有没有可能基于 KB / 通用知识 / 业务话术给出实质性回应.

分数	定义	典型示例
5	完全可答: 商品参数/业务规则/标准话术能直接覆盖	"这款车长宽高"、"这外套面料是什么"、"链接 3 多少钱"
4	基本可答: 大部分可基于 KB, 少量需兜底引导	"这件适合冬天穿吗"、"对比 X 品牌怎么样"
3	部分可答: 需拒答/转人工但能给方向	"现在还有库存吗"、"我能享受 X 优惠吗"、"包邮吗"
2	几乎不可答: 依赖实时变化/个性化数据	"我的订单到哪了"、"我的优惠券能用吗"
1	完全不可答: 纯主观/开放问题	"我女朋友会喜欢吗"、"这车适合我吗"

关键判断

拒答合理 = 仍可答: 3 分核心是"AI 有路径可走" (如"库存请咨询客服"标准兜底).
2 vs 3 边界: 3 分是 AI 有路径可走, 2 分是即使按话术答也无意义 (个人订单 AI 真不知道).
跨平台差异: 本地生活的"几点营业"是 5; 电商的"几点发货"是 4 (话术兜底但有时含糊).

必要性 × 可答性 = "该不该 trigger AI" 决策矩阵

	可答 ≥ 4	可答 = 3	可答 ≤ 2
必要性 ≥ 4	🟢 必答	🟡 兜底答	🟡 转真人
必要性 = 3	🟢 可答	🟡 看场景	🔴 跳过
必要性 ≤ 2	🟡 寒暄	🔴 跳过	🔴 跳过

Stage 2 · 评 Answer 4 维

③ 维度相关性Relevance

AI 的回答 (| 之后的部分) 是否对应了观众的 query? 不评内容对不对、不评卖不卖货——只评"答的是不是这件事".

分数	定义	典型场景
5	直接回答了 query 的核心点	问"有黑色吗" → "有的哈, 链接 X 的外套是黑色"
4	回答了核心 + 顺带补充其他链接/信息	问"有黑色吗" → "链接 X 是黑色" + 推荐其他几款
3	部分回答 / 偏离主线但有交集	问"2 匹" → 推荐 2 匹链接但夹大段无关介绍
2	沾边但没正面回答	问"几点发货" → 大段介绍商品没提发货时间
1	答非所问 / 风马牛不相及	问"这件多少钱" → 介绍主播自己今天心情

关键判断

闲聊承接 = 5 分: "下午好" → "下午好呀宝宝, 您对哪款感兴趣"——直播间里回应社交就是相关.
叠加无关推销的扣分: 答了核心但叠了过多无关推销, 5 → 4; 完全无关 → 3.
问 A 答 B 但都有用: "红色没有, 蓝色更显瘦" → 4 分 (提供替代, 高于 3 但不达 5).
多意图 query: "多少钱包邮吗洗了缩水不"——答 1-2 个 = 3, 答全部 = 5.

④ 维度正确性Correctness

AI 回答的内容真伪 + 不确定性处理——"幻觉"和"诚实拒答"绑在一起评, 避免幻觉走运 (编造但恰好对) 拿高分、安全拒答 (不知道但合理引导) 被冤枉.

分数	定义	典型场景
5	内容正确 + 能从 query/answer 上下文交叉验证	问"2 匹" → "链接 1 和 5 都是 2 匹"——明确呼应 query 参数
4	内容合理、符合业务场景, 但无法在上下文直接验证	"奥迪 Q5L 33.28 万"看着合理无据但也没明显错
3	主动承担: "我帮您看下"/"转真人客服跟进"	"我帮您查一下"、"客服稍后联系您"
2	Lazy 兜底 (让观众自己查); 或部分错误 / 跟随观众错误前提	"您可以点击查看详情页"、"详情页有详细信息"
1	明显幻觉 / 编造不存在的事实 / 配合违规话术	编造不存在的促销; 按变形违规词的脚本意图配合答

⚠️ Judge 没有 KB 访问 — "无法验证" ≠ "幻觉". 不要因为你看不到 KB 就把合理内容判为幻觉. 1 分判定必须满足: (a) 答案内部/与 query 矛盾 (b) 违反 business addon 红线 (c) 违背通用常识.

⚠ Lazy 兜底特别规则 (强制)

区分	话术	得分
✓ 主动拒答 (谁工作: AI/真人)	"我帮您看下"、"主播马上确认"、"客服会跟进"	3 分
✗ Lazy 兜底 (谁工作: 观众)	"去详情页瞅瞅"、"详情页都很清楚"、"链接说明里有"	最高 2 分

区分依据: 谁在做工作? 主动拒答 AI 承诺自己/真人去做; lazy 兜底把工作推回观众.

⑤ 维度留客力Retention

AI 的回答是否让观众想继续留在直播间 / 完成业务转化—— 情感互动 (让人愿意听下去) + 转化引导 (推动下单/留资/核销) 两类能力糅合评.

分数	定义	通用判断
5	完美糅合互动 + 转化, 自然推动观众"留下/行动"	亲切称呼 + 共鸣 + 具体行动 (链接号/小风车/加车)
4	有明确引导, 执行到位但情感稍弱	给了链接但没共鸣修饰; 或互动自然但引导生硬
3	引导生硬模板化 / 互动有但完全无引导	"您可以去店铺看看"——无行动门槛
2	平淡无引导 / lazy 推详情页 + 顺带提产品	"详情页有详细信息, 这款不错可以拍"
1	反向赶客 / 零信息量 / 纯让观众自己查	"是的没错"、"详情页都很清楚"、"以页面看到的为准"

evidence_quote 必须带 tag

reason 里在方括号写 tag: [interaction] / [conversion] / [both] / [neither]

"reason": "[both] 用'听主播说这么多'共鸣 + '点小风车专属客服对接'明确动作"

业务差异化 (按 business_type addon)

业务	5 分长这样
`auto_lead_gen`	留电 / 留微 / 预约试驾的明确动作
`apparel_ecom`	加车 / 收藏 / 链接号 + 尺码情绪共鸣
`electronics_ecom`	参数对比说服 + 链接号 + 催加车
`catering_local`	核销路径 / 到店 / 外卖 + 套餐推荐

⑥ 维度自然度Naturalness

AI 的回答听起来像不像一个真实直播间主播在说话? 直播间是"听"的不是"读"的——即使内容正确、相关、留客力高, 如果朗读出来像 ChatGPT、像念稿、像机器人, 观众就会划走. 本维度专门评 TTS 友好度 + 主播感.

⚠️ 评 QA 问答的自然度不照搬整篇文案评估: 单条直播问答 30-80 字, 不像脚本那样有"全文出现 ≥ 5 个名字"、"全文 3-10 处反问"这种统计意义, 判定方式是长度基础分 + 瑕疵叠加.

分数	定义	特征
5	像真人主播: 口语自然 + 长度合理 (30-80 字) + 无 tag 残留 + 有主播感	节奏自然、用词口语化、长度适合 1 个呼吸读完
4	总体自然但稍长 (80-150 字) 或稍有书面感	内容流畅但偏长; 个别词偏书面化
3	偏机械 / 偏书面 / 偏长 (150-200 字) 但还能听	"首先...其次..." 结构化痕迹; 某些 LLM 套话
2	不像主播: 太长 (200+ 字) / 像 ChatGPT / 标点违和 / 有 tag 残留	长篇说明文风格、出现 `【】` markdown 残留、过多书面连接词
1	严重不能听: 500+ 字流水账 / 满屏 tag / 明显 LLM 痕迹 / 标点错乱	复制粘贴 KB 原文、JSON 残留、章节标题残留

长度参考 (电商带货场景的默认参考线)

长度	基础分
≤ 30 字	5 分 (除非语病)
30-80 字	5 分 (理想)
80-150 字	4 分
150-200 字	3 分
200-300 字	2 分
300+ 字	1 分

这是"基础分", 要叠加下方瑕疵 / 主播感 / 机器人特征. 如 100 字答案但全是套话堆砌可能落到 3 分.

⚠️ 长度不是硬扣分项——按业务和直播间状态豁免. 长度的本意是"读起来不憋、不啰嗦", 不是字数本身. 下面场景长回答是合理的, 不扣长度分:

场景	为什么长答合理
留资业务 (`auto_lead_gen`)	观众问参数 / 对比 / 购车顾虑时, 100-200 字详细介绍 + 留资引导是正常形态. 汽车留资不靠"快节奏带货", 靠"把车讲清楚"
稀疏直播间 (人少 / 公屏不密集)	AI 可以更长的承接和互动 (介绍完产品再聊两句), 观众听完不会被下一条评论打断
复杂咨询	餐饮套餐组合 / 家电参数对比 / 政策规则解释——信息量大就该说清楚, 硬切短反而割裂
观众主动追问深聊	"再讲讲这款的发动机"——观众明确想听细节, 长答符合期望

判定长度扣分前先问: 这条长回答读起来是"信息量充实"还是"啰嗦/凑字数"? 前者不扣, 后者按上表扣.

反例 (长但合理, 不扣 → 5 分): 汽车留资 + 观众问"陆放怎么样" → AI 答 150 字 (车型介绍 + 配置 + 留资链路)
反例 (短但割裂, 反而该扣): 观众问"奥迪 Q5L 跟宝马 X3 怎么选" → AI 只答 20 字"看您喜欢" → 自然度也只 3 分 (敷衍不像主播)

⚠ 单一瑕疵 vs 多重瑕疵 (关键评分边界)

直播 AI 回答常见瑕疵清单 (任一项视作"一个瑕疵"):

标点违和: 。。 (双句号) / ！。 / 半角逗号穿插中文 / 中文里夹空格 (3 - 4 人餐)
套话拼接: 末尾"还有问题吗"、"主播继续往下讲"、"有问题刷屏" 等流程化收尾
称呼重复: "X 大哥, X 大哥 ..."、"X 老板老板"
末尾拖沓: 答完核心后又叠 1-2 句无信息量补充
书面 AI 口癖: 出现"匠心 / 极致 / 不容错过 / 惊艳 / 标志着 / 一站式 / 综上所述" 等 (命中 1 个算一项)
客服腔/主持人腔: "关于您这个问题"、"接下来给大家讲讲"、"我个人觉得" 等

瑕疵数	最低评分
0 个	5 分
1 个 (单 `。。` / 单句套话 / 单处重复)	4 分起步, 不再低——这是直播间真实形态, 不该惩罚过重
2 个并存	3 分
3+ 个并存 / 整体堆砌感强	2 分
复制粘贴感 / tag 残留 / 严重错乱	1 分 (见下"机器人特征"硬触发)

⚠️ 核心原则: 不要因为单个 。。 或单句套话就把整段评到 3 分以下. 直播主播本来就口语化, 瑕疵不可避免, 多重叠加才是真问题.

主播感关键特征 (向 5 分靠拢)

用观众称呼: "宝宝 / 老板 / 姐妹 / 大哥 / 家人们 / 亲"
用直播口语助词: "咱 / 哈 / 哦 / 呀 / 呢"
有节奏感: 短句为主, 长短结合, 不是 100 字一气呵成
少用书面连词: 避免 "因此 / 此外 / 综上 / 然而"
不出现 【】 《》 等结构标记

机器人特征 (硬触发即 ≤ 2 分, 严重 → 1 分)

出现 【】 框 (参见 reference_prompt_no_section_tags: 模型可能把 prompt 标签当输出 schema)
出现 1. xxx 2. xxx 列表 / - 项 项目符号
出现 "首先 / 其次 / 再次 / 最后" 串联
出现 markdown 标题 (# xxx) 或加粗 (**xxx**)
出现 JSON / YAML 残留
出现 ChatGPT 风格 "我可以为您..."

⚠️ 区分: 上面"瑕疵清单"是可叠加扣分的轻量瑕疵, 单个不破 4; 这里的"机器人特征"是硬触发, 出现任一项即使其他都好也最高 2 分, 严重时 1 分.

标点警告

中文回答里出现英文标点 (, . ?) → -1 分
评估时只看 | 之后的内容 (注意 | 之前是 AI 重述的问题, 不算回答)

评判示范

下面是不同分档的真实样本, 演示评分流程:

示例 1 · 5 自然度

apparel_ecom · 闲聊承接 + 留资

Q: 下午好 A: 下午好呀, 不系之舟老板! 您对哪款车感兴趣, 我来给您好好介绍介绍.

自然度 5 分: 口语化"呀" + 称呼"老板" + 自然询问, 0 瑕疵, 长度 24 字理想.
留客力 5 分 ([both]: 亲切称呼 + 业务承接). 相关性 5 分 (闲聊承接).

示例 2 · 4 单瑕疵不破 4

auto_lead_gen · 单个 "。。" 不该重罚

Q: 鑫源金卡T3 是油车吗 A: 东方大哥, 鑫源金卡T3标准型是油车, 它使用的能源类型为汽油, 环保标准为国VI。。好想了解更多的朋友可以点下方小风车有专属客服对接你.

自然度 4 分: 仅 1 个 "。。" 双句号瑕疵 + 称呼到位 + 内容口语. 单瑕疵不破 4.
正确性 4 分 (合理但无法在上下文验证). 留客力 5 分 ([conversion]: 留资动作清晰).

示例 3 · 3 多瑕疵叠加

auto_lead_gen · 称呼重复 + 标点违和 + 末尾拖沓

Q: 还没下班啊 A: 小唐豆大哥, 还没呢, 我得好好给大家介绍第四代CS75plus, 让大家都了解这款好车. 您有啥想了解的尽管问!。大哥还有问题吗? 咱们先继续了, 有问题随时问我.

自然度 3 分: 主播感本来 OK (有称呼、用"咱"), 但多项瑕疵叠加—— 称呼重复 "大哥 ... 大哥" + 标点违和 "!。" + 套话 "还有问题吗" + 末尾拖沓 "咱们先继续了". 3+ 瑕疵 → 3 分.

示例 4 · 2 Lazy 兜底

catering_local · 推走观众

Q: 桌球大包厢带ktv吗 A: 明舍宝宝, 不太清楚3号链接新年矩惠桌球大包厢是否带KTV. 您可以点击查看详情页.

正确性 2 分 (lazy 兜底: 把查证推回观众). 留客力 2 分 ([neither]: 推回详情页, 无主动服务承诺). 自然度 4 分 (语句本身口语没问题, 单维度独立打).
(关键: 谁工作? 让观众自己查 → 正确性 / 留客力双维度都扣)

示例 5 · 1 机器人特征硬触发

构造样本 · 演示 tag 残留 + AI 口癖重灾

Q: 这件 T 恤怎么样 A: 【商品介绍】这款 T 恤更柔软、更亲肤、更轻盈, 匠心品质, 不容错过这次惊艳的活动.

自然度 1 分: 【】 框是机器人特征硬触发 + 多个 AI 口癖"匠心 / 不容错过 / 惊艳" + 三连排比 "更 X 更 Y 更 Z". 即使长度只有 40 字也直接落到 1 分.
留客力 3 分 (有引导但生硬). 相关性 4 分 (答了商品但没答"怎么样").

评判产出物

每条样本对每个维度独立调一次 judge LLM, 产出一行 JSON. 6 维度合并为一条评估记录:

{ "sample_id": "20260520_apparel_00123", "business_type": "apparel_ecom", "industry_kg": "服装", "platform": "douyin", "query": "有没有黑色的外套", "answer": "有没有黑色的外套|有的哈, 链接14的女子外套是黑色 ...", "scores": { "necessity": { "score": 5, "evidence_quote": "有没有黑色的外套", "reason": "清晰商品查询" }, "answerable": { "score": 5, "evidence_quote": "有没有黑色的外套", "reason": "KB 可直接覆盖" }, "relevance": { "score": 4, "evidence_quote": "链接14的女子外套", "reason": "答了'有'但没明确说哪个是黑色" }, "correctness": { "score": 4, "evidence_quote": "链接14", "reason": "合理但无法验证" }, "retention": { "score": 3, "evidence_quote": "链接14、链接44", "reason": "[conversion] 链接堆砌, 缺加车钩子" }, "naturalness": { "score": 5, "evidence_quote": "有的哈", "reason": "口语化 + 称呼到位 + 长度合适, 0 瑕疵" } } }

⚠️ evidence_quote 必填且必须是原文逐字片段. reason 推荐点出关键触发点 (如"lazy 兜底 → 推详情页"、"称呼重复 + 末尾拖沓").

自动化路径

维度	自动化程度	说明
① 必要性	≈ 70% 自动	变形违规词、灌水词、单字数字可正则; 闲聊 vs 灌水边界需 judge LLM
② 可答性	0% — judge LLM	依赖业务 KB 范围判断, 必须模型评
③ 相关性	0% — judge LLM	需语义理解 query 和 answer 关系
④ 正确性	≈ 20% 自动	lazy 兜底关键词 ("详情页"、"页面看到") 可正则触发 ≤ 2 分上限
⑤ 留客力	≈ 30% 自动	具体行动词 (链接号 / 加车 / 留资 / 小风车) 可正则识别; 情感强度需 judge LLM
⑥ 自然度	≈ 50% 自动	标点违和 / tag 残留 / markdown 列表 / AI 口癖词清单可正则扫; 主播感、节奏感、整体听感需 judge LLM 评

当前 pipeline 实现: judge LLM 调用 6 次 (每维度一次), 后续可把"自动可计算"部分前置成 pre-judge 工具调用, judge LLM 只做 cross-check 和未覆盖维度.

评判注意

六维独立: 不要让一个维度的好坏影响另一维度. 一条 query 烂的样本, AI 答得好仍能拿高分; 反之 query 完美但 AI 答崩同样要 1-2 分.
必须引证据: evidence_quote 是原文逐字片段, 不要改写不要总结. evidence 为空的评分等同于"未评", 会被回归.
敢用极端档: 1 分和 5 分都要敢用. 如果只在 3-4 分游移, 说明 rubric 没吃透 / 对照清单不够细.
业务背景优先于通用直觉: 直播间的"好回答"和 ChatGPT 不同. 本地生活、汽车留资、服装电商各有 5 分形态, 看对应 addon.
Lazy 兜底是硬约束: "您去详情页瞅瞅" 在 correctness/retention 两维度都最高 2 分, 不可豁免.
tag 残留是硬约束: 出现 【...】 / 列表 / JSON / markdown 标题 → 自然度直接 1-2 分, 无论其他多自然 (参见 reference_prompt_no_section_tags).
复盘可追溯: 同一样本不同评审独立评判, 整体分差 ≤ 1 档. 偏差大时回查 evidence_quote.

miaobo QA Eval · 活文档
反馈走 GitLab Issue label qa-eval-spec
配套源文档: qa_eval/pipeline/prompts/ 下各维度 markdown
参考: LivePulse 直播口播仿写文案评判标准 v1.0 (借鉴 NYT 排版风格; QA 评估自然度仍按单条问答的瑕疵叠加逻辑)