六维独立打分, 1-5 分制. 客观信号清单 + 锚点示例, 让 judge LLM 和人工评审打分可复盘.
| 版本 | v1.1 (2026-05-21) |
| 用法 | 每条问答样本独立评 6 维, 各维度独立 1-5 分 |
| 受众 | QA 评估 judge LLM / 人工抽检 / 业务回归 / 算子选型 |
| 评估对象 | 直播间公屏的单条 (query, answer) 配对 |
| 配套 | prompts/_common/system.md + stage1/stage2 各维度 .md + addons/<biz>.md |
六维独立 1-5 分. 一条样本可能"相关性满分但自然度差", 六维分立让评审一眼看出"该补什么、改什么", 也方便算子选型时按维度回归.
判断这条公屏发言本身值不值得 / 能不能让 AI 回答. 不看 AI 实际答得好不好.
AI 实际回复的质量. 评分时只看 | 之后的真实回答部分.
必要性 × 可答性 → "该不该 trigger AI"决策矩阵. Stage 2 四维 → "答得好不好"全景.
| 设计选择 | 原因 |
|---|---|
| 六维独立 1-5 分 | QA 评估是流水线场景, 量级 10k+ 样本/天, 需要每维独立的分布数据驱动算子回归, 而不是聚合到一个等级 |
| 客观与主观分离 | 必要性/可答性/自然度有大量可正则匹配的客观信号 (词表/句式); 正确性/留客力依赖业务上下文必须 judge LLM 评 |
| 硬约束逻辑用 "上限分" | "Lazy 兜底最高 2 分"、"tag 残留最高 1 分" 这类规则, 用 1-5 分制中的"上限"表达, 不破坏维度独立性 |
| evidence_quote 强制 | 每个评分必须配 answer/query 原文片段引用, judge 乱编会被立即识别 |
样本的 answer 字段统一格式: <AI 重述问题>|<AI 真实回答>
评分时只看 | 之后的内容. 例外: 必要性、可答性引用的是 query 原文.
| 分隔符, 整个 answer 就是真实回答.| 字段 | 含义 | 取值 |
|---|---|---|
| business_type | 业务类型, 决定加载哪个 addon | auto_lead_gen / apparel_ecom / electronics_ecom /
catering_local / other |
| industry_kg | 行业大类 | 汽车 / 服装 / 数码 / 家电 / 餐饮服务 等 |
| platform | 直播平台 | douyin / taobao / jingdong / meituan / tiktok 等 |
evidence_quote 必须是原文逐字片段, 不要改写、不要总结.
乱编会被人工抽检识别.这条 query 本身是否值得 AI 主播花算力回答? 直播间公屏每秒可能有几十条发言,
"该静默时静默、该回答时回答"本身就是一种能力.
| 分数 | 定义 | 典型示例 |
|---|---|---|
| 5 | 清晰的高价值产品/业务问题, 必须回答 | "这款车 SUV 多少钱"、"几点开门"、"4 号链接能用券吗" |
| 4 | 业务相关但偏边缘 / 情感互动 | "主播你吃过吗"、"这件适合 50 岁穿吗" |
| 3 | 模糊 / 半相关 / 可答可不答 | "还有别的吗"、"怎么样"、"2 匹" (单字数字依赖上下文) |
| 2 | 灌水但无害的社交发言 | "下午好"、"主播好看"、"666"、"+1"、"[看]" |
| 1 | 恶意 / 攻击 / 脚本 / 引战 | 变形违规词抢券 ("鲸苳飕嗦")、引战、辱骂、明显机器人 |
evidence_quote 引用 query 原文片段 (本维度唯一不引 answer 的维度).这条 query 在直播间上下文下, AI 主播理论上能不能给出有信息量的回答? 有没有可能基于 KB / 通用知识 / 业务话术给出实质性回应.
| 分数 | 定义 | 典型示例 |
|---|---|---|
| 5 | 完全可答: 商品参数/业务规则/标准话术能直接覆盖 | "这款车长宽高"、"这外套面料是什么"、"链接 3 多少钱" |
| 4 | 基本可答: 大部分可基于 KB, 少量需兜底引导 | "这件适合冬天穿吗"、"对比 X 品牌怎么样" |
| 3 | 部分可答: 需拒答/转人工但能给方向 | "现在还有库存吗"、"我能享受 X 优惠吗"、"包邮吗" |
| 2 | 几乎不可答: 依赖实时变化/个性化数据 | "我的订单到哪了"、"我的优惠券能用吗" |
| 1 | 完全不可答: 纯主观/开放问题 | "我女朋友会喜欢吗"、"这车适合我吗" |
| 可答 ≥ 4 | 可答 = 3 | 可答 ≤ 2 | |
|---|---|---|---|
| 必要性 ≥ 4 | 🟢 必答 | 🟡 兜底答 | 🟡 转真人 |
| 必要性 = 3 | 🟢 可答 | 🟡 看场景 | 🔴 跳过 |
| 必要性 ≤ 2 | 🟡 寒暄 | 🔴 跳过 | 🔴 跳过 |
AI 的回答 (| 之后的部分) 是否对应了观众的 query?
不评内容对不对、不评卖不卖货——只评"答的是不是这件事".
| 分数 | 定义 | 典型场景 |
|---|---|---|
| 5 | 直接回答了 query 的核心点 | 问"有黑色吗" → "有的哈, 链接 X 的外套是黑色" |
| 4 | 回答了核心 + 顺带补充其他链接/信息 | 问"有黑色吗" → "链接 X 是黑色" + 推荐其他几款 |
| 3 | 部分回答 / 偏离主线但有交集 | 问"2 匹" → 推荐 2 匹链接但夹大段无关介绍 |
| 2 | 沾边但没正面回答 | 问"几点发货" → 大段介绍商品没提发货时间 |
| 1 | 答非所问 / 风马牛不相及 | 问"这件多少钱" → 介绍主播自己今天心情 |
AI 回答的内容真伪 + 不确定性处理——"幻觉"和"诚实拒答"绑在一起评, 避免幻觉走运 (编造但恰好对) 拿高分、安全拒答 (不知道但合理引导) 被冤枉.
| 分数 | 定义 | 典型场景 |
|---|---|---|
| 5 | 内容正确 + 能从 query/answer 上下文交叉验证 | 问"2 匹" → "链接 1 和 5 都是 2 匹"——明确呼应 query 参数 |
| 4 | 内容合理、符合业务场景, 但无法在上下文直接验证 | "奥迪 Q5L 33.28 万"看着合理无据但也没明显错 |
| 3 | 主动承担: "我帮您看下"/"转真人客服跟进" | "我帮您查一下"、"客服稍后联系您" |
| 2 | Lazy 兜底 (让观众自己查); 或部分错误 / 跟随观众错误前提 | "您可以点击查看详情页"、"详情页有详细信息" |
| 1 | 明显幻觉 / 编造不存在的事实 / 配合违规话术 | 编造不存在的促销; 按变形违规词的脚本意图配合答 |
| 区分 | 话术 | 得分 |
|---|---|---|
| ✓ 主动拒答 (谁工作: AI/真人) | "我帮您看下"、"主播马上确认"、"客服会跟进" | 3 分 |
| ✗ Lazy 兜底 (谁工作: 观众) | "去详情页瞅瞅"、"详情页都很清楚"、"链接说明里有" | 最高 2 分 |
区分依据: 谁在做工作? 主动拒答 AI 承诺自己/真人去做; lazy 兜底把工作推回观众.
AI 的回答是否让观众想继续留在直播间 / 完成业务转化—— 情感互动 (让人愿意听下去) + 转化引导 (推动下单/留资/核销) 两类能力糅合评.
| 分数 | 定义 | 通用判断 |
|---|---|---|
| 5 | 完美糅合互动 + 转化, 自然推动观众"留下/行动" | 亲切称呼 + 共鸣 + 具体行动 (链接号/小风车/加车) |
| 4 | 有明确引导, 执行到位但情感稍弱 | 给了链接但没共鸣修饰; 或互动自然但引导生硬 |
| 3 | 引导生硬模板化 / 互动有但完全无引导 | "您可以去店铺看看"——无行动门槛 |
| 2 | 平淡无引导 / lazy 推详情页 + 顺带提产品 | "详情页有详细信息, 这款不错可以拍" |
| 1 | 反向赶客 / 零信息量 / 纯让观众自己查 | "是的没错"、"详情页都很清楚"、"以页面看到的为准" |
reason 里在方括号写 tag:
[interaction] / [conversion] / [both] / [neither]
| 业务 | 5 分长这样 |
|---|---|
auto_lead_gen |
留电 / 留微 / 预约试驾的明确动作 |
apparel_ecom |
加车 / 收藏 / 链接号 + 尺码情绪共鸣 |
electronics_ecom |
参数对比说服 + 链接号 + 催加车 |
catering_local |
核销路径 / 到店 / 外卖 + 套餐推荐 |
AI 的回答听起来像不像一个真实直播间主播在说话? 直播间是"听"的不是"读"的——即使内容正确、相关、留客力高, 如果朗读出来像 ChatGPT、像念稿、像机器人, 观众就会划走. 本维度专门评 TTS 友好度 + 主播感.
| 分数 | 定义 | 特征 |
|---|---|---|
| 5 | 像真人主播: 口语自然 + 长度合理 (30-80 字) + 无 tag 残留 + 有主播感 | 节奏自然、用词口语化、长度适合 1 个呼吸读完 |
| 4 | 总体自然但稍长 (80-150 字) 或稍有书面感 | 内容流畅但偏长; 个别词偏书面化 |
| 3 | 偏机械 / 偏书面 / 偏长 (150-200 字) 但还能听 | "首先...其次..." 结构化痕迹; 某些 LLM 套话 |
| 2 | 不像主播: 太长 (200+ 字) / 像 ChatGPT / 标点违和 / 有 tag 残留 | 长篇说明文风格、出现 【】 markdown 残留、过多书面连接词 |
| 1 | 严重不能听: 500+ 字流水账 / 满屏 tag / 明显 LLM 痕迹 / 标点错乱 | 复制粘贴 KB 原文、JSON 残留、章节标题残留 |
| 长度 | 基础分 |
|---|---|
| ≤ 30 字 | 5 分 (除非语病) |
| 30-80 字 | 5 分 (理想) |
| 80-150 字 | 4 分 |
| 150-200 字 | 3 分 |
| 200-300 字 | 2 分 |
| 300+ 字 | 1 分 |
这是"基础分", 要叠加下方瑕疵 / 主播感 / 机器人特征. 如 100 字答案但全是套话堆砌可能落到 3 分.
| 场景 | 为什么长答合理 |
|---|---|
留资业务 (auto_lead_gen) |
观众问参数 / 对比 / 购车顾虑时, 100-200 字详细介绍 + 留资引导是正常形态. 汽车留资不靠"快节奏带货", 靠"把车讲清楚" |
| 稀疏直播间 (人少 / 公屏不密集) | AI 可以更长的承接和互动 (介绍完产品再聊两句), 观众听完不会被下一条评论打断 |
| 复杂咨询 | 餐饮套餐组合 / 家电参数对比 / 政策规则解释——信息量大就该说清楚, 硬切短反而割裂 |
| 观众主动追问深聊 | "再讲讲这款的发动机"——观众明确想听细节, 长答符合期望 |
判定长度扣分前先问: 这条长回答读起来是"信息量充实"还是"啰嗦/凑字数"? 前者不扣, 后者按上表扣.
反例 (长但合理, 不扣 → 5 分):
汽车留资 + 观众问"陆放怎么样" → AI 答 150 字 (车型介绍 + 配置 + 留资链路)
反例 (短但割裂, 反而该扣):
观众问"奥迪 Q5L 跟宝马 X3 怎么选" → AI 只答 20 字"看您喜欢"
→ 自然度也只 3 分 (敷衍不像主播)
直播 AI 回答常见瑕疵清单 (任一项视作"一个瑕疵"):
。。 (双句号) / !。 / 半角逗号穿插中文 /
中文里夹空格 (3 - 4 人餐)| 瑕疵数 | 最低评分 |
|---|---|
| 0 个 | 5 分 |
1 个 (单 。。 / 单句套话 / 单处重复) |
4 分起步, 不再低——这是直播间真实形态, 不该惩罚过重 |
| 2 个并存 | 3 分 |
| 3+ 个并存 / 整体堆砌感强 | 2 分 |
| 复制粘贴感 / tag 残留 / 严重错乱 | 1 分 (见下"机器人特征"硬触发) |
。。 或单句套话就把整段评到 3 分以下.
直播主播本来就口语化, 瑕疵不可避免, 多重叠加才是真问题.【】 《》 等结构标记【】 框 (参见 reference_prompt_no_section_tags: 模型可能把 prompt 标签当输出 schema)1. xxx 2. xxx 列表 / - 项 项目符号# xxx) 或加粗 (**xxx**), . ?) → -1 分| 之后的内容 (注意 | 之前是 AI 重述的问题, 不算回答)下面是不同分档的真实样本, 演示评分流程:
【】 框是机器人特征硬触发 + 多个 AI 口癖"匠心 / 不容错过 / 惊艳" + 三连排比
"更 X 更 Y 更 Z". 即使长度只有 40 字也直接落到 1 分.
每条样本对每个维度独立调一次 judge LLM, 产出一行 JSON. 6 维度合并为一条评估记录:
evidence_quote 必填且必须是原文逐字片段.
reason 推荐点出关键触发点 (如"lazy 兜底 → 推详情页"、"称呼重复 + 末尾拖沓").| 维度 | 自动化程度 | 说明 |
|---|---|---|
| ① 必要性 | ≈ 70% 自动 | 变形违规词、灌水词、单字数字可正则; 闲聊 vs 灌水边界需 judge LLM |
| ② 可答性 | 0% — judge LLM | 依赖业务 KB 范围判断, 必须模型评 |
| ③ 相关性 | 0% — judge LLM | 需语义理解 query 和 answer 关系 |
| ④ 正确性 | ≈ 20% 自动 | lazy 兜底关键词 ("详情页"、"页面看到") 可正则触发 ≤ 2 分上限 |
| ⑤ 留客力 | ≈ 30% 自动 | 具体行动词 (链接号 / 加车 / 留资 / 小风车) 可正则识别; 情感强度需 judge LLM |
| ⑥ 自然度 | ≈ 50% 自动 | 标点违和 / tag 残留 / markdown 列表 / AI 口癖词清单可正则扫; 主播感、节奏感、整体听感需 judge LLM 评 |
当前 pipeline 实现: judge LLM 调用 6 次 (每维度一次), 后续可把"自动可计算"部分前置成 pre-judge 工具调用, judge LLM 只做 cross-check 和未覆盖维度.
evidence_quote 是原文逐字片段, 不要改写不要总结.
evidence 为空的评分等同于"未评", 会被回归.【...】 / 列表 / JSON / markdown 标题 → 自然度直接 1-2 分,
无论其他多自然 (参见 reference_prompt_no_section_tags).qa-eval-specqa_eval/pipeline/prompts/ 下各维度 markdown