MIAOBO · 效果评估标准

秒播 AI 效果评估标准

两份独立的评判标准. 一份评 AI 在直播间公屏的单条问答质量, 一份评仿写出的整篇直播口播脚本听感.

活文档 · 2026-05-21

① QA 问答评估标准

直播间公屏的单条 (query, answer) 配对质量评分. 六维独立 1-5 分: 必要性 / 可答性 / 相关性 / 正确性 / 留客力 / 自然度. 含 Lazy 兜底硬约束、tag 残留判定、按业务的长度豁免规则.

读者: judge LLM 设计 / 算子选型 / 客户反馈分析

② 仿写文案评判标准

主播人设仿写脚本 (开场 / 讲品 / 应答 3 场景) 的听感评判. 四维查表合成: AI 感 (A0-A3) / 真人感 (H0-H2) / 流畅度 (F0-F2) / 整体观感 (O0-O3). 任一硬约束 (A3 / H2 / O3) 一票否决.

读者: 仿写算法迭代 / 语言学顾问 / 主播本人确认
评估的两份标准独立设计, 评估对象 (单条问答 vs 整篇脚本) 和评分方法 (1-5 分 vs 查表合成) 不同, 不互通.
反馈走 GitLab Issue label eval-spec.