两份独立的评判标准. 一份评 AI 在直播间公屏的单条问答质量, 一份评仿写出的整篇直播口播脚本听感.
直播间公屏的单条 (query, answer) 配对质量评分. 六维独立 1-5 分: 必要性 / 可答性 / 相关性 / 正确性 / 留客力 / 自然度. 含 Lazy 兜底硬约束、tag 残留判定、按业务的长度豁免规则.
主播人设仿写脚本 (开场 / 讲品 / 应答 3 场景) 的听感评判. 四维查表合成: AI 感 (A0-A3) / 真人感 (H0-H2) / 流畅度 (F0-F2) / 整体观感 (O0-O3). 任一硬约束 (A3 / H2 / O3) 一票否决.
eval-spec.