MIAOBO · 文档站

秒播 AI 效果评估

评判标准 + 真实直播间画像案例. 标准定义"什么是好", 案例展示"如何评".

活文档 · 持续更新 · 2026-05-22

评判标准

两份独立的规范文档. 评估对象和评分方法不互通.

直播间公屏的单条 (query, answer) 配对质量评分. 六维独立 1-5 分: 必要性 / 可答性 / 相关性 / 正确性 / 留客力 / 自然度. 含 Lazy 兜底硬约束、tag 残留判定、按业务的长度豁免规则.

主播人设仿写脚本 (开场 / 讲品 / 应答 3 场景) 的听感评判. 四维查表合成: AI 感 (A0-A3) / 真人感 (H0-H2) / 流畅度 (F0-F2) / 整体观感 (O0-O3). 任一硬约束 (A3 / H2 / O3) 一票否决.

基于评判标准的真实直播间四层拆解, 仿写训练 few-shot 来源.

阿迪达斯专柜款 29 分钟主力 SKU 段四层拆解 · 女主播 · 语速 6.02 cps · 句末「吧」42.4% · 反问 7.4 次/分 · 反审话术 (加某级 / 信窝 / 有实力) · QA 7 类 FAQ · top 3-gram + PMI 搭配.

评判标准 (normative) 定义"好"; 案例 (descriptive) 展示"实际如何". 两者独立可拷可移植.
反馈走 GitLab Issue label eval-spec.