MIAOBO · 文档站

秒播 AI 效果评估

评判标准 + 真实直播间画像案例. 标准定义"什么是好", 案例展示"如何评".

活文档 · 持续更新 · 2026-05-22

评判标准

两份独立的规范文档. 评估对象和评分方法不互通.

① QA 问答评估标准

直播间公屏的单条 (query, answer) 配对质量评分. 六维独立 1-5 分: 必要性 / 可答性 / 相关性 / 正确性 / 留客力 / 自然度. 含 Lazy 兜底硬约束、tag 残留判定、按业务的长度豁免规则.

读者: judge LLM 设计 / 算子选型 / 客户反馈分析

② 仿写文案评判标准

主播人设仿写脚本 (开场 / 讲品 / 应答 3 场景) 的听感评判. 四维查表合成: AI 感 (A0-A3) / 真人感 (H0-H2) / 流畅度 (F0-F2) / 整体观感 (O0-O3). 任一硬约束 (A3 / H2 / O3) 一票否决.

读者: 仿写算法迭代 / 语言学顾问 / 主播本人确认

主播话术画像案例

基于评判标准的真实直播间四层拆解, 仿写训练 few-shot 来源.

douyin 男鞋 84229684507

阿迪达斯专柜款 29 分钟主力 SKU 段四层拆解 · 女主播 · 语速 6.02 cps · 句末「吧」42.4% · 反问 7.4 次/分 · 反审话术 (加某级 / 信窝 / 有实力) · QA 7 类 FAQ · top 3-gram + PMI 搭配.

session 1779345252892435695 · 2026-05-21
→ 全部案例索引
评判标准 (normative) 定义"好"; 案例 (descriptive) 展示"实际如何". 两者独立可拷可移植.
反馈走 GitLab Issue label eval-spec.