Quality disclosure
AI 自动核查的局限性
theuntold 用 LLM (gpt-5.5) 对二手转述、PR 包装、媒体综述做信源核查 + 段落标注 + 立场分析。 当前 LLM 能力有边界,不应被当作「权威核查机器」使用。本页诚实披露当前分类准确率与未来改进方向。
当前 ⚑ Gate 实测准确率
2026-05-08 · gpt-5.5 · 2 baseline 文章
| 指标 | 分布 (min/median) | 含义 |
|---|---|---|
| fetch 字段抽取 | 1.0 / 1.0 | 稳定 |
| search URL 召回率 | 33% / 50% | 找信源不全 |
| paragraph_diff 主对角线 | 0% / 43% | 4 类分类对 LLM 模糊(4 类随机 baseline 25%) |
| self_critique 三档分类 | 50% | 整体置信度评估中度可信 |
解读:LLM 把「省略关键事实」(key_omission) 与「精度膨胀」(precision_inflation) 经常混淆,因为 4 类 enum 边界对 LLM 太模糊。「省略限定语」同时满足两类定义。
所以你应该怎么用
- 把双栏标注当作「提示」而非「结论」 — LLM 标 ✓ consistent 不代表「事实就是这样」,标 ⊘ key_omission 也可能是 LLM 看错。
- 点开信源原文链接 — 独立判断原文是否真说了 / 没说什么。
- 关注 published_high_confidence 之外的编辑声明 — caveat 出现时,质量保证只在 ~43% 准确率水平,需要你做最终判断。
- 发现错误?欢迎在文章下方留言或反馈,反馈数据是 v3 改进的唯一可靠输入。
未来改进计划
- v3 redesign(待两个条件满足后启动):
- 触发条件 A:系统接入更强 LLM(Anthropic Claude / Opus 4.7),用于 cross-LLM 二次核查降低单一模型偏差
- 触发条件 B:真实生产 ≥ 50 篇文章 corpus 收集完毕,用于统计学有效的盲区检测
- v3 假设:合并 4 类 enum 为 3 类(precision_inflation + key_omission 合并为「叙事失真 narrative_distortion」),降低 LLM 分类边界混淆
- 每周采样人工核查 — 产品方每周采样 5 篇 published 文章人工核查,准确率跌破 30% 触发 hotfix。
为什么诚实披露
其他 AI 产品很少主动标「我可能错」。theuntold 的产品定位是「批判性媒体监督」,对 AI 圈二手转述的精度膨胀 / 关键省略提出警示。如果我们自己的 AI 输出不诚实标注边界,就违背了产品本身的批判精神。
Last updated 2026-05-08 · ⚑ Gate data: tests/spec-conformance/.gate-results.json