Quality disclosure

AI 自动核查的局限性

theuntold 用 LLM (gpt-5.5) 对二手转述、PR 包装、媒体综述做信源核查 + 段落标注 + 立场分析。 当前 LLM 能力有边界，不应被当作「权威核查机器」使用。本页诚实披露当前分类准确率与未来改进方向。

当前 ⚑ Gate 实测准确率

2026-05-08 · gpt-5.5 · 2 baseline 文章

解读：LLM 把「省略关键事实」(key_omission) 与「精度膨胀」(precision_inflation) 经常混淆，因为 4 类 enum 边界对 LLM 太模糊。「省略限定语」同时满足两类定义。

把双栏标注当作「提示」而非「结论」 — LLM 标 ✓ consistent 不代表「事实就是这样」，标 ⊘ key_omission 也可能是 LLM 看错。
点开信源原文链接 — 独立判断原文是否真说了 / 没说什么。
关注 published_high_confidence 之外的编辑声明 — caveat 出现时，质量保证只在 ~43% 准确率水平，需要你做最终判断。
发现错误？欢迎在文章下方留言或反馈，反馈数据是 v3 改进的唯一可靠输入。

v3 redesign（待两个条件满足后启动）：
- 触发条件 A：系统接入更强 LLM（Anthropic Claude / Opus 4.7），用于 cross-LLM 二次核查降低单一模型偏差
- 触发条件 B：真实生产 ≥ 50 篇文章 corpus 收集完毕，用于统计学有效的盲区检测
- v3 假设：合并 4 类 enum 为 3 类（precision_inflation + key_omission 合并为「叙事失真 narrative_distortion」），降低 LLM 分类边界混淆
每周采样人工核查 — 产品方每周采样 5 篇 published 文章人工核查，准确率跌破 30% 触发 hotfix。

其他 AI 产品很少主动标「我可能错」。theuntold 的产品定位是「批判性媒体监督」，对 AI 圈二手转述的精度膨胀 / 关键省略提出警示。如果我们自己的 AI 输出不诚实标注边界，就违背了产品本身的批判精神。

Last updated 2026-05-08 · ⚑ Gate data: tests/spec-conformance/.gate-results.json