Quality disclosure

AI 自动核查的局限性

theuntold 用 LLM (gpt-5.5) 对二手转述、PR 包装、媒体综述做信源核查 + 段落标注 + 立场分析。 当前 LLM 能力有边界,不应被当作「权威核查机器」使用。本页诚实披露当前分类准确率与未来改进方向。

当前 ⚑ Gate 实测准确率

2026-05-08 · gpt-5.5 · 2 baseline 文章

指标 分布 (min/median) 含义
fetch 字段抽取 1.0 / 1.0 稳定
search URL 召回率 33% / 50% 找信源不全
paragraph_diff 主对角线 0% / 43% 4 类分类对 LLM 模糊(4 类随机 baseline 25%)
self_critique 三档分类 50% 整体置信度评估中度可信

解读:LLM 把「省略关键事实」(key_omission) 与「精度膨胀」(precision_inflation) 经常混淆,因为 4 类 enum 边界对 LLM 太模糊。「省略限定语」同时满足两类定义。

所以你应该怎么用

未来改进计划

为什么诚实披露

其他 AI 产品很少主动标「我可能错」。theuntold 的产品定位是「批判性媒体监督」,对 AI 圈二手转述的精度膨胀 / 关键省略提出警示。如果我们自己的 AI 输出不诚实标注边界,就违背了产品本身的批判精神。

Last updated 2026-05-08 · ⚑ Gate data: tests/spec-conformance/.gate-results.json

键盘快捷键

?打开此帮助
Esc关闭对话框
⌘ K / Ctrl K打开搜索 / 命令面板
j列表页:下一卡片
k列表页:上一卡片
Enter打开选中卡片
g+g滚动到顶部
G滚动到底部

    选择 · Enter 打开 · Esc 关闭