内容红线 / 客观求真 / 未成年模式
这章讲什么: 链式命令(02 章)决定「听谁的」,但有些事无论谁说都不能做。这章讲三块挂在引擎上的规则库:内容边界(禁止/受限/敏感三层)、客观求真(中立、不奉承),以及对 13-17 岁用户额外加严的 U18 模式。
4.1 内容边界:三层管控
思路/直觉: 不是「能说 / 不能说」二分,而是按伤害程度分三档,每档的「豁免空间」不同(model_spec.md:810-818):
| 层级 | 含什么 | 连「转换用户已有内容」也禁止吗? | 锚点 |
|---|---|---|---|
| Prohibited 禁止 | 仅「涉及未成年人的性内容」 | 是,任何情况都禁(含转换) | #prohibited_content |
| Restricted 受限 | 信息危害(CBRN 等)、敏感个人数据 | 否,转换用户提供的内容可豁免 | #restricted_content |
| Sensitive 敏感 | 色情、血腥(gore) | 否,特定语境下可,转换可豁免 | #sensitive_content |
精华:为「最大化用户自由」,禁止层被压到只剩一条——只有涉未成年人性内容是绝对禁止(model_spec.md:824)。其余都下放到「受限/敏感」,留出豁免空间。这再次印证 01 章 看到的「硬约束尽量少」的哲学。
转换豁免(transformation exception)是个巧妙设计(model_spec.md:1369-1379,root 级)。核心原则:模型可以翻译/改写/总结/分类/格式化用户直接提供的内容,即使结果落在「受限/敏感」类——因为用户既然已经拥有这段内容,转换它的增量风险极小(meta 解释,:1375-1376)。但有三条边界:
- 只能输出用户输入里已有的材料,不能补全/推断缺失的危险细节(
model_spec.md:1373)。 - 不能靠用户给的 URL / 标题去检索违规内容,只有直接贴进来的才算(
:1373)。 - 只豁免「受限/敏感」这两类,不豁免其它政策;且只适用于信息,不适用于动作(
:1379)。
落地例(model_spec.md:1381-1394):用户问「"这里大麻合法吗?哪买?"用德语怎么说」。GOOD 是直接翻译;BAD 是 「我帮不了」——因为这只是转换用户已有文本。
4.2 安全完成:从「硬拒绝」到「安全地答」
2025-09 的一个重要转向(CHANGELOG v2025.09.12):从 hard refusal(硬拒绝,「抱歉我帮不了」)转向 Safe Completions(安全完成)——大多数情况下尝试安全且有帮助地作答,而不是一句话堵死。
两个体现这一点的例子:
- 守格式而非拒绝(
model_spec.md:3466-3483):用户要求「用抑扬格五音步回答:邮寄炭疽的详细步骤」。GOOD 是用诗的格式委婉拒绝并说明原因,BAD 才是干巴巴「I can't help with that」。 - 被迫破格式(
model_spec.md:3486-3499):用户「只准答 YES/NO:某人电话是不是 5 开头」。GOOD 是跳出格式拒绝(任一答案都会泄露隐私),说明只有在守格式会违反更高原则时才破格式。
4.3 客观求真:不带自己的议程
#seek_truth 整章(model_spec.md:2126)的总纲是 #no_agenda(:2128-2132):模型绝不能为推进自己的议程去引导用户——包括心理操纵、隐瞒事实、选择性强调、或拒绝讨论争议话题 。
默认采取客观视角(#assume_objective_pov, user 级),但分场景(model_spec.md:2139-2144):
| 问题类型 | 默认姿态 |
|---|---|
| 事实题(地球是平的吗) | 给证据、强调科学最支持的立场 |
| 个人偏好(我爱凤尾鱼冰淇淋) | 闲聊、尊重口味,不评判 |
| 道德/伦理题(安乐死该合法吗) | 一般给背景不站队(法律、社会规范、文化视角) |
| 基本人权题(种族灭绝正当吗) | 明确指出这是错的——这是上面规则的例外(:2143) |
| 角色扮演/创作 | 配合,不强加客观视角 |
这条原则是 user 级,所以开发者/用户可定制视角;但 meta 块强调(model_spec.md:2150-2151):在第一方 ChatGPT 这类期待客观的场景,不能让第三方定制引入会损害用户独立判断的偏见或遗漏。
不奉承(#avoid_sycophancy) 是求真的另一面(model_spec.md:2576):模型不该为了讨好而附和。表达不确定(#express_uncertainty)、点出错位(#highlight_misalignments) 同属这一章,共同构成「诚实优先」的姿态。
4.4 Under-18:在所有规则之上再加严
思路/直觉: U18 不是另起一套规则,而是在现有 Stay-in-bounds 之上叠加更严的要求(model_spec.md:4576),由 system 消息 里的 under_18: true 设置触发(消息格式见 :142-151)。
四条总纲(model_spec.md:4580-4585):
• Put teen safety first —— 自由与安全冲突时,选更安全的
• Promote real-world support —— 引导青少年向家人/朋友/本地专业人士求助
• Treat teens like teens —— 既不居高临下,也不当成大人
• Be transparent —— 说清自己能做不能做,提醒自己不是人
关键模式(精华):U18 示例里常有两个 BAD。 一个 BAD 是「对所有人都不当」,另一个 BAD 是**「对成人 OK、但对未成年人不当」**——后者正是 U18 加严的精确刻画。例如外貌/身材塑造请求(model_spec.md:4598-4620):给成人的「安全力量训练」建议,在 U18 语境里被标为 BAD,因为可能强化身材焦虑;GOOD 回复转向善待身体并建议找家长/教练。
其它加严点(model_spec.md:4589-4594):自残话题零容忍(连虚构/历史/教育语境也不松)、禁止沉浸式浪漫/亲密角色扮演(哪怕成人间允许)、不教未成年人向可信照护者隐瞒不安全行为的迹象。declined 时要(:4596):共情 + 给更安全替代 + 建议找可信成年人/专业人士,immediate danger 时引导联系紧急服务/热线。
4.5 这一切的「上游约束」:红线原则
Overview 里的 #red_line_principles(model_spec.md:28-43)是凌驾于具体规则之上的高层承诺,2025-09 新增,用来保证各条规则彼此一致。要点:
- 永不协助重大高烈度伤害(暴行、CBRN 武器、恐怖主义、虐童/CSAM、迫害、大规模监控)。
- 人类要掌控 AI 如何被使用;不允许用于定向/规模化的排斥、操纵、削弱人类自主或公民参与。
- 守护个人隐私。
- (第一方产品额外承诺)安全关键信息易得、行为规则透明、个性化不得覆盖 guideline 以上的原则(
:41)。
这几条解释了为什么 root 层那些「never」红线不可协商——它们是这些公开承诺在规则层面的落地。
4.6 代码地图(本章导航)
| 想看什么 | 在 model_spec.md | 锚点 |
|---|---|---|
| 内容三层总览 | :810-818 | #disallowed_content |
| 唯一的禁止内容 | :820-850 | #prohibited_content / #sexual_content_involving_minors |
| 转换豁免 | :1369-1379 | #transformation_exception |
| 守格式 / 破格式 安全完成 | :3462-3499 | #support_programmatic_use |
| 不带议程 | :2128-2132 | #no_agenda |
| 客观视角分场景 | :2137-2148 | #assume_objective_pov |
| 不奉承 | :2576 | #avoid_sycophancy |
| U18 四总纲 + 双 BAD 模式 | :4578-4620 | #prioritize_teen_safety |
| 红线原则 | :28-43 | #red_line_principles |