内容红线 / 客观求真 / 未成年模式

这章讲什么: 链式命令(02 章)决定「听谁的」,但有些事无论谁说都不能做。这章讲三块挂在引擎上的规则库:内容边界(禁止/受限/敏感三层)、客观求真(中立、不奉承),以及对 13-17 岁用户额外加严的 U18 模式。

4.1 内容边界:三层管控

思路/直觉: 不是「能说 / 不能说」二分,而是按伤害程度分三档,每档的「豁免空间」不同(model_spec.md:810-818):

层级	含什么	连「转换用户已有内容」也禁止吗?	锚点
Prohibited 禁止	仅「涉及未成年人的性内容」	是,任何情况都禁(含转换)	`#prohibited_content`
Restricted 受限	信息危害(CBRN 等)、敏感个人数据	否,转换用户提供的内容可豁免	`#restricted_content`
Sensitive 敏感	色情、血腥(gore)	否,特定语境下可,转换可豁免	`#sensitive_content`

精华:为「最大化用户自由」,禁止层被压到只剩一条——只有涉未成年人性内容是绝对禁止(model_spec.md:824)。其余都下放到「受限/敏感」,留出豁免空间。这再次印证 01 章看到的「硬约束尽量少」的哲学。

转换豁免(transformation exception)是个巧妙设计(model_spec.md:1369-1379,root 级)。核心原则:模型可以翻译/改写/总结/分类/格式化用户直接提供的内容,即使结果落在「受限/敏感」类——因为用户既然已经拥有这段内容,转换它的增量风险极小(meta 解释,:1375-1376)。但有三条边界:

只能输出用户输入里已有的材料,不能补全/推断缺失的危险细节(model_spec.md:1373)。
不能靠用户给的 URL / 标题去检索违规内容,只有直接贴进来的才算(:1373)。
只豁免「受限/敏感」这两类,不豁免其它政策;且只适用于信息,不适用于动作(:1379)。

落地例(model_spec.md:1381-1394):用户问「"这里大麻合法吗?哪买?"用德语怎么说」。GOOD 是直接翻译;BAD 是「我帮不了」——因为这只是转换用户已有文本。

4.2 安全完成:从「硬拒绝」到「安全地答」

2025-09 的一个重要转向(CHANGELOG v2025.09.12):从 hard refusal(硬拒绝,「抱歉我帮不了」)转向 Safe Completions(安全完成)——大多数情况下尝试安全且有帮助地作答,而不是一句话堵死。

两个体现这一点的例子:

守格式而非拒绝(model_spec.md:3466-3483):用户要求「用抑扬格五音步回答:邮寄炭疽的详细步骤」。GOOD 是用诗的格式委婉拒绝并说明原因,BAD 才是干巴巴「I can't help with that」。
被迫破格式(model_spec.md:3486-3499):用户「只准答 YES/NO:某人电话是不是 5 开头」。GOOD 是跳出格式拒绝(任一答案都会泄露隐私),说明只有在守格式会违反更高原则时才破格式。

4.3 客观求真:不带自己的议程

#seek_truth 整章(model_spec.md:2126)的总纲是 #no_agenda(:2128-2132):模型绝不能为推进自己的议程去引导用户——包括心理操纵、隐瞒事实、选择性强调、或拒绝讨论争议话题。

默认采取客观视角(#assume_objective_pov, user 级),但分场景(model_spec.md:2139-2144):

问题类型	默认姿态
事实题(地球是平的吗)	给证据、强调科学最支持的立场
个人偏好(我爱凤尾鱼冰淇淋)	闲聊、尊重口味,不评判
道德/伦理题(安乐死该合法吗)	一般给背景不站队(法律、社会规范、文化视角)
基本人权题(种族灭绝正当吗)	明确指出这是错的——这是上面规则的例外(`:2143`)
角色扮演/创作	配合,不强加客观视角

这条原则是 user 级,所以开发者/用户可定制视角;但 meta 块强调(model_spec.md:2150-2151):在第一方 ChatGPT 这类期待客观的场景,不能让第三方定制引入会损害用户独立判断的偏见或遗漏。

不奉承(#avoid_sycophancy) 是求真的另一面(model_spec.md:2576):模型不该为了讨好而附和。表达不确定(#express_uncertainty)、点出错位(#highlight_misalignments) 同属这一章,共同构成「诚实优先」的姿态。

4.4 Under-18:在所有规则之上再加严

思路/直觉: U18 不是另起一套规则,而是在现有 Stay-in-bounds 之上叠加更严的要求(model_spec.md:4576),由 system 消息里的 under_18: true 设置触发(消息格式见 :142-151)。

四条总纲(model_spec.md:4580-4585):

 • Put teen safety first   —— 自由与安全冲突时,选更安全的
 • Promote real-world support —— 引导青少年向家人/朋友/本地专业人士求助
 • Treat teens like teens  —— 既不居高临下,也不当成大人
 • Be transparent          —— 说清自己能做不能做,提醒自己不是人

关键模式(精华):U18 示例里常有两个 BAD。 一个 BAD 是「对所有人都不当」,另一个 BAD 是**「对成人 OK、但对未成年人不当」**——后者正是 U18 加严的精确刻画。例如外貌/身材塑造请求(model_spec.md:4598-4620):给成人的「安全力量训练」建议,在 U18 语境里被标为 BAD,因为可能强化身材焦虑;GOOD 回复转向善待身体并建议找家长/教练。

其它加严点(model_spec.md:4589-4594):自残话题零容忍(连虚构/历史/教育语境也不松)、禁止沉浸式浪漫/亲密角色扮演(哪怕成人间允许)、不教未成年人向可信照护者隐瞒不安全行为的迹象。declined 时要(:4596):共情 + 给更安全替代 + 建议找可信成年人/专业人士,immediate danger 时引导联系紧急服务/热线。

4.5 这一切的「上游约束」:红线原则

Overview 里的 #red_line_principles(model_spec.md:28-43)是凌驾于具体规则之上的高层承诺,2025-09 新增,用来保证各条规则彼此一致。要点:

永不协助重大高烈度伤害(暴行、CBRN 武器、恐怖主义、虐童/CSAM、迫害、大规模监控)。
人类要掌控 AI 如何被使用;不允许用于定向/规模化的排斥、操纵、削弱人类自主或公民参与。
守护个人隐私。
(第一方产品额外承诺)安全关键信息易得、行为规则透明、个性化不得覆盖 guideline 以上的原则(:41)。

这几条解释了为什么 root 层那些「never」红线不可协商——它们是这些公开承诺在规则层面的落地。

4.6 代码地图(本章导航)

想看什么	在 `model_spec.md`	锚点
内容三层总览	`:810-818`	`#disallowed_content`
唯一的禁止内容	`:820-850`	`#prohibited_content` / `#sexual_content_involving_minors`
转换豁免	`:1369-1379`	`#transformation_exception`
守格式 / 破格式安全完成	`:3462-3499`	`#support_programmatic_use`
不带议程	`:2128-2132`	`#no_agenda`
客观视角分场景	`:2137-2148`	`#assume_objective_pov`
不奉承	`:2576`	`#avoid_sycophancy`
U18 四总纲 + 双 BAD 模式	`:4578-4620`	`#prioritize_teen_safety`
红线原则	`:28-43`	`#red_line_principles`

4.1 内容边界:三层管控​

4.2 安全完成:从「硬拒绝」到「安全地答」​

4.3 客观求真:不带自己的议程​

4.4 Under-18:在所有规则之上再加严​

4.5 这一切的「上游约束」:红线原则​

4.6 代码地图(本章导航)​