
附带冗余话术比如前后夹带“好的这是你要的结果”、“以下是符合要求的JSON”。Markdown 标签包裹带有json标签导致无法直接解析。非法格式用单引号替代双引号、转义字符使用错误等。语法漏洞尾部缺失反括号、字段后多添逗号等。显然这种不合规的 JSON 输出无法正常被json.load()正确解析直接导致业务代码报错。为了解决这个问题我们需要在调用大模型的前、中、后三个阶段分别采取一些处理措施事前引导、事中约束、事后补救全方位确保大模型能够输出稳定、纯净的 JSON。下面我们以『判断用户输入的内容是否违规违规类型是什么违规词是什么』这个需求为例详细介绍下具体处理手段。一、事前引导提示词优化提示词优化是最基础、最通用的解决方案核心是通过明确严谨的指令引导大模型输出符合要求的 JSON。这种方式属于『软约束』依赖模型对指令的理解和执行能力无法从源头强制合规但胜在简单易用、适配所有大模型。常见的优化方式为明确字段要求详细说明每个字段的输出类型、取值范围而非简单要求输出 JSON提供 Few-Shot 示例借助大模型的上下文学习能力给出输入输出配对示例让模型直观掌握格式添加校验指令要求大模型输出前自动校验 JSON 语法及内容合规性确保无冗余、无错误。 提示词模板示例如下# 角色你是一个严格的用户输入违规判断助手负责对用户输入内容进行违规判定并严格按预设规则输出合规JSON结果。# 技能- **核心违规类型**用户输入含「色情」「暴力」「辱骂」类词汇或违法、广告推广等其他明确违规内容 → 违规否则不违规。- **违规词提取**仅提取用户输入中明确出现的核心违规词汇不新增、不推断。# 输出格式**严格按以下格式生成JSON**{is_illegal: boolean,illegal_type: string,illegal_words: list}# 限制- **输出唯一**仅输出符合规则的JSON禁止任何非JSON内容并且 JSON 中的 key 名不可修改禁止新增/遗漏key。- **输出内容**- is_illegal小写true/false。- illegal_type仅允许色情/暴力/辱骂/其他/。- illegal_words无违规词则为[]否则为原始输入词汇列表。- **边界规则**仅提取用户明确输入的核心违规词不拆分/扩展/推断词汇。# 核心要求- 严格遵循上述规则输出前自动校验JSON语法及内容合规性确保无冗余、无错误。# 示例## 示例1输入今天天气不错适合去公园散步。## 示例1输出{is_illegal: false,illegal_type: ,illegal_words: []}## 示例2输入你这个蠢货滚远点”## 示例2输出{is_illegal: true,illegal_type: 辱骂,illegal_words: [蠢货, 滚远点]}## 示例3输入本产品能治百病点击链接购买享8折## 示例3输出{is_illegal: true,illegal_type: 其他,illegal_words: [本产品能治百病, 点击链接购买]}二、事中约束编码管控提示词优化是一种『软约束』手段存在局限性即使指令再明确大模型仍然可能因为幻觉、随机性出现格式偏差。为此主流大模型厂商推出了原生『硬约束』能力可在模型生成结果过程中强制输出合规 JSON。其核心原理简单来说系统会将 JSON 规则转换为状态机在模型生成每个 Token 前过滤非法内容仅允许合法Token 参与概率计算从底层确保输出完全符合 JSON 规范和字段要求例如生成冒号后下一个 Token 绝不可能是逗号。⚠️ 注意并非所有大模型都支持这类硬约束功能多数轻量模型、小众模型暂不支持仅适配OpenAI系列、Anthropic Claude 等主流模型。1. JSON Mode基础格式硬约束JSON Mode是基础硬约束功能通过 API 参数约束模型输出编码逻辑强制生成符合 JSON 语法规范的文本从源头杜绝冗余话术、代码块包裹等问题。核心操作调用接口时新增response_format{type: json_object}参数且提示词中需明确提及“JSON”否则模型报错。⚠️ 注意JSON Mode 仅保证输出格式为合规 JSON不支持在 response_format 中输入具体 schema无法锁定字段规则仍可能出现字段遗漏key 名写错问题 代码示例如下以 OpenAI SDK 为例import jsonfrom openai import OpenAIclient OpenAI(api_keyyour_api_key,base_urlhttps://api.openai.com/v1)MODEL gpt-4o-miniif __name__ __main__:system_prompt # 角色你是一个...user_prompt 真是一头猪messages [{role: system, content: system_prompt}, {role: user, content: user_prompt}]response client.chat.completions.create(modelMODEL, messages messages, response_format{type: json_object})result json.loads(response.choices[0].message.content)print(result)2. Structured Outputs格式字段双维度强制JSON Mode 仅能保证输出的格式为 JSON但并不能保证字段是否准确、是否完整等。为了解决这个问题诞生了Structured Outputs结构化输出功能可通过定义完整的 JSON Schema强制模型输出指定字段及类型彻底杜绝 key 名错误和字段遗漏问题。核心操作调用接口时在 response_format 中传入具体 JSON Schema实现格式与字段的双重硬约束确保模型输出完全匹配预设的字段规则合规率 100%这也是官方主推的结构化输出方案。 代码示例如下以 OpenAI SDK 为例import jsonfrom openai import OpenAIclient OpenAI(api_keyyour_api_key,base_urlhttps://api.openai.com/v1)MODEL gpt-4o-miniif __name__ __main__:system_prompt # 角色你是一个...user_prompt 真是一头猪messages [{role: system, content: system_prompt}, {role: user, content: user_prompt}]response client.chat.completions.create(modelMODEL, messages messages, response_format {type: json_schema,json_schema: {name: illegal_judge_result,strict: True, # 严格遵循schema杜绝字段遗漏、类型错误schema: {type: object,properties: {is_illegal: {type: boolean,description: 是否违规仅true/false小写},illegal_type: {type: string,description: 违规类型仅允许色情/暴力/辱骂/其他/},illegal_words: {type: array,description: 违规词列表无违规则为[]仅含用户输入的核心词汇}