GPT-OSS 模型核心术语解析 | OpenAI 开源 AI 词汇指南

核心模型概念

开源权重模型

Open-Source Weighted Models

📥

下载

✏️

修改

大脑

📤

🚀

使用

指那些将其内部参数（权重）公开发布的模型。开发者可以自由下载、修改和使用这些模型，促进了技术的透明和创新。

文档应用：

gpt-oss-120b 和 gpt-oss-20b 就是两款开源权重模型，任何人都可以获取它们的“大脑”参数。

核心模型概念

推理 (Inference)

Inference

Prompt

模型

Answer

指使用已经训练好的模型来处理新的、未见过的数据并做出预测或生成内容的过程。这就像一个学生学完了知识，现在开始用它来解答考试题目。

文档应用：

GPT-OSS 模型被设计用于提供强大的推理能力，即能高效地理解和响应用户的新请求。

核心模型概念

模型卡 (Model Card)

Model Card

模型说明书

⚙️ 架构...

📊 性能...

⚠️ 风险...

一份提供关于机器学习模型详细信息的文档，内容包括其架构、训练数据、性能评估、预期用途以及潜在的风险和局限性。它就像一个产品的“说明书”。

文档应用：

用户阅读的这份文档本身就是 gpt-oss 模型的模型卡。

模型架构

专家混合 (MoE)

Mixture of Experts

Token →

Router

专家1

专家2

专家N

一种神经网络架构。它不像单个大模型那样处理所有任务，而是由多个小型的“专家”网络和一个“路由器”组成。路由器会根据输入内容，选择最合适的几个专家来处理，这样可以大大提高效率，只激活部分参数。

文档应用：

gpt-oss 模型采用了 MoE 架构，例如 120b 模型有 128 个专家，每次只激活 4 个。

模型架构

量化 (Quantization)

Quantization

3.14159

FP32

→

3.14

INT8

一种压缩模型的技术。它通过降低模型参数（权重）的数值精度来减小模型的体积和内存占用。好比用较少的位数来表示一个数字，例如将 3.1415926 简化为 3.14，这样存储起来更节省空间。

文档应用：

gpt-oss 模型对 MoE 权重进行了量化，使其能在消费级 GPU 上运行。

模型架构

分组查询注意力 (GQA)

Grouped-Query Attention

Q → KV

MHA

Q

}

→ KV

GQA

一种注意力机制的优化版本。在标准注意力机制中，每个“查询头”都有自己的一套“键/值头”，计算量大。GQA 则是让多个查询头共享同一组键/值头，从而在保持大部分性能的同时，显著减少计算和内存需求。

文档应用：

gpt-oss 模型使用 GQA 来提升注意力计算的效率。

训练与对齐

微调 (Fine-tuning)

Fine-tuning

通用模型

📄 小数据

专用模型

在一个已经经过大规模数据预训练的模型基础上，使用一个更小、更具体的任务数据集进行二次训练。这就像一个通才大学生，在毕业后针对某个特定岗位进行专门的职业培训。

文档应用：

文档提到，攻击者可能会对模型进行微调，以绕过安全限制。

训练与对齐

越狱 (Jailbreak)

Jailbreak

巧妙
Prompt 🔑

☠️
违禁内容

指用户通过设计巧妙的、对抗性的提示（Prompt），试图绕过 AI 模型的安全和内容限制，让它生成本不应该生成的内容（如有害建议）。

文档应用：

OpenAI 对 gpt-oss 模型进行了评估，以测试其抵抗越狱的稳健性，发现其表现与 OpenAI 04-mini 相当。

训练与对齐

幻觉 (Hallucination)

Hallucination

提问:

2+2=?

回答:

5

X

指语言模型生成看似合理但实际上是错误的、无事实根据或与上下文无关的信息。这就像模型在“一本正经地胡说八道”。

文档应用：

gpt-oss 模型由于规模较小，比更大的前沿模型更容易产生幻觉。

功能与应用

思想链 (CoT)

Chain-of-Thought

Q

Step 1

Step 2

A

一种让 AI 模型在给出最终答案之前，先一步步展示其“思考”或推理过程的技术。这使得模型的回答更加透明、可解释，并且通常能引导模型得出更准确的结果。

文档应用：

gpt-oss 模型提供完整的思想链，但文档警告这些思想链可能包含幻觉内容。

功能与应用

工具使用 (Tool Use)

Tool Use

AI

调用

返回

🛠️

工具箱

指模型不仅能生成文本，还能调用外部工具（如代码执行器、搜索引擎、计算器）来完成任务。这极大地扩展了模型的能力边界，让它能获取实时信息或执行复杂计算。

文档应用：

模型被训练以使用浏览工具和 Python 工具，以增强其解决问题的能力。

功能与应用

基准测试 (Benchmark)

Benchmark

模型 A

模型 B

模型 C

✅

标准化测试

🏆

排行榜

一套标准化的测试集或任务，用于衡量和比较不同 AI 模型的性能。就像用同一套模拟试卷来评估不同学生的学习水平一样。

文档应用：

gpt-oss 在多个行业标准基准（如 MMLU, SWE-Bench）上进行了评估，并公布了其得分。