GPT-OSS 模型核心术语解析

一份专为开发者和研究者准备的 OpenAI 开源模型词汇指南

核心模型概念

开源权重模型

Open-Source Weighted Models

📥

下载

✏️

修改

大脑
📤

分享

🚀

使用

指那些将其内部参数(权重)公开发布的模型。开发者可以自由下载、修改和使用这些模型,促进了技术的透明和创新。

文档应用:

gpt-oss-120b 和 gpt-oss-20b 就是两款开源权重模型,任何人都可以获取它们的“大脑”参数。

核心模型概念

推理 (Inference)

Inference

Prompt
模型
Answer

指使用已经训练好的模型来处理新的、未见过的数据并做出预测或生成内容的过程。这就像一个学生学完了知识,现在开始用它来解答考试题目。

文档应用:

GPT-OSS 模型被设计用于提供强大的推理能力,即能高效地理解和响应用户的新请求。

核心模型概念

模型卡 (Model Card)

Model Card

模型说明书
⚙️ 架构...
📊 性能...
⚠️ 风险...

一份提供关于机器学习模型详细信息的文档,内容包括其架构、训练数据、性能评估、预期用途以及潜在的风险和局限性。它就像一个产品的“说明书”。

文档应用:

用户阅读的这份文档本身就是 gpt-oss 模型的模型卡。

模型架构

专家混合 (MoE)

Mixture of Experts

Token →
Router
专家1
专家2
专家N

一种神经网络架构。它不像单个大模型那样处理所有任务,而是由多个小型的“专家”网络和一个“路由器”组成。路由器会根据输入内容,选择最合适的几个专家来处理,这样可以大大提高效率,只激活部分参数。

文档应用:

gpt-oss 模型采用了 MoE 架构,例如 120b 模型有 128 个专家,每次只激活 4 个。

模型架构

量化 (Quantization)

Quantization

3.14159
FP32
3.14
INT8

一种压缩模型的技术。它通过降低模型参数(权重)的数值精度来减小模型的体积和内存占用。好比用较少的位数来表示一个数字,例如将 3.1415926 简化为 3.14,这样存储起来更节省空间。

文档应用:

gpt-oss 模型对 MoE 权重进行了量化,使其能在消费级 GPU 上运行。

模型架构

分组查询注意力 (GQA)

Grouped-Query Attention

Q → KV
Q → KV

MHA

Q
Q
}
→ KV

GQA

一种注意力机制的优化版本。在标准注意力机制中,每个“查询头”都有自己的一套“键/值头”,计算量大。GQA 则是让多个查询头共享同一组键/值头,从而在保持大部分性能的同时,显著减少计算和内存需求。

文档应用:

gpt-oss 模型使用 GQA 来提升注意力计算的效率。

训练与对齐

微调 (Fine-tuning)

Fine-tuning

通用模型
📄 小数据
专用模型

在一个已经经过大规模数据预训练的模型基础上,使用一个更小、更具体的任务数据集进行二次训练。这就像一个通才大学生,在毕业后针对某个特定岗位进行专门的职业培训。

文档应用:

文档提到,攻击者可能会对模型进行微调,以绕过安全限制。

训练与对齐

越狱 (Jailbreak)

Jailbreak

巧妙
Prompt 🔑
☠️
违禁内容

指用户通过设计巧妙的、对抗性的提示(Prompt),试图绕过 AI 模型的安全和内容限制,让它生成本不应该生成的内容(如有害建议)。

文档应用:

OpenAI 对 gpt-oss 模型进行了评估,以测试其抵抗越狱的稳健性,发现其表现与 OpenAI 04-mini 相当。

训练与对齐

幻觉 (Hallucination)

Hallucination

提问:

2+2=?

回答:

5

X

指语言模型生成看似合理但实际上是错误的、无事实根据或与上下文无关的信息。这就像模型在“一本正经地胡说八道”。

文档应用:

gpt-oss 模型由于规模较小,比更大的前沿模型更容易产生幻觉。

功能与应用

思想链 (CoT)

Chain-of-Thought

Q
Step 1
Step 2
A

一种让 AI 模型在给出最终答案之前,先一步步展示其“思考”或推理过程的技术。这使得模型的回答更加透明、可解释,并且通常能引导模型得出更准确的结果。

文档应用:

gpt-oss 模型提供完整的思想链,但文档警告这些思想链可能包含幻觉内容。

功能与应用

工具使用 (Tool Use)

Tool Use

AI
调用
返回

🛠️

工具箱

指模型不仅能生成文本,还能调用外部工具(如代码执行器、搜索引擎、计算器)来完成任务。这极大地扩展了模型的能力边界,让它能获取实时信息或执行复杂计算。

文档应用:

模型被训练以使用浏览工具和 Python 工具,以增强其解决问题的能力。

功能与应用

基准测试 (Benchmark)

Benchmark

模型 A
模型 B
模型 C

标准化测试

🏆

排行榜

一套标准化的测试集或任务,用于衡量和比较不同 AI 模型的性能。就像用同一套模拟试卷来评估不同学生的学习水平一样。

文档应用:

gpt-oss 在多个行业标准基准(如 MMLU, SWE-Bench)上进行了评估,并公布了其得分。