一份专为开发者和研究者准备的 OpenAI 开源模型词汇指南
Open-Source Weighted Models
下载
修改
分享
使用
指那些将其内部参数(权重)公开发布的模型。开发者可以自由下载、修改和使用这些模型,促进了技术的透明和创新。
文档应用:
gpt-oss-120b 和 gpt-oss-20b 就是两款开源权重模型,任何人都可以获取它们的“大脑”参数。
Inference
指使用已经训练好的模型来处理新的、未见过的数据并做出预测或生成内容的过程。这就像一个学生学完了知识,现在开始用它来解答考试题目。
文档应用:
GPT-OSS 模型被设计用于提供强大的推理能力,即能高效地理解和响应用户的新请求。
Model Card
一份提供关于机器学习模型详细信息的文档,内容包括其架构、训练数据、性能评估、预期用途以及潜在的风险和局限性。它就像一个产品的“说明书”。
文档应用:
用户阅读的这份文档本身就是 gpt-oss 模型的模型卡。
Mixture of Experts
一种神经网络架构。它不像单个大模型那样处理所有任务,而是由多个小型的“专家”网络和一个“路由器”组成。路由器会根据输入内容,选择最合适的几个专家来处理,这样可以大大提高效率,只激活部分参数。
文档应用:
gpt-oss 模型采用了 MoE 架构,例如 120b 模型有 128 个专家,每次只激活 4 个。
Quantization
一种压缩模型的技术。它通过降低模型参数(权重)的数值精度来减小模型的体积和内存占用。好比用较少的位数来表示一个数字,例如将 3.1415926 简化为 3.14,这样存储起来更节省空间。
文档应用:
gpt-oss 模型对 MoE 权重进行了量化,使其能在消费级 GPU 上运行。
Grouped-Query Attention
MHA
GQA
一种注意力机制的优化版本。在标准注意力机制中,每个“查询头”都有自己的一套“键/值头”,计算量大。GQA 则是让多个查询头共享同一组键/值头,从而在保持大部分性能的同时,显著减少计算和内存需求。
文档应用:
gpt-oss 模型使用 GQA 来提升注意力计算的效率。
Fine-tuning
在一个已经经过大规模数据预训练的模型基础上,使用一个更小、更具体的任务数据集进行二次训练。这就像一个通才大学生,在毕业后针对某个特定岗位进行专门的职业培训。
文档应用:
文档提到,攻击者可能会对模型进行微调,以绕过安全限制。
Jailbreak
指用户通过设计巧妙的、对抗性的提示(Prompt),试图绕过 AI 模型的安全和内容限制,让它生成本不应该生成的内容(如有害建议)。
文档应用:
OpenAI 对 gpt-oss 模型进行了评估,以测试其抵抗越狱的稳健性,发现其表现与 OpenAI 04-mini 相当。
Hallucination
提问:
2+2=?
回答:
5
指语言模型生成看似合理但实际上是错误的、无事实根据或与上下文无关的信息。这就像模型在“一本正经地胡说八道”。
文档应用:
gpt-oss 模型由于规模较小,比更大的前沿模型更容易产生幻觉。
Chain-of-Thought
一种让 AI 模型在给出最终答案之前,先一步步展示其“思考”或推理过程的技术。这使得模型的回答更加透明、可解释,并且通常能引导模型得出更准确的结果。
文档应用:
gpt-oss 模型提供完整的思想链,但文档警告这些思想链可能包含幻觉内容。
Tool Use
🛠️
工具箱
指模型不仅能生成文本,还能调用外部工具(如代码执行器、搜索引擎、计算器)来完成任务。这极大地扩展了模型的能力边界,让它能获取实时信息或执行复杂计算。
文档应用:
模型被训练以使用浏览工具和 Python 工具,以增强其解决问题的能力。
Benchmark
✅
标准化测试
🏆
排行榜
一套标准化的测试集或任务,用于衡量和比较不同 AI 模型的性能。就像用同一套模拟试卷来评估不同学生的学习水平一样。
文档应用:
gpt-oss 在多个行业标准基准(如 MMLU, SWE-Bench)上进行了评估,并公布了其得分。