GPT OSS Model
OpenAI 隆重推出 gpt-oss-120b 和 gpt-oss-20b:两款顶尖的开源权重模型,为全球开发者和研究者带来前所未有的推理能力、效率和灵活性。
为AI开发的未来而构建
GPT-OSS 不仅仅是开源,更是对性能、效率和安全的全面承诺。
Permissive Apache 2.0 许可
自由构建,无版权限制或专利风险——非常适合实验、定制和商业部署。
可配置的推理能力
根据您的特定用例和延迟需求,轻松调整推理能力(低、中、高)。
完整的思维链
完全访问模型的推理过程,便于调试并增强对输出的信任。
可微调
通过参数高效微调,完全根据您的特定用例定制模型。
智能体能力
利用模型的原生能力进行函数调用、网页浏览、Python代码执行和结构化输出。
原生 MXFP4 量化
模型使用原生MXFP4精度进行训练,使120b模型能在单个H100上运行。
选择你的模型:gpt-oss-120b VS gpt-oss-20b
GPT OSS 提供两款模型,以满足从本地原型设计到企业级部署的各种需求。
gpt-oss-120b
旗舰性能,为最严苛的任务而生。
- 理想场景: 复杂的科学计算、企业级智能体、高质量内容创作。
- 性能对标: 与 OpenAI o4-mini 在核心推理基准上不相上下。
- 硬件要求: 单张 80GB 显存的 GPU 即可高效运行。
gpt-oss-20b
极致高效,为边缘计算和快速迭代设计。
- 理想场景: 设备端应用、本地推理、快速原型设计和学术研究。
- 性能对标: 在通用基准上达到 OpenAI o3-mini 水平。
- 硬件要求: 仅需 16GB 内存即可运行,适配各类消费级设备。
先进的模型架构
基于 MoE Transformer 架构,为效率和性能而优化。
核心组件
- 混合专家模型 (MoE): 120b模型拥有128个专家,20b模型拥有32个专家,每次前向传播仅激活4个专家,极大提升效率。
- 注意力机制: 采用交替的带状窗口和全密集模式,并使用分组查询注意力(GQA)来优化内存和推理速度。
- MXFP4 量化: MoE 权重经过原生 MXFP4 量化,将内存占用降低90%以上。
组件 | 120b | 20b |
---|---|---|
总参数 | 116.8B | 20.9B |
激活参数 | 5.1B | 3.6B |
Checkpoint 大小 | 60.8GiB | 12.8GiB |
性能基准测试
在多个权威基准测试中,GPT-OSS 展现出与顶尖闭源模型相媲美的强大实力。
核心推理与知识能力
在AIME(数学竞赛)和MMLU(大学水平考试)等测试中,gpt-oss-120b 表现出色。
编程与工具使用
在Codeforces(编程竞赛)和Tau-Bench(函数调用)等测试中,展现了强大的智能体潜力。
可变的推理能力
通过调整推理模式(低、中、高),在准确率和响应速度之间实现平滑的权衡。
快速开始
通过你最喜欢的工具和库,轻松开始使用 GPT-OSS。
Transformers
使用 Transformers 库进行推理,它会自动应用 Harmony 格式。
from transformers import pipeline
import torch
model_id = "openai/gpt-oss-120b"
pipe = pipeline(
"text-generation",
model=model_id,
torch_dtype="auto",
device_map="auto",
)
messages = [
{"role": "user", "content": "Explain quantum mechanics clearly and concisely."},
]
outputs = pipe(
messages,
max_new_tokens=256,
)
print(outputs[0]["generated_text"][-1])
Ollama
在消费级硬件上本地运行 GPT-OSS 的最简单方法之一。
# gpt-oss-20b
ollama pull gpt-oss:20b
ollama run gpt-oss:20b
# gpt-oss-120b
ollama pull gpt-oss:120b
ollama run gpt-oss:120b
常见问题 (FAQ)
GPT-OSS 是什么?
GPT-OSS 是 OpenAI 发布的两款开源权重语言模型:gpt-oss-120b 和 gpt-oss-20b。它们专为强大的推理、智能体任务和多功能开发而设计,可在您自己的基础设施上运行。
模型使用的是什么许可证?
GPT-OSS 模型在宽松的 Apache 2.0 许可下发布,允许用于商业用途,没有 copyleft 限制或专利风险,非常适合实验、定制和商业部署。
运行这些模型需要什么硬件?
得益于原生的 MXFP4 量化技术,gpt-oss-120b 可以在单个 80GB 显存的 GPU(如 NVIDIA H100)上高效运行。而 gpt-oss-20b 更加轻量,仅需 16GB 内存即可运行,适用于高端笔记本电脑或服务器。
什么是 Harmony 聊天格式?
Harmony 是一种专为 GPT-OSS 模型设计的聊天格式。它使用特殊的 token 和关键字参数来界定消息边界和角色(如系统、开发者、用户)。为了确保模型正常工作并发挥最佳性能,必须使用此格式。
我可以对这些模型进行微调吗?
是的,GPT-OSS 模型完全支持微调。您可以根据自己的特定用例,通过参数高效微调(Parameter-Efficient Fine-Tuning)来定制模型,以达到最佳效果。