GPT OSS Model

OpenAI 隆重推出 gpt-oss-120b 和 gpt-oss-20b:两款顶尖的开源权重模型,为全球开发者和研究者带来前所未有的推理能力、效率和灵活性。

为AI开发的未来而构建

GPT-OSS 不仅仅是开源,更是对性能、效率和安全的全面承诺。

Permissive Apache 2.0 许可

自由构建,无版权限制或专利风险——非常适合实验、定制和商业部署。

可配置的推理能力

根据您的特定用例和延迟需求,轻松调整推理能力(低、中、高)。

完整的思维链

完全访问模型的推理过程,便于调试并增强对输出的信任。

可微调

通过参数高效微调,完全根据您的特定用例定制模型。

智能体能力

利用模型的原生能力进行函数调用、网页浏览、Python代码执行和结构化输出。

原生 MXFP4 量化

模型使用原生MXFP4精度进行训练,使120b模型能在单个H100上运行。

选择你的模型:gpt-oss-120b VS gpt-oss-20b

GPT OSS 提供两款模型,以满足从本地原型设计到企业级部署的各种需求。

gpt-oss-120b

旗舰性能,为最严苛的任务而生。

  • 理想场景: 复杂的科学计算、企业级智能体、高质量内容创作。
  • 性能对标: 与 OpenAI o4-mini 在核心推理基准上不相上下。
  • 硬件要求: 单张 80GB 显存的 GPU 即可高效运行。

gpt-oss-20b

极致高效,为边缘计算和快速迭代设计。

  • 理想场景: 设备端应用、本地推理、快速原型设计和学术研究。
  • 性能对标: 在通用基准上达到 OpenAI o3-mini 水平。
  • 硬件要求: 仅需 16GB 内存即可运行,适配各类消费级设备。

先进的模型架构

基于 MoE Transformer 架构,为效率和性能而优化。

核心组件

  • 混合专家模型 (MoE): 120b模型拥有128个专家,20b模型拥有32个专家,每次前向传播仅激活4个专家,极大提升效率。
  • 注意力机制: 采用交替的带状窗口和全密集模式,并使用分组查询注意力(GQA)来优化内存和推理速度。
  • MXFP4 量化: MoE 权重经过原生 MXFP4 量化,将内存占用降低90%以上。
组件 120b 20b
总参数116.8B20.9B
激活参数5.1B3.6B
Checkpoint 大小60.8GiB12.8GiB

性能基准测试

在多个权威基准测试中,GPT-OSS 展现出与顶尖闭源模型相媲美的强大实力。

核心推理与知识能力

在AIME(数学竞赛)和MMLU(大学水平考试)等测试中,gpt-oss-120b 表现出色。

编程与工具使用

在Codeforces(编程竞赛)和Tau-Bench(函数调用)等测试中,展现了强大的智能体潜力。

可变的推理能力

通过调整推理模式(低、中、高),在准确率和响应速度之间实现平滑的权衡。

快速开始

通过你最喜欢的工具和库,轻松开始使用 GPT-OSS。

Transformers

使用 Transformers 库进行推理,它会自动应用 Harmony 格式。

from transformers import pipeline
import torch

model_id = "openai/gpt-oss-120b"
pipe = pipeline(
    "text-generation",
    model=model_id,
    torch_dtype="auto",
    device_map="auto",
)
messages = [
    {"role": "user", "content": "Explain quantum mechanics clearly and concisely."},
]
outputs = pipe(
    messages,
    max_new_tokens=256,
)
print(outputs[0]["generated_text"][-1])

Ollama

在消费级硬件上本地运行 GPT-OSS 的最简单方法之一。

# gpt-oss-20b
ollama pull gpt-oss:20b
ollama run gpt-oss:20b

# gpt-oss-120b
ollama pull gpt-oss:120b
ollama run gpt-oss:120b

常见问题 (FAQ)

GPT-OSS 是什么?

GPT-OSS 是 OpenAI 发布的两款开源权重语言模型:gpt-oss-120b 和 gpt-oss-20b。它们专为强大的推理、智能体任务和多功能开发而设计,可在您自己的基础设施上运行。

模型使用的是什么许可证?

GPT-OSS 模型在宽松的 Apache 2.0 许可下发布,允许用于商业用途,没有 copyleft 限制或专利风险,非常适合实验、定制和商业部署。

运行这些模型需要什么硬件?

得益于原生的 MXFP4 量化技术,gpt-oss-120b 可以在单个 80GB 显存的 GPU(如 NVIDIA H100)上高效运行。而 gpt-oss-20b 更加轻量,仅需 16GB 内存即可运行,适用于高端笔记本电脑或服务器。

什么是 Harmony 聊天格式?

Harmony 是一种专为 GPT-OSS 模型设计的聊天格式。它使用特殊的 token 和关键字参数来界定消息边界和角色(如系统、开发者、用户)。为了确保模型正常工作并发挥最佳性能,必须使用此格式。

我可以对这些模型进行微调吗?

是的,GPT-OSS 模型完全支持微调。您可以根据自己的特定用例,通过参数高效微调(Parameter-Efficient Fine-Tuning)来定制模型,以达到最佳效果。