GPT-OSS - 开放的AI力量，现已释放

为AI开发的未来而构建

GPT-OSS 不仅仅是开源，更是对性能、效率和安全的全面承诺。

Permissive Apache 2.0 许可

自由构建，无版权限制或专利风险——非常适合实验、定制和商业部署。

可配置的推理能力

根据您的特定用例和延迟需求，轻松调整推理能力（低、中、高）。

完整的思维链

完全访问模型的推理过程，便于调试并增强对输出的信任。

可微调

通过参数高效微调，完全根据您的特定用例定制模型。

智能体能力

利用模型的原生能力进行函数调用、网页浏览、Python代码执行和结构化输出。

原生 MXFP4 量化

模型使用原生MXFP4精度进行训练，使120b模型能在单个H100上运行。

选择你的模型：gpt-oss-120b VS gpt-oss-20b

GPT OSS 提供两款模型，以满足从本地原型设计到企业级部署的各种需求。

gpt-oss-120b

旗舰性能，为最严苛的任务而生。

理想场景: 复杂的科学计算、企业级智能体、高质量内容创作。
性能对标: 与 OpenAI o4-mini 在核心推理基准上不相上下。
硬件要求: 单张 80GB 显存的 GPU 即可高效运行。

gpt-oss-20b

极致高效，为边缘计算和快速迭代设计。

理想场景: 设备端应用、本地推理、快速原型设计和学术研究。
性能对标: 在通用基准上达到 OpenAI o3-mini 水平。
硬件要求: 仅需 16GB 内存即可运行，适配各类消费级设备。

先进的模型架构

基于 MoE Transformer 架构，为效率和性能而优化。

核心组件

混合专家模型 (MoE): 120b模型拥有128个专家，20b模型拥有32个专家，每次前向传播仅激活4个专家，极大提升效率。
注意力机制: 采用交替的带状窗口和全密集模式，并使用分组查询注意力（GQA）来优化内存和推理速度。
MXFP4 量化: MoE 权重经过原生 MXFP4 量化，将内存占用降低90%以上。

组件	120b	20b
总参数	116.8B	20.9B
激活参数	5.1B	3.6B
Checkpoint 大小	60.8GiB	12.8GiB

性能基准测试

在多个权威基准测试中，GPT-OSS 展现出与顶尖闭源模型相媲美的强大实力。

核心推理与知识能力

在AIME（数学竞赛）和MMLU（大学水平考试）等测试中，gpt-oss-120b 表现出色。

编程与工具使用

在Codeforces（编程竞赛）和Tau-Bench（函数调用）等测试中，展现了强大的智能体潜力。

可变的推理能力

通过调整推理模式（低、中、高），在准确率和响应速度之间实现平滑的权衡。

快速开始

通过你最喜欢的工具和库，轻松开始使用 GPT-OSS。

Transformers

使用 Transformers 库进行推理，它会自动应用 Harmony 格式。

from transformers import pipeline
import torch

model_id = "openai/gpt-oss-120b"
pipe = pipeline(
    "text-generation",
    model=model_id,
    torch_dtype="auto",
    device_map="auto",
)
messages = [
    {"role": "user", "content": "Explain quantum mechanics clearly and concisely."},
]
outputs = pipe(
    messages,
    max_new_tokens=256,
)
print(outputs[0]["generated_text"][-1])

Ollama

在消费级硬件上本地运行 GPT-OSS 的最简单方法之一。

# gpt-oss-20b
ollama pull gpt-oss:20b
ollama run gpt-oss:20b

# gpt-oss-120b
ollama pull gpt-oss:120b
ollama run gpt-oss:120b

常见问题 (FAQ)

GPT-OSS 是什么？

GPT-OSS 是 OpenAI 发布的两款开源权重语言模型：gpt-oss-120b 和 gpt-oss-20b。它们专为强大的推理、智能体任务和多功能开发而设计，可在您自己的基础设施上运行。

模型使用的是什么许可证？

GPT-OSS 模型在宽松的 Apache 2.0 许可下发布，允许用于商业用途，没有 copyleft 限制或专利风险，非常适合实验、定制和商业部署。

运行这些模型需要什么硬件？

得益于原生的 MXFP4 量化技术，gpt-oss-120b 可以在单个 80GB 显存的 GPU（如 NVIDIA H100）上高效运行。而 gpt-oss-20b 更加轻量，仅需 16GB 内存即可运行，适用于高端笔记本电脑或服务器。

什么是 Harmony 聊天格式？

Harmony 是一种专为 GPT-OSS 模型设计的聊天格式。它使用特殊的 token 和关键字参数来界定消息边界和角色（如系统、开发者、用户）。为了确保模型正常工作并发挥最佳性能，必须使用此格式。

我可以对这些模型进行微调吗？

是的，GPT-OSS 模型完全支持微调。您可以根据自己的特定用例，通过参数高效微调（Parameter-Efficient Fine-Tuning）来定制模型，以达到最佳效果。

GPT OSS Model