模型定价
所有支持模型的 Token 单价一览,价格以每 1M Token 计。
DeepSeek R1 0528
DeepSeek R1 0528 模型在多个方面实现了性能提升,在编程能力、审美设计和代码补全等方面表现出色,尤其在复杂指令处理和前端页面生成上展现了高精度和高效能。
Kimi K2 Thinking
Kimi K2 Thinking 是月之暗面(Moonshot AI)迄今最先进的开源推理模型,将 K2 系列拓展至智能体化、长周期推理领域。该模型基于 Kimi K2 引入的万亿参数混合专家(MoE)架构构建,每次前向传播激活 320 亿参数,支持 25.6 万词元(token)的上下文窗口。
QwQ 32B
QwQ 是千问系列的推理模型。与传统的指令调优模型相比,QwQ 具有思考和推理能力,可以在下游任务中实现显著增强的性能,特别是在困难问题上。QwQ-32B 是中型推理模型,能够与最先进的推理模型(如 DeepSeek R1、o1-mini)相比,实现有竞争力的性能。
Qwen3 235B A22B Thinking 2507
Qwen3-235B-A22B-Thinking-2507 是一个高性能、开放权重的混合专家 (MoE) 语言模型,针对复杂的推理任务进行了优化。它每次前向传递会激活 235B 个参数中的 22B 个,并原生支持多达 262,144 个上下文标记。这种“纯思考”变体增强了结构化逻辑推理、数学、科学和长格式生成能力,在 AIME、SuperGPQA、LiveCodeBench 和 MMLU-Redux 等基准测试中表现出色。它强制使用一种特殊的推理模式 ( </think> ),专为挑战性领域中的高标记输出(最多 81,920 个标记)而设计。
Qwen3 30B A3B Thinking 2507
Qwen3-30B-A3B-Thinking-2507 是一个 30B 参数混合专家推理模型,针对需要扩展多步骤思考的复杂任务进行了优化。该模型专为“思考模式”而设计,在这种模式下,内部推理线索与最终答案分离。
Qwen3 Next 80B A3B Thinking
Qwen3-Next-80B-A3B-Thinking 是 Qwen3-Next 系列中推理优先的聊天模型,默认输出结构化的“思考”轨迹。它专为解决复杂的多步骤问题而设计,例如数学证明、代码合成/调试、逻辑和代理规划,并在知识、推理、编码、对齐和多语言评估方面均取得了优异的成果。
DeepSeek V3.2
一个在高计算效率与卓越推理和代理性能之间取得平衡的模型。
DeepSeek V4 Flash
DeepSeek V4 Flash - MoE架构,超快推理,1000k上下文
DeepSeek V4 Pro
DeepSeek V4 Pro - 1.6万亿参数,推理编码强劲,1000k上下文
GLM 4.6
与 GLM-4.5 相比,这一代产品带来了几项关键改进:更长的上下文窗口:上下文窗口从128K扩展到200K个token,使模型能够处理更复杂的代理任务。更卓越的编码性能:模型在代码基准测试中取得更高分数,并在Claude Code、Cline、Roo Code和Kilo Code等应用程序中展现出更佳的实际性能,包括在生成视觉精美的前端页面方面有所改进。高级推理:GLM-4.6在推理性能方面表现出明显的提升,并支持在推理过程中使用工具,从而增强了整体能力。更强大的代理:GLM-4.6在工具使用和基于搜索的代理方面表现出更强的性能,并且与代理框架的集成更加有效。更精细的写作:在风格和可读性方面更符合人类的偏好,在角色扮演场景中表现更自然。
GLM 4.7
GLM-4.7作为智谱AI最新的旗舰模型,在两大核心领域实现升级:编程能力显著增强,多步推理与任务执行更稳定。该模型在执行复杂智能体任务时展现出显著提升,同时带来更自然的对话体验与更优的前端呈现效果。
GLM 5
GLM-5作为智谱AI的划时代旗舰模型,在编程、多步推理、复杂任务执行、多模态理解与生成以及超长上下文处理方面实现了全面革新。该模型不仅能更稳定、高效地完成智能体任务,提供更接近人类的自然对话体验,还在跨模态内容创作与超长文档理解上展现出卓越性能,为企业级应用带来无限可能。
GLM 5.1
GLM-5.1在代码能力上实现了一次重大飞跃,尤其在处理长周期任务方面进步显著。与传统基于分钟级交互的模型不同,GLM-5.1能够针对单一任务独立持续工作超过8小时,全程自主规划、执行并优化改进,最终交付完整且符合工程标准的成果。
Kimi K2
Kimi-K2 是一款具备超强代码和 Agent 能力的 MoE 架构基础模型,总参数 1T,激活参数 32B。在通用知识推理、编程、数学、Agent 等主要类别的基准性能测试中,K2 模型的性能超过其他主流开源模型
Kimi K2.5
Kimi K2.5 围绕「更智能、更全能」的理念进行深度进化,在系统性提升视觉理解、代码生成与长程任务能力的同时,革命性地引入了「Agent 集群」协作机制,将单一AI的“思考”升级为多智能体的“团队作战”,为攻克真实世界的复杂难题提供了全新解决方案。
MiMo V2 Flash
MiMo-V2-Flash 是一个混合专家(MoE)语言模型,总参数为 309B,激活参数为 15B。它专为高速推理和代理工作流设计,采用了一种新颖的混合注意力架构和多令牌预测(MTP),在实现最先进性能的同时显著降低了推理成本。
MiniMax M2.1
MiniMax M2.1围绕「为真实世界复杂任务而生」的理念进行深度优化,在系统性提升多语言编程、移动端开发、复合指令遵从与Agent泛化能力的同时,致力于将“vibe coding”转化为可持续、可交付的生产实践。
MiniMax M2.5
MiniMax-M2.5是MiniMax于2026年2月发布的最新旗舰模型,基于大规模强化学习在数十万真实复杂环境中深度训练而成。模型在SWE-Bench Verified上达到80.2%、Multi-SWE-Bench上达到51.3%、BrowseComp上达到76.3%,在编程、智能体工具调用与搜索、办公文档处理等高经济价值任务上均达到业界领先水平。M2.5具备高效推理与最优任务分解能力,完成SWE-Bench Verified的速度比上一代快37%,与Claude Opus 4.6持平,而成本仅为其十分之一到二十分之一。
MiniMax M2.7
MiniMax-M2.7 是一款面向自主实时生产力与持续进化的下一代大语言模型,它通过多智能体协作集成了先进的自主能力,能够在动态环境中规划、执行并优化复杂任务,从而深度参与其自身的演进过程。该模型为实现生产级性能而训练,可流畅处理实时调试、根因分析、金融建模及跨 Word、Excel、PowerPoint 的完整文档生成等工作流,并在多项基准测试中表现卓越:SWE-Pro 得分达 56.2%,Terminal Bench 2 获得 57.0% 的优异成绩,在 GDPval-AA 评估中更以 1495 ELO 评级刷新了多智能体系统在真实数字工作流领域的新标准。
Qwen2.5 32B Instruct
Qwen2.5-32B-Instruct 是千问 2.5 系列的高性能推理模型,拥有 320 亿参数并经过强化指令调优。该模型在复杂推理、数学计算和代码生成任务上表现突出,适用于研究与企业级应用。支持多种编程语言,逻辑能力优秀。
Qwen2.5 72B Instruct
Qwen2.5是Qwen大型语言模型系列的最新成果。Qwen2.5相比Qwen2带来了以下改进:显著增加了知识量,并通过专业领域专家模型大幅提升了编程和数学能力;在遵循指令、生成长文本(超过8K tokens)、理解结构化数据(如表格)以及生成结构化输出(特别是JSON)方面有显著提升,对系统提示的多样性更具适应性,增强了角色扮演实现和聊天机器人的条件设置;支持长上下文,最多可达128K tokens,并能生成最多8K tokens文本;支持超过29种语言,包括中文、英文、法语、西班牙语、葡萄牙语、德语、意大利语、俄语、日语、韩语、越南语、泰语、阿拉伯语等。
Qwen2.5 7B Instruct
Qwen2.5-7B-Instruct是一个轻量级指令调优模型,适合成本敏感型场景。在 70 亿参数规模下仍保持较强的通用能力,尤其在中文任务上优于同类 7B 模型,并支持代码补全和基础数学推理。
Qwen3 14B
Qwen3 是 Qwen 系列中最新一代大型语言模型,提供全面的密集模型和混合专家 (MoE) 模型。Qwen3 基于丰富的训练经验,在推理、指令遵循、代理能力和多语言支持方面取得了突破性进展。
Qwen3 235B A22B
Qwen3 是 Qwen 系列中最新一代大型语言模型,提供全面的密集模型和混合专家 (MoE) 模型。Qwen3 基于丰富的训练经验,在推理、指令遵循、代理能力和多语言支持方面取得了突破性进展。
Qwen3 235B A22B Instruct 2507
Qwen3-235B-A22B-Instruct-2507 是一个基于 Qwen3-235B 架构的多语言、指令调优的混合专家语言模型,每次前向传递有 22B 个有效参数。它针对通用文本生成进行了优化,包括指令跟踪、逻辑推理、数学、代码和工具使用。
Qwen3 30B A3B Instruct 2507
Qwen3-30B-A3B-Instruct-2507 是 Qwen 开发的 305 亿参数混合专家语言模型,每次推理有 33 亿个有效参数。该模型以非思考模式运行,旨在实现高质量的指令跟进、多语言理解和代理工具的使用。在指令数据上进行训练后,该模型在推理(AIME、ZebraLogic)、编码(MultiPL-E、LiveCodeBench)和对齐(IFEval、WritingBench)基准测试中展现出优异的性能。在主观和开放式任务上,该模型的表现优于非指令版本,同时保持了强大的事实和编码性能。
Qwen3 32B
Qwen3-32B 是 Qwen3 系列中一个拥有 328 亿参数的密集因果语言模型,针对复杂推理和高效对话进行了优化。它支持在“思考”模式(用于数学、编程和逻辑推理等任务)和“非思考”模式(用于更快的通用对话)之间无缝切换。该模型在指令遵循、代理工具使用、创意写作以及跨 100 多种语言和方言的多语言任务中表现出色。
Qwen3 Next 80B A3B Instruct
Qwen3-Next-80B-A3B-Instruct 是 Qwen3-Next 系列中一个指令调优的聊天模型,经过优化,可实现快速、稳定的响应,且不留“思考”痕迹。它针对推理、代码生成、知识问答和多语言应用等复杂任务,同时在对齐和格式化方面保持稳健。
Qwen3.5 397B A17B
Qwen3.5是阿里巴巴通义千问团队于2026年2月16日(除夕)发布的新一代旗舰大模型,采用397B-A17B混合专家架构(Gated Delta Networks + 稀疏MoE),总参数3970亿但每次推理仅激活170亿参数。模型基于万亿级多模态Token进行原生早期融合训练,在推理、编程、智能体和视觉理解等方面全面超越上一代Qwen3系列。相比前代Qwen3-Max,部署显存占用降低60%,推理效率最高提升19倍,API定价低至0.8元/百万Token,仅为Gemini 3 Pro的1/18。模型以Apache 2.0协议开源,支持本地部署与商用。
LongCat Flash Chat
LongCat-Flash是一个强大的高效语言模型,总参数量为 5600 亿,采用创新的专家混合(MoE)架构。该模型结合了动态计算机制,根据上下文需求激活 186 亿至 313 亿个参数(平均约 270 亿),从而优化了计算效率和性能。
Qwen3 Coder
Qwen3-Coder-480B-A35B-Instruct 是由 Qwen 团队开发的混合专家 (MoE) 代码生成模型。该模型针对函数调用、工具使用以及基于存储库的长上下文推理等代理编码任务进行了优化。该模型总共包含 4800 亿个参数,每次前向传递有 350 亿个活跃参数(160 位专家中的 8 位)。
Qwen3 Coder Next
Qwen3-coder-next是通义千问团队推出的最新代码专业模型,深度优化了编程语言的理解和生成。该模型在多种编程语言、复杂算法实现、代码补全、错误检测及重构等方面表现出色。它能够理解开发者的意图,生成高质量、高效率、符合最佳实践的代码,同时支持与各类开发工具链的无缝集成,极大提升软件开发效率。
Seed OSS 36B Instruct
Seed-OSS 是由字节跳动种子团队开发的一系列开源大型语言模型,旨在提供强大的长上下文、推理、代理和通用能力,以及丰富的开发者友好功能。尽管仅使用 12T 的 token 进行训练,Seed-OSS 在多个流行的开源基准测试中仍取得了优异的表现。
