Qwen3 模型新特性及其他56个模型特性清单

一、Qwen3 模型新特性

Qwen3 模型支持思考模式和非思考模式，您可以通过 enable_thinking 参数实现两种模式的切换。除此之外，Qwen3 模型的能力得到了大幅提升：

推理能力：在数学、代码和逻辑推理等评测中，显著超过 QwQ 和同尺寸的非推理模型，达到同规模业界顶尖水平。
人类偏好能力：创意写作、角色扮演、多轮对话、指令遵循能力均大幅提升，通用能力显著超过同尺寸模型。
Agent 能力：在推理、非推理两种模式下都达到业界领先水平，能够精准地调用外部工具。
多语言能力：支持100多种语言和方言，多语言翻译、指令理解、常识推理能力都明显提升。
回复格式问题修复：修复了之前版本存在的回复格式的问题，如异常 Markdown、中间截断、错误输出 boxed 等问题。

二、其他新增模型列表

模型类型	上架时间	模型规格	功能说明
推理模型	2025-04-28	Qwen3商业版模型 qwen-plus-2025-04-28、qwen-turbo-2025-04-28 Qwen3开源版模型 qwen3-235b-a22b、qwen3-30b-a3b、qwen3-32b、qwen3-14b、qwen3-8b、qwen3-4b、qwen3-1.7b、qwen3-0.6b	Qwen3 模型支持思考模式和非思考模式，您可以通过 enable_thinking 参数实现两种模式的切换。除此之外，Qwen3 模型的能力得到了大幅提升：推理能力：在数学、代码和逻辑推理等评测中，显著超过 QwQ 和同尺寸的非推理模型，达到同规模业界顶尖水平。人类偏好能力：创意写作、角色扮演、多轮对话、指令遵循能力均大幅提升，通用能力显著超过同尺寸模型。 Agent 能力：在推理、非推理两种模式下都达到业界领先水平，能够精准地调用外部工具。多语言能力：支持100多种语言和方言，多语言翻译、指令理解、常识推理能力都明显提升。回复格式问题修复：修复了之前版本存在的回复格式的问题，如异常 Markdown、中间截断、错误输出 boxed 等问题。思考模式请参见深度思考，非思考模式请参见文本生成。
声音复刻	2025-04-24	cosyvoice-v2	用户仅需提供10~20秒的音频，即可迅速生成高度相似且听感自然的定制声音。声音复刻
视觉理解	2025-04-18	qwen-vl-max-2025-04-08	视觉理解模型。数学和推理能力有所提升，回复风格面向人类偏好进行调整，模型回复详实程度和格式清晰度明显改善。视觉理解
图生视频	2025-04-18	wanx2.1-kf2v-plus	基于输入的首帧和尾帧图片，模型能够根据提示词生成一段丝滑流畅的动态视频。首尾帧生视频
视觉理解	2025-04-04	qwen-vl-max-2025-04-02	视觉理解模型。在解决复杂数学问题方面，准确性显著提高，回复风格面向人类偏好进行大幅调整，尤其是数学、逻辑推理、知识问答等客观类问题，模型回复详实程度和格式清晰度明显改善。视觉理解
视觉推理	2025-03-28	qvq-max、qvq-max-latest、qvq-max-2025-03-25	视觉推理模型。支持视觉输入及思维链输出，在数学、编程、视觉分析、创作以及通用任务上都表现出更强的能力。视觉推理
全模态	2025-03-26	qwen-omni-turbo-2025-03-26	通义千问全新多模态理解生成大模型，支持文本、图像、语音与视频输入，并输出文本与音频，提供了4种自然对话音色。使用方法请参见全模态。
全模态	2025-03-26	qwen2.5-omni-7b	通义千问全新多模态理解生成大模型，支持文本、图像、语音与视频输入，并输出文本与音频，提供了2种自然对话音色。使用方法请参见全模态。
图像编辑	2025-03-25	wanx2.1-imageedit	通用图像编辑模型。通过一句话指令实现多样化的图像编辑功能，如扩图、去文字水印、图像修复、图像风格迁移等。通义万相-通用图像编辑
视觉理解	2025-03-24	qwen2.5-vl-32b-instruct	视觉理解模型。在数学问题的解答方面达到了接近Qwen2.5VL-72B的水平，回复风格面向人类偏好进行大幅调整，尤其是数学、逻辑推理、知识问答等客观类问题，模型回复详实程度和格式清晰度明显改善。视觉理解
推理模型	2025-03-06	qwq-plus、qwq-plus-latest、qwq-plus-2025-03-05	基于 Qwen2.5 模型训练的 QwQ 推理模型，通过强化学习大幅度提升了模型推理能力。模型数学代码等核心指标（AIME 24/25、LiveCodeBench）以及部分通用指标（IFEval、LiveBench等）达到DeepSeek-R1 满血版水平。深度思考
开源推理模型	2025-03-06	qwq-32b	基于 Qwen2.5-32B 模型训练的 QwQ 推理模型，通过强化学习大幅度提升了模型推理能力。模型数学代码等核心指标（AIME 24/25、LiveCodeBench）以及部分通用指标（IFEval、LiveBench等）达到DeepSeek-R1 满血版水平，各指标均显著超过同样基于 Qwen2.5-32B 的 DeepSeek-R1-Distill-Qwen-32B。深度思考
语音识别/翻译	2025-03-03	gummy-realtime-v1 gummy-chat-v1	Gummy大模型支持实时语音识别与翻译，能够精准识别中、英、日、韩等10种语言。此外，它还支持中、英、日、韩之间的互译，以及其他6种语言单向翻译成中文或英文。使用方法请参见实时语音识别。
图生视频	2025-02-25	wanx2.1-i2v-turbo	相较于wanx2.1-i2v-plus模型，turbo模型生成速度更快，耗时仅为plus模型的三分之一，性价比更高。使用方法请参见首帧生视频。
全模态	2025-02-14	qwen-omni-turbo qwen-omni-turbo-latest qwen-omni-turbo-2025-01-19	Qwen-Omni 系列模型支持输入多种模态的数据，包括视频、音频、图片、文本，并输出文本。使用方法请参见全模态。
文生文	2025-01-27	deepseek-v3 deepseek-r1	DeepSeek系列模型是由深度求索（DeepSeek）公司推出的大语言模型。 DeepSeek-V3 为 MoE 模型，671B 参数，激活 37B，在 14.8T Token 上进行了预训练，在长文本、代码、数学、百科、中文能力上表现优秀。 DeepSeek-R1 在后训练阶段大规模使用了强化学习技术，在仅有极少标注数据的情况下，极大提升了模型推理能力，尤其在数学、代码、自然语言推理等任务上。具体请参见DeepSeek。
视觉理解	2025-01-27	qwen2.5-vl-3b-instruct qwen2.5-vl-7b-instruct qwen2.5-vl-72b-instruct	相对于Qwen2-VL大模型有如下改进：在指令跟随、数学计算、代码生成、结构化输出（JSON输出）等方面的能力有显著提升。支持对图像中的文字、图表、布局等视觉内容进行统一解析，并增加了精准定位视觉元素的能力，支持检测框和坐标点的表示方式。支持对长视频文件（最长10分钟）进行理解，具备秒级别的事件时刻定位能力，能理解时间先后和快慢。使用方法请参见视觉理解。
文生文	2025-01-27	qwen-max-2025-01-25 qwen2.5-14b-instruct-1m qwen2.5-7b-instruct-1m	qwen-max-2025-01-25模型（又称为Qwen2.5-Max）：通义千问系列效果最好的模型，代码编写与理解能力、逻辑能力、多语言能力显著提升，回复风格面向人类偏好进行大幅调整，模型回复详实程度和格式清晰度明显改善，内容创作、JSON格式遵循、角色扮演能力定向提升。使用方法请参见：文本生成。 qwen2.5-14b-instruct-1m、qwen2.5-7b-instruct-1m模型：相比于qwen2.5-14b-instruct与qwen2.5-7b-instruct模型，将上下文长度提高到了1,000,000。使用方法请参见：文本生成。
图生视频	2025-01-22	emoji-detect-v1 emoji-v1	基于人脸图片和预设的人脸动态模板，生成人脸动态视频。该模型可用于表情包制作、视频素材生成等场景。使用方法请参见表情包Emoji快速开始。
文生文	2025-01-17	qwen-plus-2025-01-12	相对于qwen-plus-2024-12-20模型，中英文整体能力有提升，中英常识、阅读理解能力提升较为显著，在不同语言、方言、风格之间自然切换的能力有显著改善，中文指令遵循能力显著提升。使用方法请参见qwen-plus-2025-01-12。
图生视频	2025-01-17	wanx2.1-i2v-plus	输入图片作为视频首帧，再根据提示词生成视频。使用方法请参见首帧生视频。
文生图	2025-01-17	wanx2.0-t2i-turbo	擅长质感人像与创意设计，速度中等，性价比高。使用方法请参见文生图V2系列模型。
视觉理解	2025-01-13	qwen-vl-plus-2025-01-02	相较于qwen-vl-plus-0809模型，大幅提升指令跟随、图像理解和数学能力。使用方法请参见视觉理解。
文生视频	2025-01-08	wanx2.1-t2v-turbo wanx2.1-t2v-plus	一句话生成视频。具备强大的指令遵循能力，支持大幅度复杂运动、现实物理规律还原，生成的视频呈现丰富的艺术风格及影视级画面质感。使用方法请参见通义万相-文生视频。
文生图	2025-01-08	wanx2.1-t2i-turbo wanx2.1-t2i-plus	文生图V2系列模型为全面升级的通义万相文生图模型，推荐体验。
视觉理解	2025-01-07	qwen-vl-max-2024-12-30	该模型丰富了知识库，图像识别和理解能力进一步提升，能够解析复杂的视觉内容。使用方法请参见视觉理解。
语音识别	2025-01-02	qwen-audio-asr qwen-audio-asr-latest qwen-audio-asr-2024-12-04	通义千问ASR是基于Qwen-Audio训练，专用于语音识别的模型，目前支持的语言有：中文、英文。使用方法请参见实时语音识别。
视觉推理	2024-12-25	qvq-72b-preview	专注于提升视觉推理能力，尤其在数学推理领域。使用方法请参见视觉理解。
多语言翻译	2024-12-25	qwen-mt-plus qwen-mt-turbo	Qwen-MT模型是基于通义千问模型优化的机器翻译大语言模型，擅长中英互译、中文与小语种互译、英文与小语种互译，小语种包括日、韩、法、西、德、葡（巴西）、泰、印尼、越、阿等26种。在多语言互译的基础上，提供术语干预、领域提示、记忆库等能力，提升模型在复杂应用场景下的翻译效果。详情请参见翻译能力。
视觉理解	2024-12-18	qwen2-vl-72b-instruct	在多个视觉理解基准测试中取得了最先进的成绩，显著增强多模态任务的处理能力。使用方法请参见视觉理解。
意图理解	2024-12-12	tongyi-intent-detect-v3	通义意图理解模型，能够在百毫秒级时间内快速、准确地解析用户意图，并选择合适工具来解决用户问题。详情请参见意图理解。
声动人像	2024-12-10	videoretalk	支持根据人物视频和音频生成对口型视频，详情请参见快速开始。
舞动人像	2024-12-10	animate-anyone-gen2 animate-anyone-detect-gen2 animate-anyone-template-gen2	分别提供人物图片合规检测、人物动作模板生成与人物视频生成能力，依次调用这三个模型可生成人物舞蹈视频。详情请参见快速开始。
llama系列	2024-12-09	llama3.3-70b-instruct	新增第三方大模型llama3.3系列中70B参数的模型。详情请参见Llama（输入文本和图像）。
音频理解	2024-12-09	qwen-audio-turbo-latest qwen-audio-turbo-2024-12-04	新增的模型，相较于qwen-audio-turbo-2024-08-07版本，大幅提升语音识别准确率，并新增了语音聊天能力。详情请参见音频理解。
文生文	2024-11-28	qwq-32b-preview	本模型专注于增强 AI 推理能力。详情请参见QWQ。
	2024-11-28	qwen-plus-2024-11-25 qwen-plus-2024-11-27	相较于qwen-plus-0919模型中英文回复详实程度显著提升，更加符合用户偏好；模型角色扮演能力显著增强；模型中文的文本创作能力显著提升；中英文指令遵循能力提升；修复了RAG场景下引用角标的生成问题。详情请参见通义千问-Plus。
	2024-11-15	qwen-turbo-2024-11-01	上下文长度扩展至一百万Token。详情请参见通义千问-Turbo。
视觉理解	2024-11-15	qwen-vl-max-2024-11-19	增强了图像理解效果，改善生成重复文本的情况。详情请参见视觉理解。
		qwen-vl-max-2024-10-30	加强了多语言理解能力。详情请参见视觉理解。
		qwen-vl-ocr qwen-vl-ocr-2024-10-28 qwen-vl-ocr-latest	qwen-vl-ocr是专用于OCR的模型；在表格、试题等类型图像的文字提取能力大幅提升。详情请参见视觉理解。
文生文	2024-11-12	闭源版本qwen-coder-plus等模型开源版本qwen2.5-coder-32b-instruct等模型	这些模型在代码生成、代码修复及代码推理能力上具备业界领先水平。详情请参见代码能力。
灵动人像	2024-11-7	liveportrait-detect liveportrait	基于人物肖像图片和人声音频文件，快速、轻量地生成人物肖像动态视频。详情请参见灵动人像LivePortrait 快速开始。
悦动人像	2024-11-7	emo-detect-v1 emo-v1	基于人物肖像图片和人声音频文件，生成人物肖像动态视频，不需要部署，可直接调用。与旧版的EMO模型（emo-detect、emo）相比，在调用方式及计费方式上有区别。详情请参见悦动人像EMO 快速开始。
llama系列	2024-11-5	llama3.2-90b-vision-instruct llama3.2-11b-vision	新增第三方大模型llama3.2系列中11B和90B参数的模型，这两个模型加入了视觉理解的功能。详情请参见Llama模型API参考。
视觉理解	2024-10-29	qwen2-vl-2b-instruct	扩展上下文至32k，大幅提升图像理解能力。详情请参见视觉理解。
视觉理解	2024-10-23	qwen2-vl-7b-instruct	新增qwen2-vl-7b-instruct模型，详情请参见视觉理解。
视觉理解	2024-08-27	qwen-vl-max-0809	本模型为qwen-vl-max的2024年8月9日快照版本，将在9月9日更新至qwen-vl-max主版本，快照版本维护到下个快照版本发布时间（待定）后一个月。点击通义千问VL API详情查看完整信息。
文生文	2024-08-16	Qwen2-Math系列模型	具有强大的数学解题能力，点击通过API调用Qwen2-Math模型进行体验。
文生图	2024-08-07	FLUX文生图模型	FLUX文生图模型是由 Black Forest Labs 开源的高质量文本到图像生成模型，它在多个维度上展现了卓越性能，尤其在文本引导的图像生成、多主体场景构建、以及精细的手部细节生成等方面，实现了显著的提升，为文生图领域设定了新的技术标杆。点击文生图FLUX进行了解。
llama系列	2024-07-23	Llama3.1-8b-instruct Llama3.1-70b-instruct Llama3.1-405b-instruct	新增Llama-3.1系列模型版本，点击Llama （仅文本输入）查看。
文本向量	2024-07-10	text-embedding-v3	text-embedding-v3模型是text-embedding-v2模型的升级版本，主打高性能、低成本、支持50+多语言、超长文本。更新内容主要包括：语种扩充：text-embedding-v3模型对比text-embedding-v2模型扩展了意大利语、波兰语、越南语、泰语等语种，支持语种数量增加到50+。输入长度扩展：支持编码的输入长度从2048扩展至8192, 对text-embedding-v3, 8192指文本输入的最大token长度可变输出连续向量维度: 相比text-embedding-v2模型的固定1536向量维度, text-embedding-v3支持用户自定义连续向量的维度, 目前可以选择512,768和1024维度；同时为了进一步节省下游任务的使用成本，text-embedding-v3模型在不衰减效果的前提下将最大的向量维度降低至1024维。不再区分Query/Document类型：text-embedding-v3模型在不降低模型效果的前提下不再区分输入文本的类型，text_type参数无需指定输入的文本是Query还是Document类型。 Sparse向量支持: text-embedding-v3模型同时支持连续向量表示（dense vector）和离散向量表示模型（sparse vector）, 用户可以在接口参数中指定输出连续向量、离散向量或者同时输出。效果提升：预训练模型底座和SFT策略优化提升embedding模型整体效果，公开数据评测结果。
文生文	2024-07-05	qwen-turbo-0206 qwen-turbo-0624	新增qwen-turbo模型的快照版本，点击通义千问查看详情。
文生文	2024-07-05	qwen-plus-0206 qwen-plus-0624	新增qwen-plus模型的快照版本，点击通义千问查看详情。
文生文	2024-07-02	Minimax大语言模型	新增Minimax大语言模型，点击MiniMax大语言模型查看详情。
文生文	2024-06-07	qwen2系列开源大语言模型	与qwen1.5相比，qwen2在语言理解、语言生成、多语言能力、编码、推理等基准测试中超越了大多数开源模型。点击模型介绍查看详情。
文生文	2024-06-03	零一万物大语言模型	零一万物大语言模型是千亿参数大语言模型，是LM SYS榜单TOP10上唯一国产大模型。具备超强的问答、推理及文本生能力，完整内容请点击零一万物大语言模型查看。
文生文	2024-04-28	qwen1.5-110b-chat	qwen1.5-110b-chat模型时通义千问1.5对外开源的110B规模参数量的经过人类指令对齐的chat模型。点击通义千问开源模型查看详情。