新京报贝壳财经讯(记者罗亦丹)北京时间3月6日凌晨,通义千问在官方公号上发文称,推出最新的推理模型 QwQ-32B。这是一款拥有320亿参数的模型,其性能可与具备6710亿参数(其中370亿被激活)的 DeepSeek-R1媲美。
通义千问表示,强化学习可以显著提高模型的推理能力。例如,DeepSeek-R1 通过整合冷启动数据和多阶段训练,实现了最先进的性能,使其能够进行深度思考和复杂推理。而QwQ-32B突显了将强化学习应用于经过大规模预训练的强大基础模型的有效性。
其在文章中展示了在一系列基准测试中与DeepSeek-R1、o1-mini等模型的功能对比,如在测试数学能力的 AIME24 评测集上,以及评估代码能力的LiveCodeBench 中,千问 QwQ-32B 表现与DeepSeek-R1相当,胜于 o1-mini 及相同尺寸的R1 蒸馏模型。
目前,QwQ-32B 已在 Hugging Face 和 ModelScope 开源,并采用了 Apache 2.0 开源协议。
编辑 胡萌
校对 王心
相关文章:
成功着陆!05-01
广东:推动政府等公共服务机构率先接入人工智能大模型04-30
百度AI开发者大会首秀武汉 多款前沿成果点亮“中国车谷”04-26
刚刚!日照站首趟列车发出!04-26
【首例!】大同市颁发首例居住权登记证明04-26
当教育遇见未来——看绥阳这所乡镇学校的科艺融合教育04-24
晨会观点速递:宁德时代快充、钠电等新品发布,打开负极材料新空间04-22
加大转移支付力度,促进协调发展04-21