DeepSeek官方刚刚突然宣布:我们发最新版本模型DeepSeek-V3.1啦!
消息一出,一个小时在X上的浏览热度就达到了26万!
据DeepSeek介绍,DeepSeek-V3.1是一款混合型模型,支持“思考模式”与“非思考模式”混合运行,用户可以根据场景需求,灵活切换推理深度,效率和能力两手抓。
得益于深度优化的训练策略与大规模长文档扩展,DeepSeek-V3.1在推理速度、工具调用智能、代码和数学任务等方面均有显著进步。
咱们先捋一下这次新版模型的几大亮点:
·混合思考模式:通过切换对话模板,单一模型即可兼容思考与非思考两种模式。
·更智能的工具调用:通过后训练优化,模型在调用工具和完成Agent任务方面的表现显著提升。
·更高的思考效率:DeepSeek-V3.1-Think在回答质量上可与R1-0528媲美,同时响应速度更快。
01
官方放出的测试结果显示,V3.1-Think AIME 2025得分88.4%,GPQA Diamond(高难度研究生级知识问答数据集的Diamond子集)得分80.1%,LiveCodeBench(实时编码基准)得分74.8%,均优于老模型R1-0528的表现:87.5%、81.0%、73.3%。
而且,正如下图所示,V3.1-Think的输出tokens反而大幅减少。
也就是说:V3.1-Think相较于老模型R1-0528,使用更少的tokens,但达到了相似或略高的准确率,在计算资源优化上的优势很明显。
在软件工程和Agent任务基准上的性能提升方面:
·SWE-Bench Verified,DeepSeek-V3.1得分66.0%,远高于V3-0324的45.4%和R1-0528的44.6%,表明其在处理复杂代码任务时更可靠。
·SWE-Bench Multilingual,DeepSeek-V3.1得分54.5%,大幅*V3-0324的29.3%和R1-0528的30.5%。说明其在多语言支持上有很大进步,可能通过增加多样化训练数据实现,使其更适合全球开发场景。
·Terminal-Bench环境中完成复杂任务的能力,如脚本执行、文件操作或系统交互,模拟真实命令行工作流),DeepSeek-V3.1得分31.3%,优于V3-0324的13.3%和R1-0528的5.7%,在Agent框架下的效率提升,适合自动化运维或DevOps应用。
需要注意的是,DeepSeek V3.1的本次更新,核心在于显著增强了模型的智能体能力,尤其是在复杂推理和工具链协作场景下的实际表现。
此外,DeepSeek-V3.1搜索Agent、长上下文理解、事实问答和工具使用等领域的性能也表现强势。
DeepSeek-V3.1在大多数基准上显著优于R1-0528,在搜索Agent和长上下文任务上的平均提升约20-300%,尤其在工具使用(如xbench-DeepSearch)和事实QA(如SimpleQA)中*,这意味着它适合构建AI Agent应用,如自动化搜索或代码辅助。
相比R1-0528,DeepSeek-V3.1更注重平衡速度与质量,DeepSeek的“Agent时代” 正式拉开帷幕。
在Huggingface上,DeepSeek释放出了更详细的评估结果。
基于官方给出的与前代的测评比较,DeepSeek-V3.1在常规推理和知识问答任务上,整体表现稳定提升,非思考和思考模式下的分数均高于V3旧版,基本接近行业*大模型水平。
例如,在 HLE任务上,DeepSeek-V3.1实现了 29.8% 的通过率,优于自家 R1-0528 版(24.8%),并接近 GPT-5、Grok 4 等国际一线大模型。
虽然各大模型在评测细节上存在一定差异,但DeepSeek的表现仍具有说服力。
新版模型在网页检索、复合搜索和工具协同场景上有跨越式进步,中文网页搜索和多模态复合推理分数显著超越旧版本。在 SWE-Bench Verified代码评测中,DeepSeek-V3.1以66.0%的成绩大幅*前代(44.6%),也与 Claude 4.1、Kimi K2等*模型保持同一水准。
在Terminal Bench终端自动化测试中,其得分也略高于GPT-5和o3等知名竞品。
与此同时,DeepSeek-V3.1在代码生成和自动化评测方面,得分也较前代显著提升,特别是在智能体模式下,代码任务通过率和自动化执行能力大幅增强。在AIME和HMMT等高级数学推理和竞赛任务上,DeepSeek-V3.1的表现优于前代产品,思考模式下解题成功率大幅提升。
不过作为通用对话模型,V3.1 并未在所有维度超越前代产品——在部分常规对话和知识问答场景下,R1-0528 依然具有一定竞争力。
02
在具体的性能表现之外,DeepSeek发布新模型,一定会被外界密切关注的当然是价格。
这次,DeepSeek也没有让大家失望。
Input API Price,分为两种情况:
·Cache Hit:0.07美元/百万tokens。
·Cache Miss:0.56美元/百万tokens。
Output API Price为1.68美元/百万tokens。
MenloVentures的风险投资人、前谷歌搜索团队成员Deedy也发推大呼“鲸鱼回来了”。
除了价格良心之外,DeepSeek-V3.1还首次实现了对Anthropic API的原生兼容。
这意味着,用户可以像调用Claude或Anthropic生态的模型一样,将DeepSeek的集成进现有系统。无论是通过Claude Code工具链还是直接使用Anthropic官方SDK,开发者只需配置API地址和密钥,即可在所有支持Anthropic API的环境下,使用DeepSeek-V3.1提供的推理和对话能力。
从目前的反馈来看,外界对这次发布的反馈还是很好的,尽管它并非“拳打Grok4、脚踩GPT-5”的霸王龙,但它有明确的、清晰的侧重点与优势。
更有意思的是,从两天前DeepSeek默默发了V3.1-Base开始,网友已经再次惊叹于DeepSeek发模型的节奏之舒适、态度之低调。
在其他模型发布往往先炒作规格和性能数据的时候,DeepSeek反其道而行,直接放出模型文件让开发者立即下载测试,然后再补充细节。高效、开发者友好。
郑重声明:此文内容为本网站转载企业宣传资讯,目的在于传播更多信息,与本站立场无关。仅供读者参考,并请自行核实相关内容。
证券之星消息,根据天眼查APP显示,交通银行新增一起对外投资事件,被投资公司为江苏常宝钢管股份有限公司,法定代表人韩巧林,投资占比为0.85%。该公司从事黑色金属冶炼和压延加工业,...
2025-08-22 07:15
所有人参与大型活动、研学享联动优惠,新生开学购物有折扣……南宁送出金秋消费“大礼包”啦 参与大型活动的“含金量”不断提升,新生享受开学季专属礼遇……南宁市服务业高质量发展领导小组...
2025-08-22 01:59
格隆汇8月21日丨鑫宏业在投资者互动平台表示,公司全资子公司江苏华光电缆电器有限公司具有军工相关资质。扬州曙光光电自控有限责任公司的主营产品系伺服电机及驱动器,伺服电机和驱动器需要...
2025-08-21 16:28
文/羊城晚报全媒体记者孙磊通讯员王雅喆 图/钟智北野 8月15日晚,由南国书香节、花城出版社、花城文学院联合主办的“逆流而上:小人物的漂泊与扎根——别鸣《涉江的青铜》新书分享会...
2025-08-21 13:16
Wind数据显示,今年以来,国有大行股价连创历史新高,银行、保险板块累计涨幅均超10%……因股息率较高、分红稳定、估值较低,银行股、保险股成为资金青睐的对象。展望未来,受权益市场上...
2025-08-21 10:59
8月18日,5款科大讯飞AI录音笔正式全渠道发售,S6、Pokee、Magic三大系列新品,构建覆盖细分场景的专业级产品矩阵。声学硬件清晰收音、语音转写转译、大模型后向文字处理能力...
2025-08-21 05:10
8月19日,由中铁建工集团承建的昌九高铁庐山南站项目迎来新进展,站房屋盖钢结构网架历经48小时后顺利完成整体顶升施工,这标志着站房正式转入金属屋面及装饰装修施工阶段,为后续站房完工...
2025-08-20 15:08
美团国际化再下一城!当地时间8月19日上午11点,美团旗下国际外卖品牌Keeta正式在卡塔尔首都多哈上线。这是继沙特阿拉伯之后,美团国际化业务在中东市场的又一重要突破。 Keet...
2025-08-20 12:13
我省算力发展水平稳居全国前列 算力质效水平全国排名第六,每万人拥有5G基站数居中部六省首位 算力作为数字经济时代的新质生产力,正重塑产业发展格局,成为经济高质量发展的新引擎。近...
2025-08-20 10:57
8月19日,恒生指数震荡下行,资金在港股部分行业间博弈,相关主题ETF交投活跃。截至收盘,永赢中证港股通医疗主题ETF下跌2.72%,换手率高达125.28%,成交金额达4.03亿...
2025-08-20 09:32
2022-10-31 18:05
2022-10-31 18:04
2022-10-31 18:03
2022-10-31 18:02
2022-10-31 18:02
2022-10-31 17:10