DeepSeek V3 杀疯了！代码能力直逼皇冠，OpenAI瑟瑟发抖！

author 阅读：67 2025-03-29 08:44:17 评论：0

DeepSeek-V3 最新版发布：编程能力逼近 Claude 3.7 Sonnet

悄然更新：参数小幅提升，编程能力大幅增强

北京时间 3 月 24 日晚，DeepSeek 悄然在 HuggingFace 上发布了 DeepSeek-V3 模型的最新版本 DeepSeek-V3-0324。新模型参数量为 6850 亿，相比初代 V3 版本的 6710 亿略有提升。尽管 DeepSeek 保持低调，但这次更新依然引起了社区的广泛关注和测试。

权威机构测评：新版 V3 荣登非推理模型榜首

专业 AI 模型评测机构 Artificial Analysis 于 3 月 25 日发布最新排名，新版 V3 在基准测试中跃升 7 位，成为所有非推理模型中的第一名。

记者实测：编程能力强大，但仍存“幻觉”

《每日经济新闻》记者实测发现，DeepSeek-V3-0324 的编程能力确实强大，但仍然存在“幻觉”问题，即在生成内容时出现不准确或错误的信息。

社区热议：对标 OpenAI，期待 DeepSeek-R2

有外媒推测，新版 V3 的发布时机和特点预示着它将成为 DeepSeek-R2 的基础。DeepSeek-R2 是一款新的推理模型，预计在未来两个月内推出。这一策略符合 DeepSeek 一贯的模式，即先发布基础模型，再推出专门的推理模型。

详细解读 DeepSeek-V3-0324 的技术亮点

多语言基准测试：性能显著提升

AI 编码工具 aider 开发者保罗·高蒂尔对新版 V3 进行了多语言基准测试，得分为 55%，较上一版本有显著提升。他认为，新版 V3 是仅次于 Claude 3.7 Sonnet 的非推理模型，并且在费用方面比 R1 和 o3-mini 等推理模型更具竞争力。

代码能力测试：展现卓越性能

开源大模型评测项目 Kcores 大模型竞技场的最新测试数据显示，新版 V3 的代码能力达到了 328.3 分，仅次于 Claude 3.7 Sonnet（思考模型）和 Claude 3.5。

创新功能：九大行星模拟测试中的土星环

在 Kcores 大模型中的四个测试中，新版 V3 都展示了出色的能力，特别是在九大行星模拟测试中，它是测试的 25 个模型中，唯一一个画了土星环的大模型。

用户体验与对比评测

网友实测：新版 V3 与 R1 的对比

有网友比较了新版 V3 和 R1 之间的编程能力，要求生成一个包含 CSS 和 JavaScript 的 HTML 文件，以动画形式展示不同天气条件。结果显示，新版 V3 生成的效果明显优于 R1。

记者实测：互动式网站生成体验

《每日经济新闻》记者测试了新版 V3 生成互动式世界风光网站前端的能力。DeepSeek 在 2 分钟内生成了一个包含日间/夜间模式切换、评论区、评分系统、收藏系统和社媒分享系统的网站。

“幻觉”问题：细节仍需改进

虽然整体完成度高，但在一些细节上，DeepSeek 仍存在“幻觉”问题。例如，在介绍马丘比丘时配上了不相关的图片，介绍长城时配上了故宫的图片。

行业展望与未来趋势

对 OpenAI 的潜在冲击

有国外网友认为，DeepSeek-V3 的提升对 OpenAI 来说是一场噩梦。

DeepSeek-R2 的发布预期

Artificial Analysis 认为，新版 V3 比 R1 更令人印象深刻，并可能表明 R2 将会是一次重大飞跃。Kcores 联合创始人也对 DeepSeek-R2 的发布表示期待。

开源推理模型的未来

有 AI 评论员认为，DeepSeek-R2 有望成为有史以来最重要的开源推理模型。如果 DeepSeek-R2 遵循 R1 的发布轨迹，它可能会对 OpenAI 的下一个旗舰模型 GPT-5 构成直接挑战。

本文 timi45.com 原创，转载保留链接！网址：https://www.timi45.com/post/1766.html

可以去百度分享获取分享代码输入这里。

声明

1.本站遵循行业规范，任何转载的稿件都会明确标注作者和来源；2.本站的原创文章，请转载时务必注明文章作者和来源，不尊重原创的行为我们将追究责任；3.作者投稿可能会经我们编辑修改或补充。

发表评论 取消回复