DeepSeek V3 杀疯了!代码能力直逼皇冠,OpenAI瑟瑟发抖!
DeepSeek-V3 最新版发布:编程能力逼近 Claude 3.7 Sonnet
悄然更新:参数小幅提升,编程能力大幅增强
北京时间 3 月 24 日晚,DeepSeek 悄然在 HuggingFace 上发布了 DeepSeek-V3 模型的最新版本 DeepSeek-V3-0324。新模型参数量为 6850 亿,相比初代 V3 版本的 6710 亿略有提升。尽管 DeepSeek 保持低调,但这次更新依然引起了社区的广泛关注和测试。
权威机构测评:新版 V3 荣登非推理模型榜首
专业 AI 模型评测机构 Artificial Analysis 于 3 月 25 日发布最新排名,新版 V3 在基准测试中跃升 7 位,成为所有非推理模型中的第一名。
记者实测:编程能力强大,但仍存“幻觉”
《每日经济新闻》记者实测发现,DeepSeek-V3-0324 的编程能力确实强大,但仍然存在“幻觉”问题,即在生成内容时出现不准确或错误的信息。
社区热议:对标 OpenAI,期待 DeepSeek-R2
有外媒推测,新版 V3 的发布时机和特点预示着它将成为 DeepSeek-R2 的基础。DeepSeek-R2 是一款新的推理模型,预计在未来两个月内推出。这一策略符合 DeepSeek 一贯的模式,即先发布基础模型,再推出专门的推理模型。
详细解读 DeepSeek-V3-0324 的技术亮点
多语言基准测试:性能显著提升
AI 编码工具 aider 开发者保罗·高蒂尔对新版 V3 进行了多语言基准测试,得分为 55%,较上一版本有显著提升。他认为,新版 V3 是仅次于 Claude 3.7 Sonnet 的非推理模型,并且在费用方面比 R1 和 o3-mini 等推理模型更具竞争力。
代码能力测试:展现卓越性能
开源大模型评测项目 Kcores 大模型竞技场的最新测试数据显示,新版 V3 的代码能力达到了 328.3 分,仅次于 Claude 3.7 Sonnet(思考模型)和 Claude 3.5。
创新功能:九大行星模拟测试中的土星环
在 Kcores 大模型中的四个测试中,新版 V3 都展示了出色的能力,特别是在九大行星模拟测试中,它是测试的 25 个模型中,唯一一个画了土星环的大模型。
用户体验与对比评测
网友实测:新版 V3 与 R1 的对比
有网友比较了新版 V3 和 R1 之间的编程能力,要求生成一个包含 CSS 和 JavaScript 的 HTML 文件,以动画形式展示不同天气条件。结果显示,新版 V3 生成的效果明显优于 R1。
记者实测:互动式网站生成体验
《每日经济新闻》记者测试了新版 V3 生成互动式世界风光网站前端的能力。DeepSeek 在 2 分钟内生成了一个包含日间/夜间模式切换、评论区、评分系统、收藏系统和社媒分享系统的网站。
“幻觉”问题:细节仍需改进
虽然整体完成度高,但在一些细节上,DeepSeek 仍存在“幻觉”问题。例如,在介绍马丘比丘时配上了不相关的图片,介绍长城时配上了故宫的图片。
行业展望与未来趋势
对 OpenAI 的潜在冲击
有国外网友认为,DeepSeek-V3 的提升对 OpenAI 来说是一场噩梦。
DeepSeek-R2 的发布预期
Artificial Analysis 认为,新版 V3 比 R1 更令人印象深刻,并可能表明 R2 将会是一次重大飞跃。Kcores 联合创始人也对 DeepSeek-R2 的发布表示期待。
开源推理模型的未来
有 AI 评论员认为,DeepSeek-R2 有望成为有史以来最重要的开源推理模型。如果 DeepSeek-R2 遵循 R1 的发布轨迹,它可能会对 OpenAI 的下一个旗舰模型 GPT-5 构成直接挑战。
本文 timi45.com 原创,转载保留链接!网址:https://www.timi45.com/post/1766.html
1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。
