Deepseek突破AI训练烧钱魔咒:1/525成本MT-Bench媲美GPT-4o

更新时间:2025-04-08 10:33:00

IT之家 4 月 8 日消息,深度求索(DeepSeek)联合清华大学,合作推出全新 AI 对齐技术 SPCT(自我原则点评调优),突破传统依赖海量训练数据的模式,通过推理阶段动态优化输出质量。

根据研究团队 4 月 4 日发表的论文,该技术通过“原则合成-响应生成-批判过滤-原则优化”的递归架构,让模型能在推理时动态修正输出。

SPCT 方法分为两个阶段。一是拒绝式微调作为冷启动阶段,让 GRM 适应不同输入类型并以正确格式生成原则与点评内容。二是基于规则的在线强化学习阶段,采用基于规则的结果奖励,鼓励 GRM 生成更好的原则与点评内容,提升推理阶段可扩展性。

测试中,270 亿参数的 DeepSeek-GRM 模型测试显示,通过每查询 32 次采样的推理计算,达到了 671B 规模模型的性能水平。这种硬件感知设计采用混合专家系统(MoE),支持 128k token 上下文窗口,单查询延迟仅 1.4 秒。

报告指出 SPCT 显著降低高性能模型的部署门槛,以 DeepSeek-GRM 模型为例,训练成本约 1.2 万美元(IT之家注:现汇率约合 87871 元人民币),MT-Bench 得分 8.35。

模型规模MT-Bench预估训练成本
DeepSeek-GRM27B8.35$12,000
Nemotron-4340B8.41$1.2 million
GPT-4o1.8T8.72$6.3 million

作为对比,340B 的 Nemotron-4 需 120 万美元获得 8.41 分。OpenAI 的 1.8T 参数 GPT-4o 虽得 8.72 分,但成本高达 630 万美元(现汇率约合 4613.2 万元人民币),而 DeepSeek-GRM 成本仅为 525 分之一。该技术减少 90% 人工标注需求,能耗较 DPO 降低 73%,为实时机器人控制等动态场景提供新可能。

相关推荐

微软Office六月更新惹祸,导致Outlook应用频繁崩溃

IT之家 6 月 14 日消息,科技媒体 borncity 昨日(6 月 13 日)发布博文,报道称微软于 6 月 10 日面向 Office 发布的更新,导致 Outlook 应用频繁崩溃。IT之家注:在 2025 年 6 月补丁星期二活动日中,微软面向处于支持状态的 Office,发布了六月更新

2025-06-14 12:13:00

南寒社区举行“童心永向党 阳光下成长”主题活动

  本报讯 在“六一”国际儿童节来临之际,南寒社区儿童之家于5月31日举行“童心永向党 阳光下成长”主题活动。活动将红色教育、廉洁文化、健康运动有机融合,为辖区儿童带来了一个充满意义与欢乐的节日。  活动中,社区党员志愿者化身“红色故事讲解员”,声情并茂地用经典小故事,将诚实守信、勤俭节约等价值观以

2025-06-02 06:55:00

不听人类指挥,OpenAI模型篡改代码、拒绝关闭

当地时间5月25日,英国《每日电讯报》报道,美国开放人工智能研究中心(OpenAI)公司新款人工智能(AI)模型o3不听人类指令,拒绝自我关闭。报道说,人类专家在测试中给o3下达明确指令,但o3篡改计算机代码以避免自动关闭。o3模型是OpenAI“推理模型”系列的最新版本,旨在为ChatGPT提供更

2025-05-26 18:11:00

禁止!事关所有中小学生!

近日,教育部基础教育教学指导委员会发布《中小学人工智能通识教育指南(2025年版)》(以下简称《通识教育指南》)和《中小学生成式人工智能使用指南(2025年版)》(以下简称《使用指南》)。小学阶段禁止学生独自使用开放式内容生成功能教师可在课内适当使用辅助教学初中阶段可适度探索生成内容的逻辑性分析高中

2025-05-26 09:49:00

小米15S Pro手机搭第四代影像处理器,三颗50MP徕卡影像镜头

IT之家 5 月 22 日消息,在目前正在进行的小米 15 周年战略新品发布会中,小米 15S Pro 手机的影像规格正式公布。IT之家获悉,该机配备三颗徕卡影像镜头,采用小米自研第四代影像处理器,每秒可处理 87 亿像素,内置实时多帧 HDR 处理,强调夜景表现。该机具体规格如下:50MP 徕卡主

2025-05-22 19:25:00