Deepseek突破AI训练烧钱魔咒:1/525成本MT-Bench媲美GPT-4o

更新时间:2025-04-08 10:33:00

IT之家 4 月 8 日消息,深度求索(DeepSeek)联合清华大学,合作推出全新 AI 对齐技术 SPCT(自我原则点评调优),突破传统依赖海量训练数据的模式,通过推理阶段动态优化输出质量。

根据研究团队 4 月 4 日发表的论文,该技术通过“原则合成-响应生成-批判过滤-原则优化”的递归架构,让模型能在推理时动态修正输出。

SPCT 方法分为两个阶段。一是拒绝式微调作为冷启动阶段,让 GRM 适应不同输入类型并以正确格式生成原则与点评内容。二是基于规则的在线强化学习阶段,采用基于规则的结果奖励,鼓励 GRM 生成更好的原则与点评内容,提升推理阶段可扩展性。

测试中,270 亿参数的 DeepSeek-GRM 模型测试显示,通过每查询 32 次采样的推理计算,达到了 671B 规模模型的性能水平。这种硬件感知设计采用混合专家系统(MoE),支持 128k token 上下文窗口,单查询延迟仅 1.4 秒。

报告指出 SPCT 显著降低高性能模型的部署门槛,以 DeepSeek-GRM 模型为例,训练成本约 1.2 万美元(IT之家注:现汇率约合 87871 元人民币),MT-Bench 得分 8.35。

模型规模MT-Bench预估训练成本
DeepSeek-GRM27B8.35$12,000
Nemotron-4340B8.41$1.2 million
GPT-4o1.8T8.72$6.3 million

作为对比,340B 的 Nemotron-4 需 120 万美元获得 8.41 分。OpenAI 的 1.8T 参数 GPT-4o 虽得 8.72 分,但成本高达 630 万美元(现汇率约合 4613.2 万元人民币),而 DeepSeek-GRM 成本仅为 525 分之一。该技术减少 90% 人工标注需求,能耗较 DPO 降低 73%,为实时机器人控制等动态场景提供新可能。

相关推荐

“十五五”电力展望:新型高耗能将取代传统高耗能拉动用电增长

新能源汽车、算力基础设施、可再生能源制氢为新型高耗能行业代表,新能源比例大幅提高推高系统成本亟须疏导文|《财经》记者 徐沛宇编辑|韩舒淋未来五年即“十五五”时期是中国实现碳达峰目标的关键五年,新型电力系统建设亦进入关键期。“中国电力系统正加速迈入以‘五高’(高比例新能源、高比例新市场主体、高比例电力

2025-08-14 14:38:00

智元发布首个世界模型开源平台

7月27日,由智元机器人主办的WAIC2025“智启具身论坛”在上海世博展览馆举行,智元机器人合伙人、具身业务部总裁姚卯青发布了行业首个面向真实世界双臂机器人的世界模型开源平台“Genie Envisioner”,简称GE,该平台融合了预测、控制、评测三大核心能力,为机器人从“看见”到“行动”提供了

2025-07-27 10:52:00

国内首个Agentic AI 基础设施服务平台发布,将“思考力”转化为“行动力”

7月26日,中国独立分布式云计算服务商PPIO在2025WAIC上重磅发布了国内首个Agentic AI基础设施服务平台,助力加速 Agent应用的快速开发和规模化落地。目前业内普遍将AI技术的落地应用称为Agent,即智能体,它拥有调用工具,与外部环境交互,分解任务并完成任务等能力。Agent是迈

2025-07-26 22:22:00

和讯投顾陈杰臻:牛市有四个阶段,初期可千万别轻易下车

7月20日,和讯投顾陈杰臻提醒,大家要明确,咱们这是在投资不是单纯炒股票。记住牛市有四个阶段,在牛市初期可千万别轻易下车,这个阶段哪怕再“咸鱼”的股票都有翻身机会。牛市前期,市场会先有一波劝涨行情,这时候起码等出现一轮恶补上涨后再考虑换板块。到了牛市中期,要紧紧盯住大票大蓝筹,像大科技这类板块,它们

2025-07-21 08:18:00

X平台将允许AI撰写社区注释

7月2日,X平台宣布允许开发者在本月晚些时候创建各类AIAgent机器人,用来撰写贴文下方的CommunityNotes社区注释。AI机器人首先需要“先赢得撰写注释的权限(具体如何获得暂未公布)”,后续机器人的社区注释权限会随着用户反馈而进一步开放或丧失。此外,相应机器人提交的社区注释只有在被多数人

2025-07-02 11:05:00