Deepseek突破AI训练烧钱魔咒:1/525成本MT-Bench媲美GPT-4o

更新时间:2025-04-08 10:33:00

IT之家 4 月 8 日消息,深度求索(DeepSeek)联合清华大学,合作推出全新 AI 对齐技术 SPCT(自我原则点评调优),突破传统依赖海量训练数据的模式,通过推理阶段动态优化输出质量。

根据研究团队 4 月 4 日发表的论文,该技术通过“原则合成-响应生成-批判过滤-原则优化”的递归架构,让模型能在推理时动态修正输出。

SPCT 方法分为两个阶段。一是拒绝式微调作为冷启动阶段,让 GRM 适应不同输入类型并以正确格式生成原则与点评内容。二是基于规则的在线强化学习阶段,采用基于规则的结果奖励,鼓励 GRM 生成更好的原则与点评内容,提升推理阶段可扩展性。

测试中,270 亿参数的 DeepSeek-GRM 模型测试显示,通过每查询 32 次采样的推理计算,达到了 671B 规模模型的性能水平。这种硬件感知设计采用混合专家系统(MoE),支持 128k token 上下文窗口,单查询延迟仅 1.4 秒。

报告指出 SPCT 显著降低高性能模型的部署门槛,以 DeepSeek-GRM 模型为例,训练成本约 1.2 万美元(IT之家注:现汇率约合 87871 元人民币),MT-Bench 得分 8.35。

模型规模MT-Bench预估训练成本
DeepSeek-GRM27B8.35$12,000
Nemotron-4340B8.41$1.2 million
GPT-4o1.8T8.72$6.3 million

作为对比,340B 的 Nemotron-4 需 120 万美元获得 8.41 分。OpenAI 的 1.8T 参数 GPT-4o 虽得 8.72 分,但成本高达 630 万美元(现汇率约合 4613.2 万元人民币),而 DeepSeek-GRM 成本仅为 525 分之一。该技术减少 90% 人工标注需求,能耗较 DPO 降低 73%,为实时机器人控制等动态场景提供新可能。

相关推荐

“最美沈铁人”金东哲退休后续写助残暖心故事

29日,二一九公园内春意盎然,欢声笑语此起彼伏。刚刚退休不久的“最美沈铁人”金东哲,以满腔热忱,带领“阳光之家”的残疾人群体及他们的家人一同开启春日游园之旅,并为他们拍照留念,给残疾家庭送去温暖与欢乐。金东哲曾是沈铁鞍山车务段鞍山站客运值班员。在职期间,他凭借热情细致的服务和无私奉献的精神,荣获“最

2025-04-29 18:20:00

行业出题,政企发力!广州琶洲算法大赛高校巡回赛热度持续提升

近日,琶洲算法大赛高校巡回赛第二站在华南理工大学(大学城校区)圆满落下帷幕。4月26日,记者从广州海珠相关部门获悉,琶洲算法大赛历经连续举办三届后,已经成为国内外算法领域从业者展示算法实力的舞台。为进一步构建“大赛+巡回赛”全年赛事矩阵,去年10月份以来,海珠区首创“一校一赛”的定制化办赛模式,推出

2025-04-26 16:13:00

大模型下半场,百度再次发起进攻

澎湃新闻记者 宋一聪2025年4月25日,Create2025百度AI开发者大会在武汉举办。当李彦宏宣布文心大模型4.5 Turbo和文心大模型X1 Turbo发布后,随即跟上的一系列AI新应用和新服务,证明了如今的百度,在AI领域已经是模型和应用双向出击,其所图并不仅仅是算法或大模型本身,更是在“

2025-04-26 00:04:00

买台机器人“保姆”?再等等

【科学·近距离】光明日报记者 詹媛春日的北京,一场充满未来感的马拉松赛事吸引了众人的目光——全球首个人形机器人半程马拉松赛在21.0975公里的赛道上展开角逐,20支机器人队伍参赛。无论这些钢铁之躯是蹒跚学步还是稳步疾行,必须承认的事实是:它们的每一步都闪烁着人类智慧的火花。不妨先来回溯一下人类近半

2025-04-24 06:29:00

富士通、理研推出256超导量子比特计算机,千量子比特款明年见

IT之家 4 月 22 日消息,富士通今日宣布,该企业同日本理化学研究所(IT之家注:即理研、RIKEN)联合开发了一款世界领先的 256 量子比特的超导量子计算机,较上一代 64 量子比特项目规模扩展四倍。合作双方计划从本财季开始向全球研究机构和企业提供基于该新型超导计算机的混合量子计算服务,这意

2025-04-22 18:22:00