当前位置 爱咖号首页 DeepSeek演绎模型训练“低成本”神话后,全球头部云厂为何还要增加算力投入?

DeepSeek演绎模型训练“低成本”神话后,全球头部云厂为何还要增加算力投入?

丁少将 2729浏览 2025-04-03 IP属地: 未知

尽管具体的相关话题不断变化,但对Deepseek的讨论至今热度不减,不知道你家楼下小饭馆的老板,是不是也在考虑用DeepSeek来换新自家二十年没有变过的菜单?


当然,话题变迁的路径依旧清晰可见,从人工智能业内开始、从专业人士开始、从对“低成本”的惊叹开始。


丁科技网注意到,一个有意思的现象是,DeepSeek的出现虽然演绎了低成本神话,看起来是对规模定律的打破,站在AI创新背后、提供基础设施的云厂商们也都在积极拥抱他,但于此同时,全球头部云厂,对算力的投入看起来非但没有减少,反而还要继续增加。


(截图自DeepSeek | 深度求索)


从公开的信息来看,特别是作为全球“一哥”和中国“一哥”的两家:


亚马逊计划在2025年投入1000亿美元,主要用于云业务,作为主要载体的应当依旧是从2024年以来明显加码AI领域的亚马逊云科技;阿里巴巴计划在未来三年投入535亿美元,用于云和AI硬件基础设施,这据说超过过去十年的总和。


另外,从公开的信息看,微软、谷歌也计划增资。比如,微软提到的AI算力产能有限,因此在加大投资力度;谷歌也提到增加AI产品产能。


就丁科技网的理解,这背后可能有如下几点原因:


先就DeepSeek角度来看,“低成本”可能不是事实的全部。


通常被关注的信息是,DeepSeek-V3以不到OpenAIGPT-4o模型的训练成本的十分之一(大约是558万美元),实现了接近的性能。不过,同时需要注意的是,DeepSeek在V3模型技术报告中指出了一个事实,就是“558万美元不包括与架构、算法或数据相关的前期研究和消融实验的成本”。也就是说,约558万美元的金额,属于净算力成本。


如果从更长的时间线来看,DeepSeek母公司幻方量化在2019年的深度学习训练平台“萤火二号”搭载约1万张英伟达A100显卡,这在当时已经算“先进”了。


所以,一些可见的专业解读认为,DeepSeek给到行业最大的意义是算法创新提高了资源的利用率,而不是颠覆掉通过增加算力提升模型性能的现有规律,另外就是开源实现的友好性。


再从全球头部云厂角度来看,应该有三点诉求。


其一是推出更多可能更好的模型。不难发现,在DeepSeek看起来横空出世之后,同样作为模型大厂的全球头部云大厂基本都在对标,大有加快创新节奏的感觉,DeepSeek很像是在带来“鲶鱼效应”。全球头部云厂在尝试推出更多可能更好的模型,来应对之后的风险,为可能的竞争持续加码。


在丁科技网看来,这里还有三个细节原因,一是,DeepSeek模型并不算是全面领先;二是,全球头部云大厂大概率也有规模定律未失效的判断;三是,多模型应用才是客户在现实中解决问题时的常态,这代表依然有很多未被看到的机会。


DeepSeek用相对少的资源、更创新的算法以及开源的态度赢得了关注,那么如果是创新算法、开源再加上更为丰富的算力和训练参数呢?在丁科技网看来,云大厂们没理由不这么想。


其二是应对对后续AI应用可能更大爆发的支持。去年以来有算力成本下降的趋势,以阿里云为代表,在持续推动云服务降价、大模型降价,受益于此,一方面是AI应用更多出现,另一方面是AI应用的能力持续增强,随之而来的是AI应用用户增加,那么,对算力的消耗其实应该是会明显增加的。


其三是对相关服务使用的支持。从趋势来看,更多企业会将模型从应用实践推向真实生产,这就不仅涉及模型本身,还会涉及大量云服务的相关算力支持。(丁科技网原创,转载务必注明“来源:丁科技网”)

文章标签:
技术解析
 
相关推荐
丁少将 0粉丝    235作品 关注 科技老司机,飙车不翻车
推荐作者
弯道看车 关注
资深车评人,前《深圳特区报》汽车部主任
阿飞频率 关注
喜欢车爱聊车,喜欢把自己的爱好跟大家分享。
大内密探零零车1 关注
汽车媒体从业14年,记者,中汽联车手,爱卡十年工作经历,超卡
闫闯说车 关注
闫闯说车团队会给大家带来最新,最全面的车型评测视频敬请关注。
玩车专家V 关注
有关汽车一切玩法尽在其中,带你领略不一样的汽车新体验!
来试车 关注
汽车视频自媒体 试驾评测 汽车工作的Vlog 每周持续更新
悦行江西 关注
和你分享有趣、新鲜和汽车有关或无关的事!
靓车大咖会 关注
了解最新汽车资讯,汽车养护知识
全部爱咖号