当前位置 爱咖号首页 DeepSeek演绎模型训练“低成本”神话后,全球头部云厂为何还要增加算力投入?

DeepSeek演绎模型训练“低成本”神话后,全球头部云厂为何还要增加算力投入?

丁少将 2729浏览 2025-04-03 IP属地: 未知

尽管具体的相关话题不断变化,但对Deepseek的讨论至今热度不减,不知道你家楼下小饭馆的老板,是不是也在考虑用DeepSeek来换新自家二十年没有变过的菜单?


当然,话题变迁的路径依旧清晰可见,从人工智能业内开始、从专业人士开始、从对“低成本”的惊叹开始。


丁科技网注意到,一个有意思的现象是,DeepSeek的出现虽然演绎了低成本神话,看起来是对规模定律的打破,站在AI创新背后、提供基础设施的云厂商们也都在积极拥抱他,但于此同时,全球头部云厂,对算力的投入看起来非但没有减少,反而还要继续增加。


(截图自DeepSeek | 深度求索)


从公开的信息来看,特别是作为全球“一哥”和中国“一哥”的两家:


亚马逊计划在2025年投入1000亿美元,主要用于云业务,作为主要载体的应当依旧是从2024年以来明显加码AI领域的亚马逊云科技;阿里巴巴计划在未来三年投入535亿美元,用于云和AI硬件基础设施,这据说超过过去十年的总和。


另外,从公开的信息看,微软、谷歌也计划增资。比如,微软提到的AI算力产能有限,因此在加大投资力度;谷歌也提到增加AI产品产能。


就丁科技网的理解,这背后可能有如下几点原因:


先就DeepSeek角度来看,“低成本”可能不是事实的全部。


通常被关注的信息是,DeepSeek-V3以不到OpenAIGPT-4o模型的训练成本的十分之一(大约是558万美元),实现了接近的性能。不过,同时需要注意的是,DeepSeek在V3模型技术报告中指出了一个事实,就是“558万美元不包括与架构、算法或数据相关的前期研究和消融实验的成本”。也就是说,约558万美元的金额,属于净算力成本。


如果从更长的时间线来看,DeepSeek母公司幻方量化在2019年的深度学习训练平台“萤火二号”搭载约1万张英伟达A100显卡,这在当时已经算“先进”了。


所以,一些可见的专业解读认为,DeepSeek给到行业最大的意义是算法创新提高了资源的利用率,而不是颠覆掉通过增加算力提升模型性能的现有规律,另外就是开源实现的友好性。


再从全球头部云厂角度来看,应该有三点诉求。


其一是推出更多可能更好的模型。不难发现,在DeepSeek看起来横空出世之后,同样作为模型大厂的全球头部云大厂基本都在对标,大有加快创新节奏的感觉,DeepSeek很像是在带来“鲶鱼效应”。全球头部云厂在尝试推出更多可能更好的模型,来应对之后的风险,为可能的竞争持续加码。


在丁科技网看来,这里还有三个细节原因,一是,DeepSeek模型并不算是全面领先;二是,全球头部云大厂大概率也有规模定律未失效的判断;三是,多模型应用才是客户在现实中解决问题时的常态,这代表依然有很多未被看到的机会。


DeepSeek用相对少的资源、更创新的算法以及开源的态度赢得了关注,那么如果是创新算法、开源再加上更为丰富的算力和训练参数呢?在丁科技网看来,云大厂们没理由不这么想。


其二是应对对后续AI应用可能更大爆发的支持。去年以来有算力成本下降的趋势,以阿里云为代表,在持续推动云服务降价、大模型降价,受益于此,一方面是AI应用更多出现,另一方面是AI应用的能力持续增强,随之而来的是AI应用用户增加,那么,对算力的消耗其实应该是会明显增加的。


其三是对相关服务使用的支持。从趋势来看,更多企业会将模型从应用实践推向真实生产,这就不仅涉及模型本身,还会涉及大量云服务的相关算力支持。(丁科技网原创,转载务必注明“来源:丁科技网”)

文章标签:
技术解析
 
相关推荐
丁少将 0粉丝    148作品 关注 科技老司机,飙车不翻车
推荐作者
汽车鉴闻 关注
汽车媒体技术编辑 汽车售前售后事儿,用车养车百家通
R视觉 关注
资深汽车摄影师、喜欢用视觉的角度来诠释一台车的魅力。
汽车新说 关注
一个有关于汽车的漏网之语,正在一本正经的胡说八道。
予墨Auto 关注
跟我们一起慢慢懂车!
新车部落 关注
与新车部落一起玩转汽车行业!
SCC超跑俱乐部 关注
SCC超跑俱乐部
开老表改车 关注
开老表,日常汽车改装工作分享:通风座椅、氛围灯、汽车音响等。
华南车市资讯 关注
立足华南区域,打造本地化的汽车资讯,接地气的专业汽车报道。
全部爱咖号