AI推理算力将长期处于“云端为主”的状态,这个“长期”至少是三到五年,绝大部分生成式AI推理,包括文字和图片生成任务,仍将上传到ChatGPT的数据中心,在云端完成。
如果连苹果等顶级手机开发商都做不到推理算力的“端侧化”,那么其他手机厂商就更做不到了。PC端可能比移动端的进展稍微好一点,但是在可见的未来,大部分AI PC(包括桌面工作站)仍将基于英伟达的桌面级显卡,而且只能执行参数规模相对较小的(蒸馏后的)大模型推理。无论从技术角度还是成本角度考虑,大模型及应用开发商都会更乐意在云端即数据中心完成大部分推理任务。资本市场再次认识到了这一点,所以WWDC举行之后,苹果股价跌而英伟达股价涨,一涨一跌说明了许多内涵。
国内AI算力紧缺的问题,不可能通过发展所谓“端侧算力”的方式去解决。自从2022年11月底ChatGPT横空出世以来,国内AI算力几乎始终处于紧缺状态,这是由下列因素共同决定的:
我们知道,AI大模型所需算力分为训练和推理两种,前者的要求更高一些;国内的现状则是两种算力都缺乏。如果没有云游戏,国内推理算力的瓶颈将更加严重。
据自媒体“怪盗团”分析介绍:“长期、严重的算力瓶颈,给国内AI产业带来了两个深刻影响。首先,算力紧缺意味着算力价格高昂(无论以自购显卡还是租用的形式),国内所有大模型厂商的售价均无法覆盖训练+推理成本,有些甚至无法覆盖边际推理成本,卖一单亏一单(最近一波降价之后可能亏的更严重)。其次,国内大部分算力集中在少量科技大厂手中,创业公司高度依赖它们,十分渴望它们以算力的方式投资入股。 结论就是大模型创业在国内是一门非常差的生意。”
接下来我们算一下账:如果按照扎克伯格所谓的“H100等效算力”,国内的储备肯定不超过六位数,而仅仅Meta一家的“H100等效算力”就已经超过了30万张,2024年底将突破65万张,远远超过了国内所有大厂的算力储备之和(暂且我们不算卡脖子的细账)。
专业人士都分析过,国产替代不是技术壁垒,而是成本壁垒,这里规模经济规律是起作用的;特别是训练卡是以服务器(训练机)为单位出售;无论在理论上还是实践中,只要英伟达愿意认真执行芯片禁令,就是很难绕过的。虽然英伟达肯定愿意多卖几个客户、开拓中国市场,但现在它的显卡反正不愁卖,短期内也不可能主动承担破坏禁令的风险。
所以,端侧算力不足,可能最终出路还在云侧,而云侧算力最好的方式就是作为提供基础设施类的公共服务能力,换句话说,就如同电力作为公共服务能力可能主要由国家建设实施,民间投资建设为辅。
(完)
参考:
核聚变能源
工程院院士郑新纬定义“新算力”区别于传统算力
文心一言:算力的指标性意义
美国致力于维持全球科技霸主地位:人工智能位于其科技版图的核心