联发科无线通信事业部生态发展资深总监章立在一场开发者大会上对记者表示,有大模型厂商已看到,从App应用走向大模型应用生态,到了要向云端芯片、终端芯片要算力的阶段。
近日,联发科对外推出了“天玑AI先锋计划”,并提供了相关的开发者解决方案,以支持大模型厂商在端侧AI的技术落地和端侧生成式AI应用创新。在章立看来,未来一段时间,生成式AI和芯片是强相关的。
过去一年,随着生成式AI从云端走向终端,像联发科这样的芯片公司开始嗅到了更多的机会。他们逐步发现,除了手机厂商外,更多的大模型企业也开始直接与芯片公司从底层展开合作,以解决算力成本在端侧的覆盖问题。
不同于云端的大型服务器集群,智能终端过去受限于小型化,算力有限,但独特优势则在于有更好的隐私性。业内逐渐看到AI手机、AI PC、智能汽车等端侧AI场景的潜力,更重要的是,当大模型装进手机里时,大模型企业可以通过本地化部署AI,绕开昂贵的云端运算成本。
但手机端可运行的大模型目前多在70亿参数左右,可支持的大模型应用场景还受限,爆款AI应用要爆发还需端侧的算力和生态支持。联发科之外,业内也在探索适合端侧运行的小型化模型。
有消息称,ChatGPT每天需响应超2亿次请求,耗电量可能超每天50万千瓦时。一名大模型应用厂商高管也告诉记者,Sora至今不向公众开放使用,主要原因很可能就是运算成本太高。
相比之下,运用分散的端侧算力,在手机、电脑等个人持有的终端设备上运算而不依赖于联网,被认为可以替代部分云端算力,减轻用户使用大模型服务的算力成本。但大模型参数量较大的特点,使算力要求颇高,这正是手机等终端受限之处。目前,联发科和高通移动芯片最高都可支持上百亿参数大语言模型运行,而云端运行的主流大模型动辄上千亿参数。
“现在手机算力可支持70亿参数大模型,再往上可能就是100多亿参数。”有芯片业内人士告诉记者。
以手机为代表的端侧目前不适合搭载很高算力芯片的一个原因是功耗。安谋科技产品总监杨磊指出,PC、平板电脑、手机、智能眼镜大多由电池供电,功耗和容量决定设备续航时长,而一张高性能GPU动辄功耗数百瓦,更适合云端使用,一般手机功耗不超过10瓦。
算力有限的情况下,端侧搭载大模型面临多重挑战。联发科无线通信事业部副总经理李彦辑告诉记者,大模型厂商希望在端侧高效运行大模型,但面临两类问题。一是运行效率,包括耗电量和速度,二是内存占用可能过高。直接把云端训练好的模型放到手机端将会遇到以上问题,大模型厂商对这些优化方案很在意。
“跟大模型厂商合作时有很多困难。比如,把7B(70亿)、13B的模型装到手机这么小的设备里是很大的挑战,必须通过我们的开发套件中的Neuron Studio做量化、压缩,做出最佳和最小的网络结构。” 联发科无线通信事业部技术规划总监李俊男告诉记者。
基于算力需求,芯片厂商与大模型厂商走得更近了。“缺乏芯片的支持,在端侧或云侧都会面临同样的挑战。”章立告诉记者,大模型应用会趋于从芯片底层出发,发掘打造移动平台用户新体验的可能。
记者了解到,目前端侧算力是限制大模型应用落地手机的一个原因。“目前手机端侧AI的功能还比较有限,可支持修图,但在断网的情况下进行大模型语音对话还不太行。图片类的模型不需要很大参数,语音类的更大。”以上芯片业内人士告诉记者。
章立则告诉记者,端侧爆款应用将会出现,而这跟芯片制程与能力关系并不绝对。原本大家觉得手机似乎卷不动了,App厂商似乎无所适从,因为过去规则已形成,竞争关系、流量比较收敛,很多开发者没有新机会。生成式AI则给了开发者更多工具。技术带来用户体验创新,这种情况下不需担心爆品会否出现,只是无法确定何时出现。
要促使AI应用在手机等端侧落地,大模型应用向芯片要算力是一个层面,提高端侧整体算力和小模型表现效果是另外两个层面。业内展望手机算力还会进一步提高。
杨磊认为,旗舰手机芯片算力可达40~50TOPS,中档手机算力10~20TOPS,入门级手机未专门配备AI能力,预测随着半导体技术演进,旗舰手机算力水平有望达100TOPS,入门级手机将提升至5~10TOPS,两年后手机都有望具备本地部署AI大模型的硬件计算能力。
今年4月Meta发布Llama 3系列的两个开源大模型,参数量分别是8B和70B。猎豹移动董事长兼CEO傅盛表示,小参数模型Llama 3 8B的表现比上一代大参数Llama 2 70B更好,这印证了小参数模型的能力会快速提升。新浪微博新技术研发负责人张俊林也认。