在人工智能领域,大模型一直扮演着至关重要的角色。随着数据量的增长和计算能力的提升,大模型越来越能够处理复杂的问题,提供高精度的预测和决策。而大模型领域也存在着典型的“飞轮效应”——即通过不断应用实现数据反哺,进而不断加快迭代速度。
面壁智能联合创始人、首席科学家刘知远在WAIC 2024 “模型即服务(Mass)加速大模型应用落地”论坛进行了《大模型时代的摩尔定律,迈入更高效的大模型时代》主题演讲。(封面新闻记者边雪拍摄)
在大模型发展的“下半场”,如何夯实算法、算力等底层技术,持续探索垂直应用场景,为各行业、企业应用大模型提供可资借鉴的实践案例?
在2024世界人工智能大会暨人工智能全球治理高级别会议(以下简称“WAIC 2024”)上,封面新闻注意到,云、端测大模型前沿技术及其落地应用场景与创新生态,成为深度聚焦的重点议题。
端侧大模型是指在终端设备上运行的大型模型,如手机、平板等。由于终端设备的计算资源有限,如何在保证精度的同时提高模型的效率,成为端侧大模型面临的挑战。
要做好端侧大模型,并不是一件容易的事情。在WAIC2024 “模型即服务(Mass)加速大模型应用落地”论坛上注意到,面壁智能发布新一代高效稀疏架构大模型MiniCPM-S。
同时,面壁智能开源了业内首个端侧大模型工具集“MobileCPM”,包含开源端侧大模型、SDK开发套件以及翻译、摘要等意图,可降低开发门槛,更灵活定制大模型App,帮助开发者提高集成大模型到APP的效率。目前,MobileCPM已默认集成MiniCPM-S,拉开 了端侧AI生态序幕,让任何开发者都可以通过更低的成本来轻松打造自己的SuperAPP。
实际上,大模型也有自己的“摩尔定律”。“如果说芯片制程会带来终端算力持续增强,模型制程也将带来模型知识密度的持续增长,那么两者交汇将揭示端侧智能的巨大潜力。”深耕端侧大模型的清华大学计算机系长聘副教授、面壁智能首席科学家刘知远认为,大模型时代会拥有自己的“摩尔定律”——即模型知识密度的持续增强。据观察,模型的知识密度呈现出每8个月提升一倍的规律。
未来高效大模型第一性原理的关键词便是知识密度,也就是每一次计算依托的参数规模所对应的能力消耗。刘知远表示:“如果拥有在端侧有限的算力、内存、能耗条件下,将知识浓缩到更小的参数规模中的能力,那么便可探寻大模型的高效成长规律。”
值得注意的是,商汤在升级发布商量SenseChat Lite-5.5版本之余,还积极推动端侧大模型研发,已支持在智能手机、平板电脑、VR一体机、车载电脑、智能台灯等多种IoT设备部署应用,并将每台设备的使用成本降低至仅需每年9.9元,以极致性价比、高可用性、超低门槛,加速大模型在端侧的规模化落地。
此外商汤还推出端侧模型矩阵,包括商量Mini写作助手、总结助手和百科助手等特化模型,专项模型在对应场景下性能更优,针对客户复杂业务场景选择或定制不同专项模型。
“现在端测模型其实是在把大模型的拼图拼得更完整,这是一块很重要的拼图。”面壁智能联合创始人、CEO李大海告诉封面新闻记者,端侧模型有很多好处,第一个是隐私安全,它的个性化各方面其实可以做得更好。“除此之外,未来有很多的场景,其实对终端的推理可靠性会有很高的要求,这些也是端侧非常好的落地方向。”
但在李大海看来,端侧大模型并不是所有,它只是其中一块拼图,“我们相信‘端’和‘云’协同在一起,才能够完整地把用户的所有需求满足好。很多和世界模型相关的请求,其实还是需要云来做的,不能让用户对于端侧有一个过高的预期,好像什么都能做,以后都不需要云了。”李大海解释道。
下一代通用人工智能模型会呈现出怎样的态势?其中之一,是类比人脑记忆与思考方式的记忆分层大模型。
封面新闻记者在会上注意到,目前,记忆分层的大模型已经在上海算法创新研究院实现。上海算法创新研究院大模型中心负责人熊飞宇也在会上发布了最新科研成果——忆³大模型(Memory³),该模型创新地引入了显性记忆机制,显著提高了性能并降低了训练与推理成本。
据熊飞宇介绍,忆³在传统的模型参数(隐性记忆)与上下文键值(工作记忆)之外,增加了第三种形式的记忆——显性记忆。模型无需训练即可将文本转换为显性记忆,并在推理时快速且稀疏地使用记忆。通过外部化模型存储的知识,显性记忆减轻了模型参数的负担,进而提高了模型的参数效率与训练效率,使基准测试上忆³能够实现约3倍参数量模型的性能。
2024年是大模型应用落地元。