自ChatGPT发布以来,各类大模型及生成式人工智能应用层出不穷,全球掀起了新一轮人工智能产业发展浪潮。产业链各个环节亦受益于生成式人工智能的快速发展,进入新一轮上行周期。人工智能产业链可分为基础层、技术层、应用层。其中,基础层包含数据、算力、算法三大核心,技术层主要包含计算机视觉与模式识别、自然语言处理、类脑算法、语音技术、人机交互等,应用层则包含所有与传统应用结合形成的产业种类。
1)萌芽期(1950-2005),以CNN为代表的神经网络模型出现,1980年CNN的雏形诞生,1998年LeNet-5为深度学习奠定了基础;2)探索期(2006-2019),2013年Word2Vec和2014年GAN的诞生推动了深度学习的发展。2017年,Google的Transformer架构为大模型预训练提供了新方向。2018年,GPT-1和BERT的发布标志着预训练大模型成为主流;3)成长期(2020至今),2020年GPT-3的推出,以其巨大的参数规模和性能提升,引领了预训练大模型的新浪潮。随后,ChatGPT和GPT-4的出现,展示了大模型在多模态理解和内容生成方面的进步,打开了AI模型能力的“上限”,进一步推动技术发展以实现通用人工智能AGI。
当前大部分主流大模型均基于Transformer架构,简单来讲Transformer模型以Encoder-Decoder架构为基础,能够并行处理整个文本序列,同时引入“注意机制”,使其能够在文本序列中正向和反向地跟踪单词之间的关系,适合在大规模分布式集群中进行训练,因此具有能够并行运算、关注上下文信息、表达能力强等优势。
同时,研究人员也在不断探索新的模型架构,以进一步提高模型计算效率,提升模型性能,降低推理成本。MoE混合专家模型(Mixture of Experts)就是当下较为热门的研究领域之一。1991年,Michael I. Jordan、Robert A. Jacobs等学者首次提出MoE架构,奠定了每个数据样本被不同专家模型处理的基本思想。2021年,在Google的Switch Transformer 论文中,研究人员将MoE思想与Transformer模型融合,由MoE层替换Transformer模型中的前馈神经网络(FFN)层,大幅提高计算效率和模型性能。
MoE模型主要由门控模型和专家模型两个核心部分组成。其中,门控模型决定将任意token发送到某个或某些个专家模型进行处理,而每个专家模型作为独立的神经网络,负责处理输入数据产生输出,并根据门控模型计算出的权重进行加权组合,生成最终结果。相较于传统架构,MoE架构主要有三大优势:1)每个专家模型都是独立的神经网络,可以针对不同数据或领域进行训练,并依靠门控网络激活最佳专家模型,面对复杂任务时,具备准确性与灵活性;2)相较传统稠密模型,MoE根据输入数据的特点只激活部分专家模型对输入进行处理,从而实现稀疏性,大幅提升预训练及推理速度;3)与相同规模稠密模型相比,由于MoE的稀疏性,其训练及推理成本均显著降低。
目前,海内外大模型厂商均在不断加速模型迭代。海外大模型玩家主要包括OpenAI、Google、Meta、xAI等,而国内玩家则包括昆仑万维、百度、智谱、月之暗面等。
大模型的加速迭代同样也加快了AI在各行业的应用落地,助力产业实现数字化、智能化转型发展。目前,大模型的应用领域可以简单分为四类,即工具型应用、通用软件、行业软件和智能硬件。工具型应用主要面向C端用户,包括聊天机器人、搜索引擎和内容生成应用(如文本、图像、视频、代码、3D模型)。通用软件包括如办公软件和企业服务软件等,AI智能助手(如Office 365 Copilot、lesforce Einstein)是其中的典型产品形态。
行业软件则涉及金融、医疗、教育等多个垂直领域,如Bloomberg的金融大模型和Meta的蛋白质大模型ESMFold等。智能硬件则包括AI手机、AI电脑、智能汽车、机器人等。生成式AI与智能硬件结合当前主要体现在语音助手和智能体上。语音助手已广泛应用于各类智能终端,而智能体如自动驾驶和智能机器人在感知和决策能力上还有待提升,未来发展空间广阔。
近年来,为帮助我国人工智能产业健康有序发展,国家陆续出台包括《关于加快场景创新以人工智能高水平应用促进经济高质量发展的指导意见》、《互联网信息服务深度合成管理规定》、《中央 国务院关于构建数据基础制度更好发挥数据要素作用的意见》、《生成式人工智能服务管理暂行办法》等一系列政策法规,从制度上为我国人工智能产业奠定了坚实的发展基础。截至2023年。