生成式AI时乐鱼体育代亚马逊云科技如何助力企业全球化创新发展

2024-05-24

  “企业需要的是懂业务、懂用户的生成式AI应用,而打造这样的应用需要从数据做起。亚马逊云科技构建数据基座的三大核心能力涵盖从基础模型训练到生成式AI应用构建的重要场景,能够帮助企业轻松应对海量多模态数据,提升基础模型能力。”4月30日,在亚马逊云科技“无数据不模型生成式AI时代的数据基座”的媒体沟通会上,亚马逊云科技大中华区产品部总经理陈晓建强调了数据在生成式AI时代中的关键作用。

  陈晓建强调,在生成式AI的时代,数据的核心地位不容忽视。若企业欲在这个时代崭露头角,必须从数据这一基础出发,借助自身的数据资源构建具有商业竞争力的AI应用。

  陈晓建提出,企业应具备多方面的数据能力。首先,要有处理数据以进行模型微调和预训练的技术实力;其次,需有能力将专有数据与模型高效结合,从而创造出独特的商业价值;最后,企业还需拥有对新数据进行有效处理的能力,以推动生成式AI应用的持续快速发展。

  简而言之,企业应在数据处理、数据结合以及新数据应用等方面都具备强大的实力。

  生成式AI基础模型微调和预训练需要将海量的多样化原始数据转化为高质量的大数据集,这对数据存储、清洗和治理都提出了更严峻的挑战。

  在数据存储方面,扩展性和响应速度是关键。Amazon Simple Storage Service(Amazon S3)对象存储几乎是云上扩展性的代名词,它支持广泛的数据协议,能够轻松应对各种数据类型,还支持智能分层以降低训练成本。专门构建的文件存储服务Amazon FSx for Lustre则能够提供亚毫秒延迟和数百万IOPS的吞吐性能,能够进一步加快模型优化的速度。

  在数据清洗方面,企业面临着繁重的数据清洗加工任务,Amazon EMR Serverless和Amazon Glue可以帮助企业轻松完成数据清理、去重、乃至分词的操作,让企业专注于生成式AI业务创新。Amazon EMR serverless采用无服务器架构,帮助企业运行任何规模的分析工作负载,自动扩展功能可在几秒钟内调整资源大小,以满足不断变化的数据量和处理要求。Amazon Glue是一个简单可扩展的无服务器数据集成服务,可以轻松快速地完成微调或预训练模型的数据准备工作。

  在数据治理方面,企业难以在多个账户和区域中查找数据,也缺乏有效的数据治理工具。Amazon DataZone让企业能够跨组织边界大规模地发现、共享和管理数据,不但能够为多源多模态数据进行有效编目和治理,而且还提供简单易用的统一数据管理平台和工具,从而为用户解锁所有数据的潜能。

  这些服务不仅提供了强大的扩展性和快速响应能力,还通过无服务器架构和智能数据管理功能,大大降低了企业的运维成本和数据处理复杂度。更重要的是,它们为企业释放了更多的资源和精力,使其能够更专注于生成式AI的核心业务创新。在这个数据为王的时代,拥有高效、可靠的数据存储、清洗和治理解决方案,是企业走向成功的关键一步。

  亿邦动力获悉,生成式AI基础模型的局限性之一在于无法及时拥有企业专有数据,因此通过技术手段加速数据与模型的结合成为企业数据基座的第二项关键能力。

  检索增强生成(Retrieval-Augmented Generation,RAG)技术被普遍认为是实现数据与模型结合的主要途径之一,它通过将数据转换为向量并存储到向量数据库中,从而将语义的关联性转化为向量间的数学距离问题,以实现内容的关联性计算。现代应用程序需精准理解用户需求并正确关联产品或内容,这一需求广泛存在于搜索、评论、购物车及产品推荐等交互框架中,这些框架又依赖于功能各异的数据库,这使得数据库成为实施RAG技术的理想平台。

  亚马逊云科技将向量搜索的支持功能加入到主流的数据服务中,通过将数据和向量存储在一起来提升数据查询性能。这能够让企业轻松利用RAG技术将专有数据提供给基础模型,从而释放更大价值。此外,亚马逊云科技还为图数据库Amazon Neptune推出了分析数据库引擎,以结合图数据库与大模型的优势,从而能够快速从图形数据中获取洞察,并进行更快的向量搜索。

  实际上,通过采用检索增强生成(RAG)技术,亚马逊云科技成功地将数据与模型紧密结合,打破了生成式AI基础模型无法及时获取企业专有数据的局限。这一创新不仅提升了数据查询性能,还使得企业能够轻松地将专有数据融入基础模型,从而释放出更大的商业价。


本文由:乐鱼app官方网站提供