鞭牛士 11月30日消息,大模型时代,算力日益成为数字经济的新型生产力,作为算力的重要组成部分,存力的价值也日益凸显。近日,爱分析联合京东云发布《金融行业先进AI存力报告》。报告对金融机构布局大模型的存力需求做了深入剖析,报告提出,构建可用、可信、可控的先进存力,是金融行业落地大模型的必答题。
大模型时代算力“木桶效应”下,存力重要性凸显
大模型落地过程中,算力、数据和算法是三大支撑要素。在算力建设方面,企业普遍将注意力投向价格高昂、技术供给上有卡脖子风险的GPU,相比以GPU为代表的计算力,存力的重要性往往被忽视,但事实上,大模型必须依托由高性能计算芯片、存储和网络共同构成的大规模算力集群。
而算力集群存在“木桶效应”,如果存储和网络性能无法支撑大规模数据存储、读写和传输,高性能计算芯片也无用武之地,最终影响大模型训练效率。爱分析在报告中指出,大模型场景对于存力有着高吞吐、高IOPS、高带宽、低延时的极致性能要求。
首先,大模型训练数据数量多且大,一方面,以文档、图片、音视频等非结构化数据为主,文件数量在几亿到几十亿量级;另一方面,从纯文本的TB级到多种数据类型的PB级,需要存储系统支持高吞吐和大容量,同时支持多协议数据互通,让数据能快速在各个环节流转,避免数据等待产生算力闲置的情况。此外,大模型训练存储带宽的要求比电商业务顶峰时段高出几百甚至几千倍,存储性能的高低可能造成模型训练周期数倍的差异。
其次,大模型落地的成本问题是业界关注重点,千亿级别参数,动辄以月来计算的训练周期,对应到存储环节意味着巨大的成本,往往高达百万甚至千万级,做大模型有非常强的降本需求。
金融行业需要可用、可信、可控的AI先进存力
报告指出,在重视大模型能力建设的背景下,金融机构必须构建起坚实的智能算力基础设施,以支撑大模型的高效训练和部署。具体到存力方面,金融机构对于AI先进存力的需求可以总结为三方面:可用、可信、可控。
在可用方面,金融大模型场景对于存力有着高吞吐、高IOPS、高带宽、低延时的极致性能要求。在同样的GPU算力规模下,存储性能的高低可能造成模型训练周期数倍的差异,因此,存储系统需要具备千万级IOPS、GB级带宽、微秒级延时的极致性能,以提升GPU资源利用率。
在可信方面,先进存力需要满足金融行业合规要求,一方面要求存储产品100% 自研,核心技术完全自主可控;另一方面,要求破解国产硬件性能瓶颈,并与国产操作系统、数据库、中间件、服务器、CPU、主板、网卡、SSD等实现兼容适配。
在可控方面,金融机构在大容量、高性能存储系统软硬件本身的投入巨大,单次投入在数百万至数千万级别,因此,在满足功能与性能要求的前提下,存储系统需要能通过兼容和利旧低成本硬件、提升磁盘空间利用率等方式降低TCO。
京东云云海新一代存储平台,加速金融机构大模型落地
云海是京东云自研的分布式统一存储平台,从2012年开始启动研发,经过十余年的发展,基于新一代存储架构的京东云云海于2022年正式对外发布。
面向金融机构大模型场景,京东云云海分布式存储产品基于全自研的统一底座,具备高性能、强兼容性、低成本的优势,能很好地满足金融机构对于国产化和软硬件解耦的需求。目前,京东云云海分布式存储已服务数家头部商业银行和证券公司的大模型算力基础设施建设。
在性能方面,大模型训练的并行文件存储下,云海单文件系统支持千万级IOPS,上千台服务器同时并发访问;在国产适配方面,云海是京东100% 自研产品,核心技术完全自主可控,与主流国产化平台完成兼容互认。在成本方面,云海形成了低至1.1x副本的业内超低冗余的EC存储,并在生产环境成熟使用,大幅提升磁盘空间利用率。
在产业实践方面,某国有大行基于云海构建存力底座,大幅提升了大模型训练效率。在存储方面,云海可以很好地满足大模型训练的海量数据存储需求,此外,平台采用统一分布式存储的方式,有效解决了数据系统、AI平台、大模型应用三者数据高效流动的问题,从而达到降本增效。
报告在最后指出,面向未来,金融机构应当提升对存力建设的重视度,进行前瞻性的统筹规划,做好存力与计算力、网络的匹配,避免出现存力短板。云海作为京东云面向金融大模型落地构建的先进存力产品,将为金融机构数智基础设施建设提供坚实支撑。