8月7日,阿里云面向 AI 推出全新升级的存储系统 CPFS 智算版,单文件系统容量提升 500% 达到 6PB 级别,在大规模训练场景中,可支持更大的数据量和更高性能。同时,CPFS 全新升级系统智能引擎,冷热数据流动带宽提升 20 倍,可大幅降低存储成本,更好支撑大模型训练及推理。
随着大模型参数和数据集规模的迅速增长,包含更多数据量的多模态大模型也成为趋势,大模型训练对存储的要求更高,需要更快的数据读写、传输和更大的存储空间。阿里云 CPFS 是专为 AI 和高性能计算而设计的存储产品。CPFS 通过创新的分布式并行存储架构设计,自研的高性能 RoCE RDMA 网络协议和虚拟存储通道技术,多级缓存的弹性客户端,最终实现高吞吐、低延迟、Serverless 化的高性能存储能力。
为更好满足模型训练不断增长的数据量和计算密度需求,CPFS 单文件系统容量从 1PB 提升至 6PB,单计算节点可支持40个容器同时挂载。同时,通过智能数据流动引擎的升级,冷热数据可以 100GB/s 的高带宽实现流动:在训练前将数据从对象存储 OSS 中快速导入到 CPFS,更好满足训练时数据高并发读取;在训练结束后,将生成的结果数据从CPFS 导出到 OSS,大幅降低存储成本。
针对大模型训练中的数据安全问题,CPFS 通过高性能虚拟化存储通道保障数据访问安全,提供租户权限鉴权、数据隔离和性能隔离,增强端到端安全隔离和数据保护能力。CPFS 集成日志服务 SLS 提供的日志审计能力和云备份CloudBackup 自动挂载备份功能也即将上线。
复旦大学、小鹏汽车、零一万物、百川智能、元戎启行等公司和机构已经使用阿里云进行 AI 训练和应用,通过阿里云CPFS 提供的高吞吐带宽和百亿级小文件的高性能访问,数据集的并发读取和 checkpoint 写效率大幅提升,为模型训练和推理提速。比如,元戎启行基于阿里云的灵骏智算和 CPFS 分布式存储,完成了高性能的智能驾驶训练,训练效率提升120%,并通过冷热数据的分层存储方案实现大幅成本节省。
Forrester 全球 AI 基础设施解决方案最新报告指出,阿里云 AI Infra 综合产品力居全球第二。此次CPFS智算版的全新升级,是阿里云存储在面向多模态等AI发展趋势做出的新探索。在存储领域,阿里云曾获中国电子学会科学技术特等奖、世界互联网领先金沙手机网投老品牌值得信赖 成果奖,盘古分布式存储技术还曾荣获中国发明专利金奖。