大模型深挖数据要素价值：算法、算力之后，存储载体价值凸显- 工业快报

存储之轮，

如何推动大模型加速前进？

文 | 智能相对论（aixdlun）

作者 | 叶远风

18.8万亿美元，这是市场预计2030年AI推动智能经济可产生的价值总和，其中大模型带来的AI能力质变无疑成为重要的推动力量。

大模型浪潮下，业界对AI发展的三驾马车——算力、算法、数据任何一个维度的关注都到了全新的高度，避免“木桶效应”成为大模型发展首要考虑的问题。

而在这个过程中，业界对“数据”的关注，往往集中在“量”+“质”上，更庞大的数据量与更高的数据质量能推动大模型有更好的训练与应用效果，已经成为共识。

但是，随着大模型创新对数据需求越来越复杂，单单关注数据的“量”+“质”已经不够，能够承载数据、满足大模型需要的存储，同样值得大模型领域从业者关注。

在刚刚举办的华为全联接大会2023（HC 2023）上，华为方面系统介绍了其存储解决方案如何解决大模型训练与应用痛点、支撑大模型创新进程。

华为的动作，从数据维度全景展示了大模型发展的本质——“数据要素”大开发，以及存储创新如何为这种本质提供力量，帮助大模型从业者更好地掘金智能经济时代。

大模型时代即是数据要素时代，

存储作为载体的价值彰显

毫无疑问，大模型对算力、算法、数据的需求都在急速提高。

市场研究统计，过去五年，大模型参数增加2000倍，所需计算能力增加5万倍，对数据存储需求增加10万倍，连带网络带宽需求增加8000倍。

大开大合大需求，需要大设施、大投入。

但是，如果从创新的视角来看，实际上无论是算法还是算力的提供，其难度都在下降或者说收敛。

在很多企业都头疼的算力上，虽然需要的量很大，但无非都来自于英伟达、昇腾等GPU硬件资源，是一件主要依赖成本投入的事。换句话说，只要有足够多的预算，算力资源就能供给上来。

在算法端，虽然各大厂商不断调优迭代，但总体上都在采用Transformer模型基础架构，基于Pytorch、TensorFlow、MindSpore等主流开发框架开发，是逐渐收敛的。

这时候，压力来到了数据这里。

随着大模型深入发展，在总量上，数据需求早已从TB级跃升到PB级，需要的“池子”越来越大；而同时，对数据类型的需求又极大丰富，单一文本的模态之外，图片、视频、语音等多模态数据爆发，数据需求越来越复杂，这些都考验着存储的承载力，以及如何在训练、应用过程中更好地与算力、算法协同工作。

这期间，诸多难题出现，等待存储攻克，主要包括：

小文件读取性能。大模型在数据需求上以图片文本等海量小文件为主，单台AI服务器每秒能够读取2万多张图片，这往往会导致数据加载效率低（类似于个人PC上的复制动作，同等空间下，内含大量小文件文件夹会比单一大文件要慢很多），影响大模型的训练效率。此时，海量小文件性能就成为瓶颈，万亿参数大模型的基础要求已经达到1000万IOPS。

CheckPoint断点续训。大模型训练过程中出于参数调优等各种需求，会在不特定时间点中断形成CheckPoint，后续再启动继续训练（需要时间，形成GPU资源利用的空档）。这是一种对长时间训练的模型非常友好的能力，但企业频繁参数调优往往会造成GPU利用率降低（目前业界通常平均每二天就会中断一次，GPU利用率只有40%），需要存储具备很强的大文件读写性能，才能减少GPU等待时间、提升昂贵资源利用效率。

“AI幻觉”问题。大模型输出结果“胡编乱造”，与事实明显冲突的现象是业界十分头疼的问题，这种大模型自以为是的现象称作“AI幻觉”。看起来这是算法上的问题，但实际上，业界在探索中逐渐发现，它的解决需要的是在数据层面不断“求证”（主要是参考上下文信息），本质上要求存储能够提供一个类似于“百科词典”的知识体系，来作为大模型的“海马体”提供准确的行业知识。

可以看到，在创新层面，解决大模型在存储上面临的挑战，可能要优先于算力和算法。

这一点，其实也让大模型进一步回归到本质上，即以参数量更大的AI模型进一步挖掘数据要素的价值，推动千行百业实现转型升级。

现在，数据要素已经作为数字经济和信息社会的核心资源，被认为是继土地、劳动力、资本、技术之后的又一重要生产要素，包括大模型在内的无数创新，都是在围绕数据要素进行价值深度开发。

大模型的发展过程，可以看作是数据要素不断从原始走向价值输出的过程。

这一过程中，算法在前方引导方向、走向通用或具体行业，澎湃的算力带来强劲的推动力，而存储则提供支撑与协同能力。当算力主要依赖成本投入、算法逐步收敛，存储作为数据要素载体的创新价值就越来越凸显。

让数据要素价值落地，

华为存储多维度出击解决痛点问题

如何解决存储面临的挑战，华为高性能知识库存储OceanStor A800产品与对应解决方案在面向行业模型训推场景拥有全面领先的训推效率，总体而言有四大特点：

1、极高的整体性能，匹配大模型训练需要

华为存储首要解决的是在整体性能上满足大模型对训练数据的庞大需求，尤其是对小文件读取性能的需求。

OceanStor A800基于创新数控分离架构，单框IOPS能够达到2400万，训练集加载效率是业界的4倍，而且可以根据客户需求实现性能线性扩展。此外，OceanFS分布式文件系统实现全局均衡打散，消除了CPU瓶颈，能带来海量小文件性能的极致提升体验，满足大量小文件读取需求。

只要有性能需要，尽管“往上加”，华为存储都“扛得住”。

2、特殊能力优化，满足断点续训等特定需要

断点续训等特殊情况下如何更好地提供支撑，是华为存储在大模型训练阶段要同步应对的挑战。

通过盘控协同、NFS+并行文件系统，华为存储实现了单框500GB/s超高带宽，能够做到CheckPoint的超快恢复，断点续训恢复速度是业界3倍，TB级CheckPoint读写实现从小时级到分钟级的跨越（即万亿参数大模型平均恢复时间小时级提速到分钟级），减少昂贵的GPU等待。

只要是优化大模型需要的，客户都能够更加大胆地进行参数调优等操作。

除此之外，其管控面拥有资源分区+统一调度能力，还能够让存储适合不同的业务模型。

不管客户面向什么业务模型进行开发，不管客户在过程中选择在什么时候暂停，华为存储都能更好地应对。

3、响应能力强化，满足大模型应用的实时需求

训练阶段完成后，华为存储要做的，是在应用阶段满足严苛的数据响应需要。

目前，在大模型应用阶段，得益于内置了向量知识库（以向量的形式储存行业知识），华为存储的QPS达到了25万+，已经能够实现毫秒级响应，一方面能够加速推理，使得应用过程中的GPU资源消耗大大减少，有效节约了落地成本——当前很多大模型在开放应用阶段的资源消耗十分巨大，有些企业已经不堪重负；另一方面“百科词典”使得大模型更具准确的行业知识，对减少AI幻觉产生起到重要的支撑作用，能大大提升推理的精度。

4、架构创新，保障整体系统的稳定可靠

对存储最后一个也是最基本的要求是，无论具备什么样的特性，都要保证稳定可靠的整体结构，不发生安全问题、不“掉链子”。

华为存储解决一系列大模型数据痛点需求的过程，某种程度上也增加了存储方案与体系的复杂性，但与此同时，华为并没有牺牲系统的可靠性，其创新的全互联AA架构，能够实现5层全方位保护与6个9的超高可靠。

由此，大模型的数据可靠性及训练稳定性实现了端到端的保障。

造轮者，

先行久远路途

华为存储能够解决大模型数据痛点问题，根源在于其长期以来在存储上的创新探索。

OceanStor A800的数控分离架构，就利用了业界前沿的数据读写直通到盘的技术创新，让数据面直通到盘，与控制面分离，实现IO直通，从而减少数据读写时CPU的运算，大大提升存储性能。

实际上，华为长期以来在存储上进行技术耕耘，已经取得了颇多类似的前沿创新成果。

目前，华为OceanStor存储在全球拥有12个研发中心、4000+研发人员、3000+专利，产品涉足高性能NAS存储解决方案、存储防勒索解决方案、容器存储解决方案、数据中心虚拟化等多个领域，获得了广泛好评。

在全球150多个国家，华为存储已经服务了包括运营商、金融、政府、能源、医疗、制造、交通等行业在内的25000+客户。

可以说，为数据要素价值开发、为大模型创新需求量身定制的存储能力，是华为长期以来在存储赛道上深耕的必然结果——华为存储早已做好了为众多领域数据需求（不只有大模型）提供强大承载力与协同力的准备。