• 实时要闻
  • 当前位置:首页 > 实时要闻
  • 走近智算 | 大模型训练的关键角色——存储,为什么如此重要?——数据存算生态大会

    2025-07-25作者:数据存算生态大会

    在AI大模型从训练至推理的每一个关键环节,存储都扮演着不可或缺的角色。


    1.jpg


    数据归集与预处理阶段,面对来源广泛、形式多样的数据,存储系统需要具备全局统一命名空间与原生无损多协议互通的特性,确保数据的无缝整合与高效流通。


    同时,极致的稳定性和可靠性更是存储系统的基石,为数据安全筑起坚不可摧的防线。进入模型训练阶段,为了确保数据集能够被快速读取,减少等待时间,存储需要具备数千节点的横向扩展能力。


    这样的能力可以支撑亿级文件列表的获取,满足大规模数据训练的需求,为模型的高效训练提供强大的保障。


    当模型发布并投入推理阶段后,存储系统的高并发、高吞吐、高效率等特性更是显得尤为重要。它能够确保在推理过程中,数据能够迅速、准确地被处理,从而满足AI应用对于实时性与准确性的严苛要求。


    2.jpg


    接下来,我们具体从两个方面来探讨AI大模型对存储的需求。


    首先大模型需要更大的存储容量,从文本到多模态,数据增长巨大,数据规模往往都达到了PB级,随着模型规模和原始数据的增加,数据规模也会增长,为了应对海量的数据存储问题,需要大模型存储具备良好的扩展性。


    大模型存储采用的分布式架构,通过横向扩展增加存储容量和性能,一方面可以满足存储容量的持续增加,另一方面还能满足模型训练对高带宽、高IO存储的需求,从而充分发挥计算资源的算力,保障计算资源不浪费。


    3.jpg


    其次,大模型需要更优的存储性能,大模型训练过程中需要处理海量数据,包括数据集的加载、模型参数的保存与恢复等,这些操作都依赖存储系统的性能。数据集加载阶段,需要将大量数据从存储系统加载到内存中。


    如果存储系统性能不足,数据加载速度缓慢,会直接影响训练的启动效率。模型训练过程中,模型参数需要定期保存,以便在训练中断时能够快速恢复。这要求存储系统具备高吞吐量和低延迟,以确保参数的快速写入和读取。对此,基础设施层也从“本地盘”向”高性能+大容量”的AI存储演进。



    总投资25.85亿!庆阳又一零碳智算中心项目前期工作有序推进 秦淮数据联合东阳光布局乌兰察布,打造全国首个超大规模绿电直供垂直一体化产业示范区 字节跳动豪掷2664亿,TikTok将在巴西建拉美首个数据中心 世纪互联、光环新网、万国数据等12个项目入选!北京经开区2025数据中心白名单揭晓 投资估算33.98亿!招商银行贵安云数据中心产业园项目招标计划发布 地建设银行17亿招标、某地拟4.5亿部署太空智算中心、某地8亿项目强制PUE及100%绿电......丨算力情报局Vol.02 2亿,天津移动采购4套超节点算存一体机 欧洲数据中心配储已成为出海新战场! 1.9亿,广南算力中心建设项目EPC中标结果公布 投资9.7亿元、5000P,中电万界(青海)智算中心项目获建设工程规划许可证 总投资超33.7亿!青海省海南州4个智算中心项目迎来新进展 约12.42亿!海西天防绿色智算中心万卡项目(三期)设计施工总承包(EPC)启动招标 智算中心的绿色转型难在哪儿? 投资达180亿,13栋数据机房!中金数据中卫零碳算力产业基地一期项目建设全速推进 项目总投资25亿!新疆中芯数智绿能AI智算中心项目EPC总承包项目启动招标 深度|当前智算中心面临的最大风险 总投资约22.28亿!嘉唐科技绿电超算中心及风电项目签约落户黑龙江通河 【关注】中国移动x曙光存储:先进存力赋能智算升级 总投资11.9亿元 濮阳大数据中心项目主体封顶 发改委等五部门:优化改造城市内“老旧小散”算力设施 投资150亿元,泰康科技大健康总部智算中心项目封顶 算力上天?英伟达H100 GPU将部署轨道,提供太空公共云服务 “美式”算电协同:智算中心“自供电”成必选 投资7.92亿,3900张国产芯片 甘孜州绿色智算项目开工 预计投资91亿美元 字节跳动巴西数据中心即将开工 总投资158亿,杭钢与阿里合作的浙江云计算数据中心南区项目即将动工 存量0.3779元/kWh!河南“136号文”承接方案征求意见 15亿,不低于2440P!资兴市与武桐树签约东江湖万卡国产化超智融合算力集群等两项目 18亿元,规划万卡集群智算中心!国产率75%,新疆天禧贵合智算中心机房楼主体结构封顶 西门子“三驾马车”:构筑智算时代的增长确定性 能耗、成本、碳排三重压:智算中心如何借“算电协同”实现破局? 总投资10亿元!中经经玺(抚顺)智能科技有限公司2000P智算中心项目监理服务启动招标 第五师九十一团领华智算中心建设项目施工中标候选人公示 超12亿、5000P!鹏银(京津)智算产业园项目落地天津宝坻 4.5亿!广东又有3算力/智算项目备案获批 中卫市数据中心集群建设刷新进度条:智算规模占全国13.6%、八大枢纽节点17%! 总投资12亿,一周内广州4个智算项目获备案 聚焦算力设施场景应用 发改委、能源局印发《新型储能规模化建设专项行动方案(2025—2027年)》 总投资5.23亿,长风全域感知智算中心项目一期顺利封顶 150台10MW风机,国内单体规模最大陆上风电项目正式投运 280亿收购秦淮数据 东阳光意欲“算电协同”? 英伟达一个卖GPU的,开始对数据中心建设指手画脚了 算电协同、液冷、调度…两部门《关于推进“人工智能+”能源高质量发展的实施意见》关于算力都说了什么? 投资12亿元,德令哈海德智算中心完成主体结构封顶 投资84.66亿元,新星市国信清控智算中心30000P建设项目招标公告 聚焦AIDC智算储能丨双登股份全球研发总部(新型储能零碳产业园)开工 新疆:新星市1智算中心项目(一至四标段)设计施工总承包启动招标;木垒县2智算中心项目计划9月底投运 AI 存储 “新王者” 登场!华为AISSD撬动千亿增量! 智联未来 算启新篇 | 浩云长盛上海嘉定大型智算集群正式开园! “绿色瓦特”VS“智能比特”|智算中心如何实现“极致能效”?

    @数据存算生态大会 版权所有

    粤ICP备2024291375号