【金猿案例展】XSKY 星辰天合——前沿大模型AI数据湖实践
创始人
2025-12-09 21:40:57
0

XSKY 星辰天合案例

该AI Infra案例由XSKY 星辰天合投递并参与金猿组委会×数据猿×上海大数据联盟共同推出的《2025中国大数据产业年度AI Infra领先企业》榜单/奖项评选。

随着大语言模型(LLM)、多模态模型参数量与训练数据量呈指数级增长,AI 技术对数据存储的“性能-成本-效率”提出三重极致要求:一方面,AI全工作流(数据采集→清洗预处理→GPU高并发训练→模型推理)需TB/s级带宽与低延迟I/O,任何存储瓶颈都会导致昂贵GPU算力闲置;另一方面,海量原始数据、中间数据、归档数据需长期保存,单一存储介质难以平衡“高性能需求”与“成本控制”,“全闪存+混闪”的分层存储已成为业界共识。

但传统分层方案存在三大核心痛点,严重制约AI效率:

•盲目流动

基于数据创建时间(mtime)分层,高频访问的训练集可能因“到期”被降级至慢速混闪池,导致训练性能骤降;

•割裂命名空间

数据在不同存储层间流动需手动切换路径/挂载点,易因操作失误导致训练失败;

•高昂隐性成本

为避免性能问题,企业被迫将更多数据保留在全闪存层,或反复“搬运”降级数据回热层,推高总拥有成本(TCO)。

某大型智算中心曾因开源方案缺乏智能分层能力,数据预处理效率低下,GPU 等待时间过长,无法实现“热数据高性能训练、冷数据自动归档”的顺畅流转。为破解上述困境,北京星辰天合科技股份有限公司基于XEOS对象存储,推出“XEOS AI数据湖方案”,通过智能数据流动机制,重塑AI分层存储逻辑,为头部AGI厂商、国家级AI实验室、大型智算中心提供高效数据底座。

时间周期:

开始时间:2024年10月12日

中间重要时间节点:

•项目第一批交付时间为2024年10月至12月,共交付不同地域机房的4个集群,总计约9PB容量;

•项目第二批交付时间为2025年2月至6月,新增2个地域机房的2个集群,同时扩容原有的3个集群,共计约46PB。

完结时间:2025年6月

AI Infra应用需求

随着大语言模型(LLM)、多模态模型参数量与训练数据量呈指数级增长,AI 技术对数据存储的“性能-成本-效率”提出三重极致要求。

一方面,AI全工作流(数据采集→清洗预处理→GPU高并发训练→模型推理)需TB/s级带宽与低延迟I/O,任何存储瓶颈都会导致昂贵GPU算力闲置。在数据采集阶段,大量的原始数据需要快速地传输到存储系统中,这就要求存储系统具备高带宽的写入能力。例如,在一些大规模的图像识别项目中,每天需要采集数百万张图片,这些图片的数据量可能达到数百GB甚至数TB,如果存储系统的写入带宽不足,就会导致数据采集的速度变慢,影响整个项目的进度。

在清洗预处理阶段,数据需要进行各种处理和转换,这就要求存储系统具备高带宽的读取能力。例如,在一些自然语言处理项目中,需要对大量的文本数据进行分词、词性标注等处理,这些处理需要频繁地读取存储系统中的数据,如果存储系统的读取带宽不足,就会导致处理速度变慢,影响整个项目的效率。

在GPU高并发训练阶段,大量的GPU需要同时访问存储系统中的数据,这就要求存储系统具备低延迟的I/O能力。例如,在一些深度学习项目中,需要使用数千个GPU进行并行训练,如果存储系统的I/O延迟过高,就会导致GPU等待数据的时间过长,影响整个训练的速度和效率。

另一方面,海量原始数据、中间数据、归档数据需长期保存,单一存储介质难以平衡“高性能需求”与“成本控制”,“全闪存+混闪”的分层存储已成为业界共识。全闪存存储介质具备高性能、低延迟的特点,适合存储热点数据和频繁访问的数据;而混闪存储介质则具备大容量、低成本的特点,适合存储冷数据和长期保存的数据。通过将不同类型的数据存储在不同的存储介质中,可以实现性能与成本的平衡,提高整个存储系统的效率和性价比。

综上所述,AI技术对数据存储的“性能-成本-效率”提出了极高的要求,需要采用分层存储等技术来满足这些要求。

面临挑战

在当今人工智能技术如日中天、飞速发展的时代,数据存储对于AI效率的影响日益凸显,已经成为制约其进一步发展的关键因素。然而,传统分层方案却存在着三大核心痛点,如同三道难以逾越的关卡,严重制约着AI效率的提升。

首先是令人头疼的“盲目流动”问题。传统方案在进行数据分层时,往往机械地基于数据创建时间(mtime)来操作。这种简单粗暴的分层方式,会使得那些在AI训练过程中被高频访问的训练集,仅仅因为时间限制“到期”,就被无情地降级至慢速混闪池。想象一下,一个正处于关键训练阶段、被频繁调用的数据集,就像一位在战场上冲锋陷阵的勇士,突然被剥夺了精良的装备,被扔到了后方。这直接导致训练性能急剧下降,使得原本昂贵的GPU算力大量闲置,就如同将珍贵的资源白白浪费,严重阻碍了AI训练的正常进程。

其次,“割裂命名空间”带来的麻烦也不容小觑。当数据需要在不同存储层间流动时,数据科学家不得不手动切换路径或挂载点。这一过程就像是在一个错综复杂的迷宫中摸索前行,不仅操作复杂繁琐,而且极易因为人为的疏忽或失误导致训练失败。在大型AI项目中,数据量庞大且流动频繁,哪怕是一个细微的路径输入错误,就如同在精密的机器中放入了一颗错误的螺丝钉,都可能使得整个训练任务前功尽弃,让之前投入的大量时间和资源付诸东流。

最后,“高昂隐性成本”成为了企业沉重的负担。为了避免因数据存储问题导致的性能下降,企业无奈之下只能采取一些“无奈之举”。要么将更多的数据保留在全闪存层,这无疑增加了存储设备的采购成本;要么反复将降级的数据“搬运”回热层,这不仅消耗了大量的人力,还浪费了宝贵的时间。这些额外的成本不断累积,极大地推高了总拥有成本(TCO)。长此以往,企业在 AI投入上的经济压力愈发沉重,就像背着沉重的包袱在前行,举步维艰。

战略目标

构建AI Infra所期望达成的顶层战略目标,旨在为从数据预处理到模型训练、推理的全流程业务提供坚实且高效的方案支撑。

在头部AGI厂商场景中,该战略目标聚焦于应对高负荷的数据读写需求。要能够稳定承载周期性近2Tbps的写入,以及承受峰值5Tbps的突发读取。更为关键的是,将数据处理的时延严格控制在8ms以内。如此一来,便能确保在数据高速流转的过程中,头部AGI厂商的业务可以高效、稳定地运行,避免因数据处理不及时而导致的业务停滞或效率下降。

在大型智算中心场景方面,战略目标体现为在短时间内实现数据的快速增长与高效处理。要在4个月内支撑超20PB的数据增长,并且达到149.34GB/s的读取峰值。通过这样的能力提升,能够显著提高数据预处理的效率,相较于原开源方案可提升300%。这种效率的大幅提升意义重大,它可以彻底解决GPU算力闲置的问题,让GPU资源得到充分利用,从而提高整个智算中心的运算效率,降低运营成本,推动大型智算中心在人工智能领域发挥更大的作用,为AI技术的发展提供强大的基础支撑。

实施与部署过程

在人工智能(AI)领域蓬勃发展的当下,数据量呈现出“爆发式增长”的态势,大模型训练对数据存储的性能、可靠性和管理效率提出了前所未有的挑战。传统的数据存储架构在应对这些挑战时逐渐显得力不从心,如多存储层割裂导致的数据搬运成本高、性能损耗大,按创建时间分层无法精准适配数据实际访问模式等问题。为了满足AI数据存储的“高并发、高带宽”需求,提升数据管理的智能化水平,一套创新型的AI数据存储解决方案应运而生。

1.技术创新:重构AI数据分层逻辑

·基于访问时间(atime)的智能生命周期管理

传统的数据分层方式往往是“按创建时间分层”,这种方式存在明显的局限性,无法准确反映数据的实际使用频率。而本方案打破了这一局限,引入了基于访问时间(atime)的智能生命周期管理机制。系统具备实时感知数据访问行为的能力,能够精准捕获如GetObject/HeadObject等操作。每一次数据访问都会自动刷新atime,这意味着数据的分层计划会根据其实际访问情况动态调整。

对于高频训练数据集,由于其访问频繁,atime会不断更新,从而可以长期驻留在全闪热层。全闪热层具有高速读写的特性,能够为模型训练和推理提供稳定的高性能支持,保障训练性能的稳定性。而那些“长期无访问”的冷数据,则会自动流向低成本混闪池。混闪池采用“SSD+HDD”的架构,在保证一定性能的同时,有效降低了存储成本。这种智能的生命周期管理机制,使得数据存储资源得到了更加合理的分配,提高了整体存储系统的性价比。

2.分层数据访问增强:透明化+自动缓存

为了提升数据访问的效率和用户体验,本方案实现了“一次慢、次次快”的访问模式,主要通过透明化和自动缓存机制来实现。

·透明访问

上层应用无需关心数据具体存储在哪一层,在统一命名空间下,数据的访问路径保持不变。这避免了用户手动切换存储层时可能出现的失误,降低了使用门槛,提高了操作的便捷性。

·自动缓存回热

当首次访问冷层数据时,系统会异步将数据缓存至热层。后续对该数据的访问将直接从热层读取,大大提高了访问速度。这种机制使得冷层数据在被访问后能够快速“回热”,充分利用了热层的高性能优势。

·访问续期

每一次对缓存数据的访问都会刷新其过期时间,确保热点数据能够长期驻留在高速层。这样可以持续为高频访问的数据提供快速响应,避免了因数据过期被清理而导致的性能下降。

·主动预热

系统支持通过批量HeadObject操作提前预热数据集。这意味着用户可以在需要使用某些数据之前,主动将其加载到热层,从而实现首次访问即达极致性能,进一步提升了数据访问的效率。

2.架构创新:统一命名空间下的高效分层架构

传统的存储架构存在“多存储层割裂”的问题,不同存储层之间的数据搬运操作成本高,且会导致性能损耗。本方案摒弃了这种传统设计,在统一命名空间内整合了“高性能全闪热层”与“大容量混闪温冷层”。

·分层功能与职责

热层采用全闪存介质,针对模型训练、推理等高频访问场景进行了优化。它能够提供低至毫秒级的时延和TB/s级的带宽,满足GPU集群高并发数据加载的需求,为AI模型的训练和推理提供了强大的性能支持。温冷层则采用“SSD+HDD”的混闪架构,以较低的成本承载原始数据、中间结果、训练日志等低频访问数据。同时,温冷层支持自动归档与生命周期清理功能,能够有效管理长期存储的数据。

·数据流动优势

在数据在层间流动时,访问路径和权限控制保持一致。这意味着用户无需担心数据迁移过程中出现的权限问题和路径变更问题,彻底消除了“数据搬运”的操作成本与性能损耗。数据可以在热层和温冷层之间智能流动,根据其实际使用情况动态调整存储位置,实现了数据的高效管理和利用。

3.性能创新:TB/s级带宽与金融级可靠性

·分布式架构与线性扩展

本方案基于分布式架构设计,具有良好的扩展性。单集群可承载EB级容量,能够轻松应对AI数据的“爆发式增长”。随着数据量的增加,系统可以通过线性扩展的方式,添加更多的存储节点来提升整体存储容量和性能。这种扩展性使得系统能够适应不断变化的业务需求,为企业的长期发展提供了有力保障。

·优化I/O调度算法

为了在极限压力下仍能保持低时延,方案对I/O调度算法进行了优化。在头部AGI厂商场景中,系统的峰值读取带宽可达5Tbps,读取时延≤8ms;在智算中心场景中,读取峰值达149.34GB/s。这些数据表明,系统能够满足大模型“高并发、高带宽”的训练需求,为AI模型的高效训练提供了坚实的性能基础。

·金融级可靠性

系统继承了星辰天合企业级存储的金融级可靠性,数据可用性达 99.9999%。这意味着在实际应用中,数据能够得到高度的保障,减少了因数据丢失或损坏而导致的业务中断风险。对于金融、医疗等对数据可靠性要求极高的行业,这种高可靠性的存储系统具有重要的意义。

4.技术方案

架构设计:“一层两面”智能数据湖架构

·统一命名空间层

统一命名空间层是整个架构的核心,它实现了“数据位置透明化”。无论数据存于全闪热层还是混闪温冷层,应用均可以通过统一路径访问,无需修改代码或切换挂载点。这大大简化了应用开发和运维的难度,提高了系统的兼容性和可维护性。同时,该层集成了权限管理和元数据索引功能,能够有效保障数据安全,提高数据检索效率。通过权限管理,企业可以对不同用户或用户组设置不同的访问权限,确保数据的安全性;元数据索引则可以快速定位数据,提高数据查询的速度。

作为架构核心,实现“数据位置透明化”——无论数据存于全闪热层还是混闪温冷层,应用均通过统一路径访问,无需修改代码或切换挂载点;同时集成权限管理、元数据索引功能,保障数据安全与检索效率。

·热层(高性能全闪)

热层采用全闪存介质,针对模型训练、推理等高频访问场景进行了深度优化。它能够提供低至毫秒级的时延和TB/s级的带宽,满足GPU集群高并发数据加载需求。在实际应用中,热层可以为AI模型的训练和推理提供快速的数据支持,提高训练效率和模型性能。

·温冷层(大容量混闪)

温冷层采用“SSD+HDD”的混闪架构,以低成本承载原始数据、中间结果、训练日志等低频访问数据。该层支持自动归档与生命周期清理功能,能够有效管理长期存储的数据。通过自动归档,企业可以将不再频繁使用的数据进行长期保存;生命周期清理则可以定期清理过期数据,释放存储资源。

·智能流动引擎

智能流动引擎是实现数据智能管理的关键组件,它基于atime生命周期策略与自动缓存机制,实现了“冷数据智能沉降”和“热数据自动回热”。长期无访问的数据会从热层自动迁移至温冷层,实现冷数据的智能沉降;而当冷层数据被访问时,会自动缓存至热层,实现热数据的自动回热。整个过程无需人工干预,大大提高了数据管理的效率和智能化水平。

关键技术实现

·atime精准感知

通过内核级优化,系统能够实时捕获每一次数据访问行为,确保atime更新延迟≤100ms。这避免了因“误判热点数据”而导致的性能降级。在实际应用中,准确的atime感知能够保证数据生命周期管理的准确性,使得数据能够根据其实际使用情况进行合理的分层和迁移。

·异步缓存调度

首次访问冷层数据时,系统采用“同步返回数据+异步缓存”的机制。这种机制既保障了业务的连续性,避免了额外的延迟,又实现了后续访问的加速。在实际操作中,用户在首次访问冷层数据时,能够快速获取数据,同时系统会在后台将数据缓存至热层,为后续的快速访问做好准备。

·弹性扩容机制

系统支持在线扩容,新增节点可以自动加入集群并参与数据重平衡。在扩容期间,业务不会中断,保证了系统的稳定性和可靠性。以某智算中心为例,在扩容时,训练任务仍能保持149.34GB/s的读取峰值,无性能波动。这种弹性扩容机制使得系统能够根据业务需求灵活调整存储容量,适应不断变化的市场环境。

综上所述,这套创新型的AI数据存储解决方案通过技术创新、架构创新和性能创新,为AI数据存储提供了一套全面、高效、智能的解决方案。它解决了传统存储架构存在的诸多问题,能够满足AI领域对数据存储的高性能、高可靠性和智能化管理的需求。随着AI技术的不断发展,相信这种创新型的存储解决方案将在更多的领域得到广泛应用,为推动AI产业的发展提供有力支持。

合作服务效果

1.经济效益

·降本

通过“智能分层+混闪架构”,客户存储TCO平均降低30%-60%——某智算中心避免了全闪存过度配置,年节省存储采购成本超千万元;头部AGI厂商通过冷数据自动归档,减少30%全闪容量占用。

·增效

消除数据流动的人工干预与性能损耗,数据预处理效率提升300%,GPU利用率提升25%-75%——某智算中心GPU等待时间从日均4小时缩短至1小时,年增加模型训练迭代次数超50次。

·弹性扩展

支持在线扩容,无需停机,满足AI数据“爆发式增长”需求——某客户4个月内完成20PB数据扩容,未影响任何训练任务,避免因扩容中断导致的研发延误(日均损失超百万元)。

2.社会效益

·推动AI技术创新

通过高效数据底座,释放GPU算力,帮助头部AGI厂商、国家级实验室突破模型训练效率瓶颈,加速SOTA模型研发,助力我国AI技术在全球竞争中保持领先。

·降低AI落地门槛

通过“高性能+低成本”的平衡方案,让中小型AI企业无需承担高昂全闪存成本即可获得TB/s级存储能力,推动AI技术在制造、医疗、金融等行业的普及。

·绿色低碳

混闪架构与智能分层减少了高能耗全闪存的使用量,某智算中心采用方案后,存储系统年耗电量降低28%,符合“双碳”目标,助力AI产业绿色发展。

关于企业

·XSKY 星辰天合

XSKY 星辰天合是面向AI时代的统一数据平台提供商。十年专注分布式存储,长期位列IDC市场报告“TOP 5”,且是唯一独立存储厂商,同时在对象存储市场保持长期领导者地位,公司产品已在3000+客户的企业级生产环境经受验证,为企业AI创新与数据基础设施现代化提供可靠的数据底座。

·某通用人工智能科技公司

该企业是全球领先的通用人工智能(AGI)科技公司,以前沿研究持续推动AI技术进步,致力于实现通用人工智能的未来。公司自主研发了具有业界竞争力的多模态通用大模型,在代码生成、智能体(Agent)能力及超长上下文处理等方面表现卓越,能够深度融合并理解文本、音频、视频等多种信息模态。依托于核心自研模型,企业已推出一系列AI原生产品与开放平台,服务范围覆盖全球超200个国家及地区,累计触达个人用户突破一亿,并为来自90余个国家及地区的超过5万家企业客户与开发者提供技术支持与解决方案。

以上由XSKY 星辰天合投递申报的AI Infra案例,最终将会角逐由金猿组委会×数据猿×上海大数据联盟联合推出的《2025中国大数据产业年度AI Infra领先企业》榜单/奖项

该榜单最终将于1月上旬上海举办的“2025第八届金猿大数据产业发展论坛——暨AI Infra & Data Agent趋势论坛”现场首次揭晓榜单,并举行颁奖仪式,欢迎报名莅临现场。

相关内容

热门资讯

【第一资讯】“白金岛十胡卡开挂... 网上科普关于“白金岛十胡卡有没有挂”话题很是火热,小编也是针对白金岛十胡卡作*弊开挂的方法以及开挂对...
最新引进“小乐红中麻将辅助开挂... 网上科普关于“小乐红中麻将有没有挂”话题很是火热,小编也是针对小乐红中麻将作*弊开挂的方法以及开挂对...
今日重大发现“佛手在线到底有挂... 有 亲,根据资深记者爆料佛手在线是可以开挂的,确实有挂(咨询软件无需打开...
今日重磅消息“闽乐乐怎么开挂”... 有 亲,根据资深记者爆料闽乐乐是可以开挂的,确实有挂(咨询软件无需打开直...
终于懂了“打两圈麻将开挂器”(... 家人们!今天小编来为大家解答打两圈麻将透视挂怎么安装这个问题咨询软件客服徽9752949的挂在哪里买...
【第一财经】“兴义水鱼真的有挂... 有 亲,根据资深记者爆料兴义水鱼是可以开挂的,确实有挂(咨询软件无需打开...
【第一资讯】“老铁联盟到底有挂... 有 亲,根据资深记者爆料老铁联盟是可以开挂的,确实有挂(咨询软件无需打开...
今日重大发现“泸州大贰可以开挂... 您好:泸州大贰这款游戏可以开挂,确实是有挂的,需要了解加客服微信【9784099】很多玩家在这款游戏...
重磅消息“瓦力游戏有挂吗”(外... 您好:瓦力游戏这款游戏可以开挂,确实是有挂的,需要了解加客服微信【4282891】很多玩家在这款游戏...
今日重大消息“九酷牛牛开挂神器... 网上科普关于“九酷牛牛有没有挂”话题很是火热,小编也是针对九酷牛牛作*弊开挂的方法以及开挂对应的知识...