为人工智能准备数据中心通常意味着在性能极限上运作。某些AI工作负载,如实时推理,需要微秒级延迟、确定性网络和高吞吐量处理。这些要求将基础设施推向远超传统企业标准的水平。
幸运的是,这些挑战并非全新。高频交易(HFT)多年来一直在应对类似挑战,在HFT环境中开创的技术为AI基础设施提供了实用的起点。
什么是高频交易,数据中心如何支持它
HFT的核心是比竞争对手反应更快,使用自动化策略以极高速度执行交易。为了实现这一目标,这些系统必须满足三个技术要求:
超低延迟。市场变动事件在微秒内展开,因此系统必须在同样的时间尺度内移动数据和做出反应——远比大多数企业应用能容忍的毫秒级延迟更快。
高度可靠的确定性网络。数据包必须按顺序准时到达,不能丢失或抖动,以确保订单到达交易所时决策仍然有效。
高容量数据处理。大量数据通常流入和流出HFT平台,需要充足的带宽以及足够的计算和内存来近实时地摄取、分析和行动。
为了实现这些目标,HFT环境通常采用以下技术:在交易所附近进行托管以最小化物理距离,使用专注性能的网络基础设施,以及支持部署具有高容量处理所需计算能力的强大服务器。
为什么这对AI很重要
虽然HFT和AI是不同的用例,但一些AI工作负载具有相同的性能特征。对时间关键任务的推理——如对延迟敏感的推荐、超快翻译或自主控制循环——受益于微秒级延迟、确定性网络和高吞吐量处理。因此,为HFT构建的数据中心和网络架构可以在不完全重新发明基础设施的情况下出色地支持实时AI。
这一观点为当前的"AI数据中心"浪潮提供了重要背景。能够达到HFT级性能的设施在金融和高性能计算领域已经存在多年;使它们成功的原则对现代AI仍然相关。
需要规划的重要差异
数据中心运营商和AI团队必须考虑两个主要区别:
位置策略。HFT数据中心聚集在交易所附近以减少距离。理想的AI站点可能会因靠近用户、传感器或企业数据源的程度以及电力和冷却可用性而有所不同。
规模。时间敏感的AI通常涉及比HFT更多的并发会话、更大的模型和更高的总体网络流量。
在AI规模上应用HFT策略
尽管存在这些差异,核心要点依然成立:行业已经知道如何构建实时AI所依赖的那种低延迟、高吞吐量基础设施——HFT在几十年前就证明了这一点。现在的任务是在更大规模上应用这一策略,具备严格的电力和冷却设计,以及更大的地理灵活性,使AI工作负载能够在最能产生价值的地方运行。
Q&A
Q1:高频交易对AI数据中心建设有什么启发?
A:高频交易已经验证了如何构建低延迟、高吞吐量的基础设施,这正是实时AI工作负载所需要的。HFT环境采用的超低延迟、确定性网络和高容量数据处理技术可以直接应用到AI数据中心建设中。
Q2:AI数据中心和高频交易数据中心有什么主要区别?
A:主要有两个区别:位置策略上,HFT数据中心需要靠近交易所,而AI数据中心需要根据用户、数据源和电力冷却条件来选址;规模上,AI工作负载通常需要处理更多并发会话、更大模型和更高网络流量。
Q3:为什么实时AI推理需要这样高的性能要求?
A:实时AI推理如延迟敏感推荐、超快翻译、自主控制等任务需要在微秒级时间内完成,这要求微秒级延迟、确定性网络传输和高吞吐量处理能力,以确保AI系统能够及时响应和做出正确决策。