谷歌的太空人工智能计算系统设计

设想这样一个未来:我们日常依赖的人工智能系统不是由地球上的大型数据中心提供动力,而是由环绕地球运行的卫星群提供支持,直接从太阳获取能量。这并非科幻小说的情节,而是谷歌针对现代技术最紧迫挑战之一展开的严肃研究计划:人工智能日益增长的巨大能源需求。
这个研究的基本前提既直接又深刻。随着AI从专业工具演变为研究人员所称的"基础性通用技术"——可与电力或蒸汽机相提并论——计算需求将持续扩大。虽然工程师在效率方面取得了显著进展,将单次AI查询所需能量减少了三十倍以上,但整体需求仍在上升,因为AI应用正在渗透到人类活动的每个领域。太阳产生的能量是人类总发电量的一百万亿倍以上,使其成为未来大规模计算最合理的能源来源。
核心系统架构
谷歌提出的系统核心是创建由众多卫星组成的轨道"数据中心",每颗卫星配备专门的张量处理单元,这是专为机器学习工作负载设计的定制芯片。这些卫星将在所谓的晨昏太阳同步轨道上飞行,距离地表约650公里的低地球轨道高度。这种特殊轨道确保卫星始终暴露在阳光下,在每次轨道运行中最大化发电能力。
设计理念有别于其他一些设想在轨道上组装巨大整体结构的太空计算方案。相反,谷歌的方法倾向于模块化——许多较小的卫星作为协调系统共同工作。这种模块化架构提供了几个实用优势。单个卫星可以使用现有或近期的运载火箭发射,无需复杂的太空组装。如果一颗卫星出现故障,系统可以通过内置冗余继续运行。或许最重要的是,这种方法允许星座逐步扩展,从最初的演示集群发展到可能包含数千颗卫星的大规模阵列。
解决通信挑战
其中一个最关键的技术障碍涉及使这些卫星能够以与地面数据中心内芯片相当的速度相互通信。机器学习工作负载需要非常高的带宽——单个芯片需要以每秒数百吉比特的速率交换数据。目前的商用光学卫星间链路通常实现每秒1到100吉比特的速率,远远达不到这些要求。

卫星间距离与可实现带宽之间的关系,适用于各种调制方案。卫星间距越近,数据传输速率提升越显著,所提议的设计目标距离远短于传统系统。
谷歌的解决方案利用了光学物理的基本原理:接收功率随发射器和接收器之间距离的平方而减小。通过让卫星以极近的编队飞行——间隔数百公里或更短,而不是大多数星座典型的数千公里——可用光功率显著增加。这使得能够使用商用密集波分复用技术,与地面光纤网络中使用的类型相同,可以将24个或更多独立数据通道封装到单个光束上。
在非常短的距离下,一种称为空间复用的附加技术变得可行。每颗卫星上不是单个光学望远镜,而是可以将多个较小的望远镜排列成阵列,每个建立独立链路,承载自己的复用通道集。随着卫星距离更近,更多并行链路可以适配在相同的总孔径面积内,使总带宽与距离成反比例缩放。谷歌在实验室测试中使用现成组件成功演示了单向800吉比特每秒(双向总计1.6太比特),验证了这一基本方法。
编排轨道舞蹈
维持如此近距离的编队在轨道力学上提出了一个有趣的挑战。略微不同高度的卫星自然以不同速度运行,通常会导致随时间推移而分离。谷歌的解决方案利用轨道动力学的数学原理,创建在每次轨道运行中自然保持形状的编队,无需持续推进器调整。

81颗卫星星座在一个完整轨道上的演变,以轨道周期的十二分之一为间隔显示。中心参考卫星保持固定,而周围卫星描绘可预测的模式,展示了编队如何自然地循环通过其配置。
所提议的星座将卫星排列成适合旋转椭圆的模式,沿飞行方向尺寸约为1公里,垂直方向约为0.5公里。这种2比1的比例自然来自支配轨道运动的数学。当星座绕地球运行时,其形状在每次轨道中经历两个完整的压缩和膨胀模式周期,但整体系统保持在可预测的体积范围内。

中心卫星与其八个最近邻居之间的距离如何在一个轨道上振荡,在约100米到225米之间变化。这些周期性变化是可预测的,对于维持光通信是可管理的。
这种编队方法只需要最少的推进剂来抵消地球扁率和其他微妙效应引起的小扰动。这些漂移的可预测性意味着可以通过仔细的初始定位和偶尔的小调整来补偿,而不是持续的主动控制。
辐射韧性
在太空中运行复杂电子设备面临独特挑战,特别是辐射暴露。高能粒子——主要是来自太阳的质子和来自太阳系外的宇宙射线——不断轰击低地球轨道上的卫星。这些粒子可以通过累积损伤逐渐降解电子元件,也可以通过撞击敏感线路造成瞬时错误。
谷歌对尖端机器学习加速器芯片进行了首次公开发表的类太空条件辐射测试,将Trillium张量处理单元置于6700万电子伏特质子束下。结果令人鼓舞。芯片在相当于5年任务寿命的总辐射剂量下存活,没有永久性故障。高带宽内存子系统显示出最大敏感性,但仍在远超最低要求的情况下保持功能。可能损坏数据的单次事件错误发生率对于大多数应用似乎是可管理的,特别是对于偶尔错误影响极小的推理工作负载。
发射经济学
对于任何基于太空的基础设施,可能最关键的问题涉及成本,特别是将设备从地球表面提升到轨道的费用。从历史上看,发射成本对于大规模太空项目来说一直高得令人望而却步。然而,商业发射行业正在经历显著转变。

SpaceX实现的成就:每次累计发射质量翻倍,成本降低约20%,涵盖从猎鹰1号到猎鹰重型火箭。每个新型号运载火箭引入时的主要价格不连续性。
谷歌的分析考察了预测未来发射成本的两种互补方法。首先,分析SpaceX的历史定价数据揭示了学习曲线,即每次累计发射质量翻倍时成本降低约20%。如果这一趋势通过星舰级运载火箭的开发和规模化继续下去,发射价格可能在2030年代中期降至每公斤200美元以下。其次,分析星舰的计划规格和可重复使用目标表明,通过高组件重复使用率可能实现更低成本。
在每公斤200美元的价格下,将太阳能发电能力发射到轨道的摊销成本将与地面数据中心年度电力支出相当。这代表了一个潜在转折点,基于太空的基础设施从经济上令人望而却步转变为与地球基础设施真正具有竞争力的替代方案。
展望未来
本研究代表了初步探索而非最终设计。谷歌团队确定了几个需要进一步发展的领域:在真空中散热的热管理系统,通过大气湍流与地面站进行高带宽光学通信,以及在人类技术人员无法简单更换故障组件时维持可靠性的策略。然而,基于当前分析和初步测试,基本挑战——通信带宽、轨道动力学、辐射耐受性和发射经济性——似乎是可以解决的。
基于太空的人工智能基础设施愿景要求超越对地面数据中心的渐进式改进,想象利用太空本身的巨大资源。通过直接利用太阳能量并利用轨道的独特环境,未来的计算系统可能扩展到在地球表面难以实现的水平,同时最大限度地减少对地面土地和水资源的影响。这个大胆的提案为长期未来规划了一条道路,从仔细研究验证这个雄心勃勃愿景的每个关键组成部分开始。
本文内容仅供参考,不构成任何专业建议。使用本文提供的信息时,请自行判断并承担相应风险。



