AIGC模型

Ayar Labs CTO Vladimir Stojanovic访谈：基于硅基光电子技术的光I/O如何助力生成式人工智能的未来

iccsz
2024/4/12 9:55:21

引言

2023 年是生成式人工智能的一年，对 ChatGPT 等新型大型语言模型（LLM）的兴趣大增。众多公司正在将人工智能整合到自己的服务中（如微软Bing、谷歌Bard、Adobe Creative Cloud 等），对英伟达今年的股价产生了重大影响。

在我们展望人工智能的未来及其面临的挑战时，Ayar Labs 的首席技术官兼联合创始人Vladimir Stojanovic提供真知灼见，在这次问答访谈中就 Ayar Labs 的技术如何促进生成式人工智能的发展向 Vladimir 提出了十几个问题。

问答访谈

1.从架构的角度来看，在继续提高人工智能模型的增长和性能方面面临哪些挑战，尤其是在生成式人工智能的背景下？

生成式人工智能模型的关键在于它们非常庞大，需要在许多 GPU 之间进行全局通信，这超出了数据中心中单个机箱或机架的范围。即使是推理（即推理和决策），要求也很高，微调和训练更是如此。大致的规模是这样的：一个机架用于推理，数十个机架用于微调，数百个机架用于训练。你必须以某种方式将所有这些 GPU 互联起来。

2. GPU 互联的关键考虑因素是什么？

在上述生成式人工智能架构中，互联的作用是在全 GPU I/O 带宽和低延迟的情况下，提供从每个 GPU 到每个其他 GPU 或子系统的全局通信，以最大限度地提高处理效率，同时在功耗、面积和成本方面的影响可以忽略不计。基本上，它使分布式系统看起来就像一个巨大的虚拟 GPU。因此，互联必须非常快速、密集、省电和经济。这就是 Ayar Labs致力于将光学输入/输出（I/O）商业化的原因：利用硅基光电子技术在芯片级集成光学连接，直接从 GPU（XPU）封装中产生最快、最高效的互连。

3. 目前使用的是什么，为什么不是最佳的？

目前，这些系统依赖于可插拔光连接，这本质上是一种光网络技术。可插拔光缆非常适合电信等长距离应用，但并不是为板载输入/输出而设计的。

在带宽/延迟、功耗、密度和成本这四个方面，可插拔设备都无法满足 GPU 输入/输出的要求。基于插拔式设计的 GPU 至 GPU 链路（或 GPU 至外部交换机链路）每比特消耗约 30 皮焦耳（pJ/b）：从最初的电气 GPU 到光学可插拔链接需要 5 皮焦耳/比特，光学可插拔到光学可插拔链接需要 20 皮焦耳/比特，从光学可插拔转换回电气 GPU 或交换机还需要 5 皮焦耳/比特。将这 30pJ/b 与封装内光 I/O 解决方案相比，后者直接连接两个封装，功耗不到 5pJ/b，可节省近 8 倍功耗。

插拔式模块也很笨重。与封装内光 I/O 相比，其边缘带宽密度低 10 倍以上，面积密度低 100 倍以上。这就限制了从 GPU 卡或机箱到系统其他部分的带宽。基本上，今天我们已经到了极限，也许还能再挤出一代，系统就会完全陷入瓶颈。最后但并非最不重要的是成本。由于插拔式电缆是外部模块，而不是板载芯片，因此其成本扩展性很差，多年来一直徘徊在 1 至 2 美元/Gbps 之间。要实现未来生成式人工智能系统性能扩展所需的 GPU-GPU 带宽扩展，成本需要降低约 10 倍。封装内光电 I/O 可以通过在光电芯片侧和激光侧进行集成，帮助实现上述成本节约。

4. 您能谈谈对训练和推理的影响吗？您认为光 I/O 在哪些方面能发挥最大作用？

如上所述，有三种应用，每种应用都有不同的足迹和数量。首先，您需要训练一个人工智能模型，然后对其进行微调（这可能是持续性的），最后通过推理将其投入生产。考虑到模型的扩展趋势--从目前最大的模型到下一代或两代模型，推断将需要 10-100 个 GPU，微调需要 100-1000 个 GPU，而训练则需要数千到数万个 GPU。鉴于一个机箱最多可容纳 8 个 GPU，而一个机架可容纳 32 个 GPU，因此即使是推理也会成为需要光 I/O 的机架级操作。

5. 您能否解释一下系统工程师在设计大规模人工智能工作负载时面临的主要挑战，以及光 I/O 如何应对这些挑战？

首先，我们要明确我们谈论的是谁。如果我们指的是机器学习（ML）程序员，那么采用光 I/O 的平台将提供具有高吞吐量扩展、低延迟性能和低延迟分布的 Fabric 解决方案。这样一来，整个分布式计算操作看起来就像一个单一的虚拟 GPU，从而提高了程序员的工作效率，实现了可扩展的 ML 工作负载。

如果我们谈论的是硬件设计人员，他们需要构建能够实现强可扩展性分布式计算的平台，那么光 I/O 就能实现物理分解。这是用更小的组件构建复杂、可扩展的平台的关键所在，而这些组件的成本缩放曲线也更为激进。可以想象，未来的设计将围绕类似于一堆物理分解的 GPU 计算卡或交换卡来构建，而不再需要复杂而昂贵的多 GPU 机箱。

6. 在未来五到十年内，您如何看待光 I/O 技术在人工智能模型增长和能源消耗方面的作用？

光 I/O 的路线图可实现超过十年的持续带宽和功耗扩展，这反过来又可实现强大的分布式计算平台扩展和相应的模型增长。

7. 在生成式人工智能场景中，"全对全连接 "与统一延迟和总体效率有何关系？光 I/O 在这方面有何帮助？

在生成式人工智能所需的超大规模（如数千个计算插槽）中，必须通过交换结构实现全对全连接。这必须分布在所有计算插座上（如基于 TPU 的系统），或者与计算插座分开（如基于 GPU 的系统）。无论哪种情况，光 I/O 都能以低功耗和低成本提供丰富的带宽和低每链路延迟。这就使得大量对距离不敏感的光连接可以直接从计算/交换插座和光纤架构拓扑（即所谓的胖树（或折叠克洛斯）设计）中取出，从而在不影响注入带宽（节点向网络注入数据的速率）或分段带宽（计算真正的整体网络带宽）的情况下提供短而均匀的延迟。

目前，现有的 Fabric 设计在 Fabric 成本和性能之间折衷的办法是使用较少的光纤可插拔连接，例如，与胖树设计中计算节点的注入能力相比，降低分段带宽，或使用其他 Fabric 拓扑（如 TPU 系统中的环形结构），这些拓扑结构最大限度地减少了机架和行级光纤连接的数量，但带来了不均匀的延迟曲线，再次限制了应用性能。

8. 您能否详细说明光 I/O 技术在可重构性方面的作用，特别是在适应不断变化的人工智能模型要求方面，以及这种灵活性如何影响系统级效率？

封装内光学 I/O 可实现计算/交换封装的高带宽和大量端口（链路），为如何配置结构以满足不断变化的模型要求提供了灵活性。例如，系统设计可以强调更高的弧度（更多链接），从而根据需要增加节点数量，以更低的延迟支持更大的模型张量并行性。另外，系统设计也可以强调提高每个链路的吞吐量，从而降低流水线并行的传输延迟。

9. 考虑到人工智能应用向边缘计算发展的趋势，光 I/O 技术在为资源受限的边缘设备提供高速连接方面有哪些独特的挑战和机遇？

由于边缘设备可利用的资源有限，物理分解是一个关键考虑因素，也是光 I/O 的主要优势之一。例如，航空航天公司正在寻求将下一代传感器从底层计算中分离出来，以重新平衡关键约束条件（如尺寸、重量和功率），同时实现新的传感配置，解决距离（一米以上）问题（如多静态雷达、合成孔径、协作多输入多输出通信等）。

10. 光 I/O可为人工智能带来哪些潜在的性能提升？

我们一直在创建和评估平台开发，在机箱、机架和系统层面，这些平台有可能在下一代产品中将光纤架构吞吐量提升 10 倍以上。这样，互连带宽就能跟上 GPU 改进和人工智能集群扩展的趋势，确保连接性不会成为未来人工智能发展的制约因素。

11. 随着光 I/O 的成熟，在标准化、互操作性和生态系统发展方面有哪些关键考虑因素，以确保其广泛采用并与各种生成式人工智能硬件和软件框架兼容？

标准化对于整个生态系统的发展和繁荣非常重要，而标准化必须将光 I/O 作为核心考虑因素。这里有两个要素：物理和软件。

在物理层，有连接本身和为光学供电的激光。UCIe（通用芯片互连 Express）是业界围绕封装级通用互连而制定的标准，它将同类最佳的芯片到芯片互连与来自可互操作的多供应商生态系统的协议连接结合在一起。

对于激光器而言，CW-WDM MSA（连续波分复用多源协议）是一项行业倡议和规范，旨在为新兴的先进集成光学应用（如人工智能、高性能计算和高密度光学）实现 O 波段 WDM CW 光源标准化，这些应用预计将发展到 8、16 和 32 波长。

与其他物理层互连技术相比，这两项计划都能在性能、效率、成本和带宽扩展方面实现飞跃。

在软件层，CXL（Compute Express Link）等协议是处理器、内存和加速器高速缓存相干互连的开放标准，是未来的发展趋势。这使得池化或交换式内存等先进技术成为可能，为 GPU 利用物理层的高吞吐量和低延迟共享分解内存提供了基础。

12. 在技能组合和专业知识方面，进入人工智能光 I/O 开发领域的专业人员需要具备哪些关键资质和知识领域，企业和教育机构如何为人才队伍做好相应准备？

这是一个具有挑战性的跨学科问题--从硅基光电子学和激光物理学到电路设计和计算机/网络架构（再加上制造和封装），更不用说分布式计算/共享内存系统的系统编程/通信堆栈。公司、个人和教育机构可以通过认识和强调这种跨堆栈设计方法来做好最佳准备。

后记

感谢 Vladimir 先生抽出宝贵时间分享见解和观点，让我们了解如何应对企业在发展和提高人工智能模型性能时所面临的架构挑战。显而易见，光 I/O 在实现生成式人工智能的未来方面大有可为。

参考来源

https://insidebigdata.com/2024/03/13/how-optical-i-o-is-enabling-the-future-of-generative-ai-a-qa-with-ayar-labs-cto-vladimir-stojanovic/?utm_content=288493874&utm_medium=social&utm_source=linkedin&hss_channel=lcp-6627049

Ayar Labs CTO Vladimir Stojanovic访谈：基于硅基光电子技术的光I/O如何助力生成式人工智能的未来

华为：电信+AI加速数智化转型，为运营商创造切实商业价值

AI 大牛吴恩达官宣加入亚马逊董事会

OpenAI CEO 阿尔特曼想要建立一个全球 AI 联盟，加快人工智能发展

OpenAI 宣布向 ChatGPT 付费用户开放新 GPT-4 Turbo 模型

大模型有望迎新突破！OpenAI、Meta将推出拥有“推理”功能的AI

中国移动完成业界首个 5G 车联网规模技术验证

占比三分之二，2023Q3 全球联网汽车销量同比增长 28%

联网汽车加速普及，机构预估 2030 年超 22 亿个物联网连接使用 eSIM

消息称丰田将与华为、Momenta 共同推出智能驾驶方案，搭载于全球车型

泰国向中国大陆及中国台湾寻求投资以发展电动汽车产业

长飞光纤申请直埋抗冲击振动传感光缆专利，保护层的应变部能吸振抗冲击，减小外部对光缆的冲击力

汽车制造商Stellantis收购激光雷达初创公司SteerLight股份

行业首款256线高性能车规级激光雷达在广州高新区诞生

中国石油获得发明专利授权：“光纤分布式扰动传感器及扰动信号的定位方法”

抖音发布清明期间内容创作提醒：慎用“AI 复活”技术

我国科学家研发AI系统预测乳腺癌新辅助治疗疗效

最早提前7天，谷歌借助AI能准确预测洪灾

消息称苹果与 Shutterstock 达成协议，获得数百万张版权图片用于 AI 训练

报告称OpenAI采集了超一百万小时的YouTube视频来训练GPT-4

沙特推出世界首个国家级“元宇宙”平台，用户可线上游览当地景点

Form 推出 Smart Swim 2 AR 波导泳镜：可测心率直线游泳导航

Meta 下月将为 Ray-Ban 智能眼镜带来一系列 AI 功能：物体识别、翻译等

元宇宙产业标准化完善驱动各行业数实融合

Omdia观察：韩国元宇宙服务缘何在全球站稳脚跟

缺乏市场竞争，中国智能音箱 2 月销量同比下降 41.4% 至 112 万台

斯坦福团队新作：喊话就能指导机器人，任务成功率暴增，网友：特斯拉搞快点

华为智慧屏 S5、华为智能门锁 Plus 已开启预售

苹果小米华为前三，Canalys 预测今年全球可穿戴腕带设备市场将增长 7%

苹果介绍 Ferret-UI 多模态大语言模型：更充分理解手机屏幕内容

Ayar Labs CTO Vladimir Stojanovic访谈：基于硅基光电子技术的光I/O如何助力生成式人工智能的未来

More >>