算力市场新变量:光计算迎来“Roadster时刻”

 

尽管DeepSeek的爆火让科技界看到了算力降价的可能性,但科技巨头对人工智能算力的投资并未停下脚步。在刚结束的财报会中,诸多巨头都宣布对AI算力的巨额投资计划。

"英伟达的真正对手,可能会出现在光计算领域。"一位资深芯片研究人员、芯片连续创业者说,因为光计算,指向的是一种速度更快、成本更低的计算方式。然而多位业内人员表示,光计算距离商业化落地,还需要时间。

在沈亦晨看来,硅光技术正在迎来迄今为止最大的机遇。他是曦智科技的创始人、CEO,这是一家提供光电混合算力解决方案的前沿科技公司。

2017年,沈亦晨以第一作者的身份在Nature子刊封面的一篇论文中提出了一种新的深度学习硬件实现方式,他发现了一种基于光子的神经网络可以在计算速度和能效方面实现显著提升。[1]这篇论文便是当下大热的光计算赛道的技术源头之一。

沈亦晨直言,在创业之初,并未想到大模型会给光芯片带来全新的机会,一开始只是看到了光子芯片在人工智能方向上有应用潜力。但随后出现的大模型,以及训练大模型对算力的巨大需求,算是第一次为将光子芯片的商业应用提供了一个似乎已经能够触及的商业化路径。大模型爆发对算力的需求,一方面使得传统电芯片的计算密度和互连的速度不匹配,导致光子和电子的共同封装或深度集成成为短期内的必然选择;另一方面是摩尔定律即将走到尽头,光计算作为全新的架构,能够补充电芯片的局限性。

机遇热潮之下,往往是公众和一些"隔行"人士对光计算的夸大和误解。有媒体称,如今的光芯片性能能够比传统电芯片能效提升数百万倍,甚至有文章称依靠光芯片未来可以完全取代GPU。

沈亦晨表示,这样的说法并不准确,从科研到产业,根本区别在于光芯片的技术特性是否能够匹配到可持续的商业模式。"一味追求极致的技术指标,没有太大价值;研发出能用、且真正为用户创造价值的产品,才是我想做的事情。"沈亦晨表示。

本文访谈了芯片行业的多位专业人士,试图回答光计算——这一被视为后摩尔时代的技术范式,其与传统电芯片的关系是什么?光计算如今在商业化的过程中走到了哪一步?光计算能够实现什么?要实现光计算的产业化,还有哪些关键挑战?

一个古老想法的实践

光学计算的核心,来自一个古老的设想——发明于19世纪90年代的马赫-曾德尔干涉仪(Mach-Zehnder Interferometer)。这一设备将一束光一分为二,成为两条路径。分束后的光,沿着不同路径传播,当光遇到路径末端的反射镜,会返回分束器,此时两束光合二为一,输出光束的强度由输入光束的强度与分裂光束之间的相位差决定。一方面,输入的光越强,输出的光就越强;另一方面,当一束光被分成两束之后,这两束光合并,如果波峰和波谷对齐(即相位相同),则输出的光更强,如果波峰和波谷错开(相位不同),输出光越弱。

光学加速器具有以网格形式布局的马赫-曾德尔阵列。这些阵列内的计算以光速进行,并且光通过芯片时能量消耗较低。

与电子不同,光子可以相互交叉但不产生相互作用。电阻会产生热量、消耗能量,但光子通过透明介质时没有阻力,从而可以降低功耗。

那么,从一百多年前的古老想法再到经过数年实践,光计算芯片如今是否真能如一些文章中所说,速度快千倍,能效提升数百万倍?

在沈亦晨看来,今天我们所说的"光计算",其实都是光电混合计算——电仍然需要做存储和非线性计算的工作。如果仅就这其中纯光子计算的部分,也就是光的干涉过程所需的时间来看,光子芯片的确能够比电芯片快差不多1000倍。但如果算上整个光子计算机系统所需要的时间,还有光电转换、数模转换以及内存、数字电路所花费的时间,那肯定无法达到1000倍的速度,也无法达到数百万倍的能效提升。"光子计算比电子计算在相同节点下,能效领先5倍到10倍是一个合理的数字。"

光计算还有一个“缺点”,就是模拟计算的精度有限。正如习惯了开燃油车(以及其背后的工业体系和服务设施)的人刚接触电动车时可能认为电动车的电池续航能力是一个缺陷,如今的主流软件开发都是基于电芯片的硬件来开发高精度的算法,在这种高度依赖高精度算法的生态环境下,光计算的精度常常成为约束。“但很多人不一定意识到的是,今天世界上最强大的人工智能还没有办法媲美人脑。而人脑就是一个典型的低精度模拟计算系统。所以精度低这个特点本身并不意味着模拟计算比数字计算要差,只能说各自适合不同的任务”,沈亦晨说。

加州光子芯片初创公司 Lightmatter 的创始人兼CEO尼克·哈里斯(Nick Harris)指出,光学计算机不适用于逻辑运算。但他表示,尽管它们"永远不会运行Windows,但它们是运行神经网络的绝佳替代品"。[2]

因为,如果在低精度算法之下,光计算的低功耗、低时延的优势就显现出来。正如在加速性能领域,电动车的表现可以远超同价位的燃油车。[3]

 

 

人工智能深度学习网络的不断发展,是光计算商业化的主要推动力。最初的神经网络只有一两层,节点几千个,如今的深度学习网络能达到一百多层,数十亿节点,对算力需求巨大。此外,成本问题也不容小觑,毕竟处理愈加复杂的神经网络和数据,电力消耗指数级上升。

光计算按照物理实现的方式可分为基于经典光学的计算和基于量子光学的计算,经典光计算可利用光的波动特性如干涉、衍射等规律来实现计算功能。量子计算包括超导、半导体、离子阱、光学等多种技术方案,光量子计算是以光子作为量子比特进行计算,通过对光子进行量子操控及测量来完成计算。[4]

不过,光计算的玩家并没有打算完全放弃电芯片。对他们来说,光芯片和电芯片是一种互补,而不是替代。"这种互补在于,光芯片可以帮助电芯片在特定算法中提升算力。"一位光计算从业者表示。并且,光芯片制造工艺对制程不敏感,这样一来,不依赖先进制程就能达到提升整体算力效能的目的。

基于业界的这一共识,当前的光计算技术路线以光电融合为主,如今已实现产品形态的光计算芯片架构都包含光芯片和电芯片。

在全球范围内,风投、政府、初创公司和高校共同推动了这一古老研究的商业化。

2019年,美国国防部高级研究计划局(DARPA)启动了LUMOS项目,以研究具备深度学习能力、高算力和低功耗的集成光子芯片;欧盟"地平线2020计划"资助建立了PhotonHub Europe,通过全方位服务的一站式光子创新中心加快欧洲工业对光子技术的采用和部署。此外,欧盟通过电子元件和系统联合承诺等年度战略计划,进一步支持光子技术的发展;荷兰方面,2022年4 月,荷兰政府通过国家基金并联合私营企业向光子集成电路产业投入11亿欧元,以加速光子芯片技术创新研究。

英特尔在光芯片的道路上走得很早,其研究硅光技术20多年,并成立了互连集成光子学研究中心;IBM、谷歌、思科、NTT等国际公司也投入资源。全球也涌现出数十家光电混合算力初创企业,大多孵化于高校,如麻省理工学院团队创办的Lightmatter和从剑桥大学走出来的光计算公司Optalysys。今年10月,Lightmatter完成了4亿美元的D轮融资,估值达到44亿美元。这意味着国际资本对光芯片的认可。

不过,根据第三方研究机构中国信通院的统计和研究,尽管全球光计算公司已有数十家,但已出现了截然不同的状态。一类公司的光计算业务几乎停滞,迟迟无法商用;一类公司的重点从光计算转向了光互连;一直在光计算上坚持的公司并不多,因为光计算的技术壁垒更高,商业化的路线更长,不过,能够在这条路上坚持下来,并具备产品化能力的,依然是市场热捧的对象,例如Lightmatter和曦智科技,两家公司目前分居全球光计算公司估值前两名。

2025年3月,曦智科技发布的新一代光电混合计算卡曦智天枢,其核心是包含了128*128的光子矩阵的光学处理单元(OPU)和电学专用集成电路(ACIS),采用了大规模光电集成技术,通过TSV+Flipchip先进封装技术将光电芯片集成和封装,具有高性能、可编程性和通用性的性能优势。[5]

对光计算来说,矩阵相当于电芯片中制程的概念,矩阵需要不断做大以提升性能。矩阵扩大带来算力的提升,相应的单位算力功耗也会越低。

沈亦晨透露,曦智科技已经在开发下一代256*256矩阵的光计算产品,曦智科技的光计算技术路线规划仍然在稳步推进。

光计算进入"Roadster时刻"

光计算如今处于什么阶段?其第一批应用场景可能会在哪里?

对更多产业人士而言,论文中的指标只能作为参考,从实验室到商业化之间,存在着"死亡之谷",有许多工程化问题需要解决。

以曦智科技的天枢计算卡为例,随着光计算矩阵的规模不断扩大,光电芯片的超大规模集成将面临重大挑战。为了应对这些问题,TSV垂直封装技术变得尤为重要。同时,温度波动对计算精度的影响也会变成一个亟待解决的难题。曦智科技的硅光设计工程师华士跃表示,天枢的工程化问题,花了三年到四年的时间才解决,工程实现周期很长。曦智科技更坦言,公司在天枢开发上投入的研发成本,比之前所有的研发投入都要多。

光计算的商业化进程如何?沈亦晨打了一个比方——从曦智科技的角度看,天枢的发布,意味着光计算进入了特斯拉的Roadster阶段。

2006年特斯拉的第一款电动跑车Roadster在加利福尼亚州圣莫尼卡机场巴克机库首次亮相,彼时,世人对于电动汽车这个概念,都还觉得是"天方夜谭"——首款Roadster由一个用了6831个独立的锂离子电池的巨大电池组驱动,这被视为是特斯拉在电动汽车技术上的首次商业化尝试。[9]

多年后马斯克回忆Roadster从设计到商业化的过程,称"这基本上是一场疯狂的噩梦。我们犯了各种各样的错误,错误如此之多,令人尴尬。"

Roadster是特斯拉首款使用锂离子电池的量产全电动跑车,也是首款续航里程达到200英里(320千米)的纯电动车。Roadster当年的首批客户,以科技极客群体为主。2006年7月,马斯克在硅谷一场邀请制的线下聚会中向大众展示了红黑两辆Roadster原型车,并邀请了众多科技富豪前来试驾。试驾现场,获得了30份订单。

Roadster创造的历史并不止于此,2018年,Roadster成为了有史以来第一辆穿越大气层前往太空的汽车。

沈亦晨对这样的科技故事娓娓道来,Roadster这种写满叛逆的开创性,将不可能变为可能的经历,是沈亦晨对于曦智产品的投射。沈亦晨笑称,2021年发布的PACE是不能转弯的电动车,只能在一些比赛上面跑,而今天的天枢则是一辆可以上路的电动车,具备了商业通用性,其商业化进展目前就在Roadster当初的小范围百台订单阶段。

与曦智的上一代光计算产品PACE相比,曦智刚刚发布的天枢计算卡,除了继续支持光计算在部分应用场景中跑出相较于纯电芯片的速度优势外,最大提升来自于可编程性和通用性的提升。这款光计算处理器上甚至已经可以跑大模型算法——尽管受限于存储带宽,速度还很有限。

光计算今天走到了一个非常关键的时刻。

清华大学经济管理学院教授杨斌、朱恒源在其《战略节奏》一书中提及了市场发展的S曲线,随着行业的增长,市场会出现四个发展阶段。

第一个阶段是小众市场,用户为发烧友,规模小且零散,成长速度慢,需求差异高;第二阶段的用户为大众市场,用户为大众,规模大、成长速度快、需求差异低;分众市场为挑剔客,规模大、增速平稳、需求差异高;杂合市场的用户高度碎片化,规模趋于稳定,成长速度低,需求差异性高。[10]

如今光计算芯片正处于从小众市场向大众市场转变的关键节点,需要快速建立生态、拓展用户和市场。

在交流中,沈亦晨与曦智科技首席运营官王泷都不断强调生态的重要性。造芯片难,但建立生态的难度可能是造芯片的几百倍,这考验的不光是技术的领先与否,还有建立在芯片之上的整个软件栈。"需要让原本习惯吃西餐的人习惯吃中餐。"一位芯片研究人员做了如此比喻。

生态需要越来越多开发者加入,也需要时间的耕耘。英伟达就是最好的例子。对这家公司而言,芯片仅是其战略布局中的一环,关键的是软件生态。"给没有实力做软件开发的公司提供软件服务。"前述研究人员表示。当大家习惯了用CUDA写程序,就很难适应别的生态。

1999年,英伟达推出了首款GPU,此后,英伟达启动了超级CUDA计算平台的开发。黄仁勋的设想是要在每一颗显卡上都运行CUDA。2006年,英伟达发布CUDA时,并没有在科技界掀起太大风浪。英伟达选择从高校入手——与全球顶尖研究机构和大学合作,逐步扩充应用场景。这种看似难以获得短期回报的途径,是很多新技术商业化探索的路线。因为高校的产品对稳定性和量产的要求不高,还能成为最前沿的研究的试验场,或许能够押中体现技术优势的应用场景,从而实现商业化起飞,迅速从小众市场上升到大众市场。

2009年,多伦多大学教授杰弗里·辛顿(Geoffrey Hinton,2024年诺贝尔物理学奖得主)的团队利用英伟达的CUDA平台训练了一个神经网络模型,用来进行语音识别。2012年,辛顿的学生Alex Krizhevsky和Ilya Sutskever用了两个英伟达的GPU,在CUDA平台上训练一个视觉识别神经网络。与之相比,谷歌研究员训练一个识别猫的神经网络,需要大概一万六千个CPU。[11]

在沈亦晨看来,要建立一个光计算的生态,选择从高校入手也是目前看来最理想的商业化路径。曦智科技与学校大量合作,提供光计算芯片给高校研究者们尝试新场景应用。

曾经,一位多年芯片创业者与笔者交流时提及,芯片客户分为三类,互联网客户、传统行业客户和新基建类客户。互联网客户的生态依赖性最高,落地难度最大,而后两者对国产化的需求更为迫切,这是中国芯片公司的机会,也是光计算企业的机会。反观美国,因为电计算的势头太强,以英伟达为首的企业占据了过多风头,使得电计算之外的技术路线难以有崭露头角的机会。

"如果能够把模型的精度要求降下来,通过1-2年时间进行算法的量化开发,或许三年之后,就能够看到有一代光计算产品的各方面性能明显优于中国大陆用户所使用的电计算方案。"——我们的这段对话发生在2024年底。一个多月之后,DeepSeek横空出世,模型的精度要求下降,沈亦晨的预测已经实现了一半。