为什么IBM是量子计算的行业灯塔?IBM发布万字宏伟蓝图

光子盒研究院出品



为什么IBM是量子计算的行业灯塔?看完这篇文章你就知道了!


随着量子处理单元(QPU)的出现,IBM在历史上第一次看到了计算范式的一个分支点。提取计算的全部潜力并实现具有超多项式速度的量子算法,很可能需要量子纠错技术的重大进展。同时,通过电路编织技术组合多个QPU、错误抑制和缓解提高解决方案的质量,以及专注于具有渐进式加速的量子算法的启发式版本,在近期实现计算优势是可能的。


为了实现这一点,量子计算硬件的性能需要提高,软件需要将量子和经典处理器无缝整合在一起,IBM表示,这形成了一个新的架构——以量子为中心的超级计算机。


目录:

1. 量子计算的历史、现状和挑战

2. 迈向实用的量子电路

2.1. 量子纠错

2.2. 错误抑制

2.3. 电路编织

2.4. 启发式量子算法

2.5. 总结

3. 通往大型量子系统之路

3.1. 学习的周期性

3.2. 配套硬件

3.3. 量子处理器的经典并行化

3.4. 模块化

4. 未来:以量子为中心的超级计算机——量子堆栈

5. 结论:量子计算的短期、中期、长期愿景


01

量子计算的历史、现状和挑战


计算的历史是因需要进行更复杂的计算而产生的进步。日益先进的半导体制造工艺带来了更快、更有效的芯片,以及像GPU、TPU和AI处理器这样的特殊加速器,使得在更大的数据集上进行更有效的计算。


现在,随着量子计算机的出现,计算领域在历史上首次出现了分支。当量子计算机扩展时,有望实现常规计算机难以实现的计算:从量子力学系统建模到线性代数、因式分解、搜索等等。


释放量子处理器的全部潜力需要实现大量计算。由于量子门的精度大大低于经典门,人们认为,要实现具有数百万或数十亿个门的长时间计算,必须进行纠错;因此,大多数量子计算平台的设计是以实现错误纠正的量子电路为长期目标的。


当噪声率下降到与架构相关的恒定阈值以下时,通过对每个量子比特进行冗余编码并重复测量奇偶校验位算子来检测和纠正错误,一个任意长的量子电路可以可靠地执行。然而,解决经典难题的纠错量子电路所需的量子比特数量超过了目前可用系统的规模:超出了几个数量级。


同时,随着量子计算机中量子比特的质量和数量不断增长,我们必须能够提高量子电路的计算能力。例如,一个具有99.99%的双量子比特门精度的量子处理单元(QPU)可以实现具有几千个门的电路,并相当可靠而不需要求助于错误修正技术,即使在现代超级计算机的帮助下,这种电路实际上是不可能进行经典模拟的。这表明,在与商业或科学相关的计算任务上,可以通过量子计算更有效、更经济、更准确地完成,甚至不使用错误纠正技术。


要做到这一点,需要回答三个核心问题:



问题(1)通过量子错误缓解和电路编织来解决这些技术扩大了可以在给定的QPU上可靠地执行的量子电路的规模,而不需要诉诸于错误纠正。IBM团队估计了最先进的错误缓解方法所带来的开销,并讨论了最近关于如何结合错误纠正和缓解的想法。电路编织技术利用模拟系统的结构特性,如几何定位,将大型量子电路分解成较小的子电路,或将多个QPU产生的结果结合起来。


在计算物理学或化学中使用的经典模拟算法通常是启发式的,并且在实践中运行良好,尽管它们没有严格的性能保证。因此,为模拟时间演化而设计的严格的量子算法需要有成本更低的启发式版本,以适配近期的QPU;这种算法将可以解决问题(2)。


为了接近问题(3),IBM讨论了被称为“低密度奇偶校验量子码”(LDPC)的表面码。这些编码可以将更多的逻辑量子比特装入给定数量的物理量子比特中,这样,随着量子电路规模的增长,只有物理量子比特的恒定部分被用于纠错。这些更加电子化的代码需要嵌入二维网格的量子比特之间的长距离连接,但是电子化的好处预计会超过长距离连接的成本。


然后,IBM讨论了以量子为中心的超级计算:这是一个新的架构,用于实现错误缓解、电路编织和启发式量子算法的大量经典计算。这个架构的核心是经典和量子的集成和模块化。需要实时的经典集成,以便在经典计算上调节量子电路(动态电路)、最终实现纠错、并在编译时实现电路编织和高级编译。并且,需要模块化以便通过使用并行化来实现工作流程的扩展和加速。最后,IBM讨论了对量子堆栈的要求,通过定义不同的层来整合经典和量子计算,从而定义对延迟、并行化和计算指令的要求。


由此,可以确定一个类似集群的架构——以量子为中心的超级计算机。它由许多量子计算节点组成,包括经典计算机、控制电子设备和QPU。一个量子运行时可以在以量子为中心的超级计算机上执行,在云端或其他经典计算机上工作,以并行方式运行。


当然,实现这些机器的计算能力需要工程师、物理学家、计算机科学家和软件开发人员的协同努力。


02

迈向实用的量子电路


尽管原则上量子计算机可以复制传统硬件上进行的任何计算,但绝大多数日常任务预计不会受益于量子力学影响。然而,使用量子力学来存储和处理信息可以为某些应用带来巨大的速度提升。


特别值得关注的是,在一些任务中,量子算法的运行时间是问题大小n的一个指数,例如nn,而已知的解决该问题的最佳经典算法的运行时间增长速度超过n的任何常数,例如2n或2。我们将运行时间定义为在一个给定的问题实例中实现算法的电路(或线路)的基本门的数量。随着问题大小n的增长,量子运行时间的更有利的扩展迅速补偿了量子门相对较高的成本和缓慢的速度。从纯理论的角度看,这些指数级的或超多项式的加速是令人着迷的,并为推进量子技术的发展提供了令人信服的实际理由。


已知的具有指数级量子速度的任务的例子包括量子多体系统的模拟、数论问题(如整数因子)、解决某些类型的线性系统、用于拓扑数据分析的贝蒂数的计算,以及计算结和链接的拓扑变数。


量子多体系统的模拟由于其众多的科学和工业应用,以及作为量子计算的原始价值主张,已经重新得到了最多的关注。多体系统的基态和热平衡特性通常可以通过经典的启发式算法,如动态均值场理论(DMFT)或微扰方法来理解;然而,理解它们在相干动力学支配的体系中远离平衡的行为或对强相互作用的电子进行高精度的基态模拟(例如量子化学模拟),对经典计算机来说是一个众所周知的难题。


2.1. 量子纠错


传统的经典计算机无处不在的一个原因是它们能够可靠地存储和处理信息。由于许多电子的集体状态对逻辑0和1状态的高度冗余表示,微芯片中电荷或电流的小波动可以被容忍。量子纠错码为量子状态提供了类似的冗余表示,保护它们免受某些类型的错误。


一个单一的逻辑量子比特可以通过指定一对正交的n个量子比特状态|0〉和|1〉来编码成n个物理量子比特,称为逻辑0和逻辑1。一个单量子比特状态α|0〉+β|1〉由逻辑状态α|0〉+β|1〉编码。如果任何影响少于d个量子比特的操作都不能区分逻辑状态|0〉和|1〉或将它们相互映射,那么代码就有距离d。更一般地说,一个代码可能有k个逻辑量子比特编码成n个物理量子比特,代码距离d量化了在逻辑(编码)状态被破坏之前需要多少个物理量子比特被破坏。因此,好的代码有一个大的距离d和一个大的编码率k/n。


稳定器型编码是迄今为止研究得最多、最有前途的编码系列。一个稳定器编码是由一个叫做稳定器的多量子比特泡利观测变量的交换列表来定义的,这样的逻辑状态是每个稳定器的+1特征向量。我们可以把稳定器看作是经典奇偶校验位的量子类似物。综合征测量的目的是识别那些由于错误而导致其特征值飞出的稳定器。每个稳定器的特征值被反复测量,其结果被称为错误综合征,被发送到经典解码算法。假设有问题的量子比特和门的数量非常小,错误综合征提供了足够的信息来识别错误(modulo stabilizers)。然后,解码器可以输出需要应用的操作来恢复原来的逻辑状态。


大多数为量子计算设计的编码都是LDPC类型的,这意味着每个稳定器只作用于少量的量子比特,每个量子比特参与少量的稳定器。量子LDPC码的主要优点是综合征测量可以用一个简单的恒定深度量子电路来完成,这确保了综合征信息的收集频率足以应对错误的积累。此外,由综合征测量电路本身引起的错误是非常良性的,因为该电路只能在一个大小不变的“光锥(light cone)”内传播错误。


一个代码必须满足几个要求才能在量子计算中得到应用。1)首先,它必须有一个足够高的错误阈值:它能容忍的最大水平的硬件噪声;如果错误率低于阈值,逻辑量子比特的寿命可以通过选择足够大的码距而变得特别长。否则,错误的积累速度会超过编码的纠正速度,逻辑量子比特会变得比组成的物理量子比特更不可靠。2)其次,我们需要一个快速的解码算法,在量子计算进行的过程中实时地进行错误纠正。这可能是一个挑战,因为一般稳定器编码的解码问题在最坏情况下已知是NP-hard问题。3)第三,我们必须能够在不影响保护的情况下对逻辑量子比特进行计算。


到目前为止,二维表面码被认为是在错误阈值方面无可争议的领先者。对于通常研究的去极化噪声来说接近1%,但它有两个重要的缺点。首先,为每个逻辑量子比特分配一个大约d×d的物理量子比特补丁会产生大量的开销。不幸的是,有研究表明任何二维稳定器代码的编码率k/n=O(1/d2),在大的代码间距下消失。这意味着,当人们增加表面代码所提供的保护程度(由代码距离d量化)时,其编码率接近零。也就是说,随着量子电路规模的扩大,绝大部分物理量子比特被用于纠错。这是所有可以在二维几何中局部实现的量子编码的一个已知的基本限制。


为了使纠错更实用,并尽量减少量子比特的开销,具有大编码率k/n的编码更可取。例如,量子LDPC码可以实现独立于编码大小的恒定编码率。事实上,编码率可以任意地接近于1。作为比较,二维表面码有一个渐近消失的编码率,并且距离最多为√n。某些LDPC码有一个被称为单次纠错的有利特性。它们提供了一组高度冗余的低权重泡利观测值(称为规整算子),可以通过测量来更合理地获得错误综合征。这就把每个逻辑门的综合征测量周期从O(d)减少到O(1),从而使逻辑门的速度非常快。量子LDPC码的综合征测量电路需要稳定器结构所决定的量子比特连通性,即必须能够将参与同一稳定器的量子比特进行耦合。已知的具有单次纠错功能的LDPC码的例子需要3D或4D几何结构。


表面码的第二个缺点是实现一套计算上通用的逻辑门的难度。表面码及其变体,如蜂窝码或折叠表面码,可以低开销地实现逻辑Clifford门,如CNOT、Hadamard H和相移S。这些门可以通过使用代码变形方法改变每个时间步长测量的稳定器的模式来实现。然而,Clifford门本身并不是计算上的通用门。实现普适性的一个常见策略是基于准备逻辑辅助状态——魔法态。魔法态相当于(Clifford操作)一个单量子门Clifford+T门集是通用的,并且具有丰富的代数结构,可以使量子算法的编译更加精确和接近最优。


不幸的是,提取高能效的魔法态的开销大得惊人。最近提出了几种减少这种开销的策略,包括高产的魔法态提取方法、准备“原始”噪声魔法态的更好策略,以减少提取轮次的重新要求、提取电路的更好表面码实现等。这些方法与魔法态提取法相比是否有竞争力,还有待观察。


2.2. 错误抑制


尽管纠错对于实现具有强大计算能力的大规模量子算法至关重要,但对于中小规模的计算来说可能是矫枉过正;对于浅层量子电路的有限修正形式可以通过结合多个含噪声量子的实验结果来实现,以消除噪声对量的贡献。这些方法统称为错误缓解,很适合今天的QPU,因为它们在量子比特的数量上几乎没有引入开销,在额外的门上也只有少量开销。


然而,错误缓解的代价是需要执行的电路(实验)数量增加。一般来说,这将导致指数级的开销;然而,随着硬件和控制方法的改进,指数的基数可以接近于1,而且每个实验可以并行运行。此外,已知的错误缓解方法只适用于一类有限的量子算法,这些算法使用量子电路的输出状态来测定观测值的期望值。


概率错误消除(PEC)旨在通过一个可以在给定的量子计算机上实现的噪声电路的加权和来接近理想的量子电路。如果系统中的噪声被很好地表征出来,分配给每个噪声电路的权重可以通过分析计算出来,或者通过减轻电路训练集的错误来学习,这些电路可以被经典地模拟出来。


关于现有的错误缓解建议,可以在参考文献[1]中找到。IBM预计,由于最近在量子噪声计量学方面的理论和实验进展,PEC的采用将会增加;当具有100个或更多逻辑量子比特的纠错QPU出现时,错误缓解将继续具有重要意义。


2.3. 电路编织


我们可以扩大近期硬件的范围,通过使用电路编织技术来弥补其他缺陷,如有限的量子比特或量子比特的连接性。


这是指在量子计算机上模拟小的量子电路,并将其结果拼接成一个较大的量子电路的估计结果的过程。正如错误缓解的情况一样,已知的电路编织技术适用于一类有限的量子算法,其目的是估计可观测物的预期值。


最著名的例子是电路切割。在这种方法中,一个大的量子电路被一个由小的等距子电路组成的电路的加权和所近似。每个子电路都可以在一个小的QPU上单独执行。这种方法引入的开销(以电路重复的数量来衡量)与为了实现所需的电路分区而需要切割的双量子比特门或量子比特的数量呈指数级增长。令人惊讶的是,最近表明,通过使用只能交换经典数据的非交互式QPU并行运行等距子电路,可以大大减少电路切割的次数。这种方法需要能够实现动态电路的硬件,其中控制电子装置被扩展到包括独立的QPU。


第二个例子是纠缠锻造(entanglement forging),其中纠缠的变分状态被分解为乘积状态的加权和,或者一对量子比特寄存器之间的纠缠被转换为单个寄存器内的类似时间的相关性。这种方法的开销通常随着所选系统分区的纠缠量呈指数级增长。


第三个例子,与电路编织密切相关,使用嵌入方法将大型量子多体系统的模拟分解为较小的子系统,可以在QPU上单独模拟。子系统之间的相互作用是通过引入一个有效的“槽”(bath)来说明的,这个槽可以是一个经典的环境,也可以是另一个小的量子系统。原始系统的分解和浴池参数的操作是在一个可以与QPU交换经典数据的经典计算机上进行的。著名的建立在经典对应物上的量子嵌入方法的例子是动态均值场理论、密度矩阵嵌入,以及密度函数嵌入。


2.4. 启发式量子算法


启发式量子算法可以在近期内用于解决经典优化、机器学习和量子模拟问题。这些算法分为两类:使用核方法(kernel methods)的算法和变分量子算法(VQA)。量子核方法也已被发现,导致可证明的速度提升,并扩展到一类具有群结构的数据核。对于VQA来说,基本的建议是非常简单的:一个实验控制的试验状态被用作变分波函数,以最小化一个给定的量子哈密顿量的期望能量或一个编码感兴趣的问题的经典成本函数。试验状态通常被定义为一个浅层量子电路的输出状态,界定单个门的旋转角度作为变分参数;这些参数通过一个经典的反馈回路进行调整,以优化所选择的成本函数。


目前,还没有数学证据表明VQA能在任何任务中胜过经典算法。事实上,众所周知,基于二维或三维量子比特连通性的适当浅度(常数深度)变分电路的VQA可以在经典计算机上进行适当模拟,这就排除了量子优势。同时,基于深度变分电路的VQA的性能被噪声严重削弱。然而,随着QPU错误率的降低,科学家应该能够在中间阶段执行VQA,在这个阶段,量子电路已经很难进行经典模拟,但噪声的影响仍然可以得到缓解。


2.5. 小结


总而言之,获得量子优势的最好机会是把注意力集中在那些可以实现指数级(超多项式)量子加速的问题上。尽管通过正式证明实现这种加速的量子算法对于近期的硬设备来说遥不可及,但它的存在本身就是一个令人信服的证据,证明量子力学效应(如干扰或纠缠)对于解决所选问题是有益的。


其次,实现大规模量子算法的唯一已知方法是依靠量子纠错码。现有的基于表面码的技术并不令人满意,因为它们的编码率很低,逻辑非Clifford门的成本很高。解决这些缺点可能需要量子编码理论的进步,如开发基于量子LDPC码的高阈值容错协议,以及改善QPU的二维晶格以外的量子比特连接。用更便宜的替代方案来补充纠错,如错误缓解和电路编织,可能会提供一个更可扩展的方式来实现高延迟的量子电路。


第三,通过探索成本较低、可能是启发式的算法版本,近期的量子优势应该是可能的。这些启发式量子算法缺乏严格的性能保证,但它们可能能够事后证明一个解决方案的质量,并提供一种方法来解决无法经典模拟的问题。


IBM表示,相信这些一般的指导方针决定了量子计算理论的未来,并将引导我们在未来几年内对其解决科学上重要问题的好处进行重要的展示。


03

通往大型量子系统之路


上述观点导致了量子硬件的挑战。IBM相信,使用错误缓解、电路编织和启发式算法的混合方法会有近期的优势。在更长的时间框架内,部分纠错的系统将成为运行更高级应用的关键,再往下看,运行在尚未完全开发的具有非局部检查的LDPC码上的容错系统将是关键。所有这些方法的第一步都是一样的:我们需要有更多能够进行高延时操作的量子比特硬件;我们需要快速经典计算的紧密结合,以处理错误缓解和电路编织所需的电路的高运行率,以及错误纠正算法的经典开销后。


这促使我们确定一个硬件路径,从早期的启发式小量子电路开始,一直发展到达到纠错计算机。


3.1. 学习的周期性


这条道路上的第一步是建立能够展示近期优势的错误缓解和有限形式的错误纠正的系统。


就在几年前,QPU的规模还受限于控制电子器件的成本和可用性、I/O空间、控制软件的质量,以及一个被称为“打破平面(breaking the plane)”的问题[2],即把微波控制和读出线路路由到密集阵列中心的量子比特。今天,这些直接影响扩展障碍的解决方案已经被证明,这使我们能够将量子比特的数量提高到100以上,超过了量子系统变得难以经典模拟的门槛,量子优势的例子成为可能。


下一个重要的里程碑是:(1)提高QPU的延时性,使其能够探索具有有限纠错的近期量子优势的量子电路;(2)提高二维以上的量子比特连接性:无论是通过修改门、非微观拓扑的稀疏连接,还是增加三维集成中量子信号的层数,以便能够长期探索有效的非二维LDPC纠错编码。这些发展都是我们长期愿景所需要的,但可以同时进行。


通过改善门延迟来提高量子系统的质量的工作涉及到许多循环的学习,尝试耦合方案,工艺变化,以及控制耦合和串扰的创新。将这项工作扩展到能够展示量子优势的大型QPU,并最终扩展到我们预期的遥远未来的极端系统规模,需要将不同的技术与足够的可靠性和技能相结合,使规模受到成本和需求的限制,而不是技术能力。这增加了QPU的可靠性、可预测性和可制造性方面的挑战,同时继续将改进的技术纳入这些复杂的系统中;同时,大型系统的开发、制造和测试时间的增加造成了创新周期的滞后,必须加以克服。


制造周期随着QPU的复杂性而增加。许多简单的跨门QPU只需要单层光刻技术,可以在一两天内轻松制造出来。即使是IBM最初的外部云量子系统的5和16比特QPU也只涉及两个光刻步骤,并需要一个星期的时间来制造。与此相比,更先进的封装方案,如麻省理工学院林肯实验室的方案或IBM较新的“Eagle”QPU,它们涉及几十个光刻步骤和缓慢的工艺步骤,在研究型设施中使用独一无二的工具需要几个月的时间来建造。循环时间的增加使其更难达到所需的保真度和相干时间,以及调试制造和装配以获得可靠的QPU产量。


一个可以打破与数百个量子比特的集成兼容的信号传递平面的方案的例子。它是由适应传统CMOS处理的技术组成的。


半导体制造中的可靠性不是一个新问题。一般来说,在建造规模化机器所面临的独特组件挑战中,对集成在芯片上的常规半导体技术的研究最为深入。将它们纳入超导技术,与其说是发明新方法,不如说是确保相关工艺相互兼容的问题。然而,我们预计需要的体积的快速增长是一个重大挑战。


在超导量子系统中的许多故障模式在QPU冷却到其工作温度(低于100 mK)之前是无法检测的。这是一个严重的瓶颈,使在线测试(在QPU构建完成之前,对设备子组件进行关键指标测试)和工艺前馈(未来的工艺步骤被修改,以纠正早期步骤的小偏差,并稳定总的设备性能)变得困难或不可能。但也有例外,在室温下将简单的测量与最终的QPU性能紧密联系起来是可行的:例如,约瑟夫森结的电阻测量可以准确地预测其临界电流,从而预测用其制造的量子比特的频率,这是固定频率系统的关键参数。


我们可以利用这些统计学上的相关性,在工艺的某些部分或工艺后的调整中取得快速进展。


如果没有这些相关性,我们可以使用简化的测试载体;例如,在试图提高量子比特的一致性时,我们可以使用一个简化的设备,以获得良好的统计数据和快速处理,而不是使用整个复杂的信号传输堆栈。尽管如此,确定导致相干性提高的具体步骤并非易事。在材料加工中,很少有可能只改变一个参数。改变量子比特中的金属也可能改变蚀刻参数、与金属兼容的化学品以进行后续加工,甚至是允许的温度范围。一旦找到了改进的工艺,就很难准确地确定哪些步骤是关键的,哪些只是权宜之计。


在进行材料研究时,我们必须收集大量的统计数据,以使结果有意义,并提供足够的确定性。我们应该仔细记录任何相关的过程分割,我们应该公布导致中性甚至负面结果的材料过程变化,而不仅仅是公布高度成功的工作。


类似的困难也发生在基于非材料的器件研究中。一些门在成对的量子比特之间工作良好,但却表现出很强的耦合性,使它们不适合于较大的QPU或损害单量子比特性能。从技术或预算的角度来看,三和四量子比特实验不再具有挑战性。为了与更大的QPU相关,研究需要摆脱双量子比特的演示,特别是单对量子比特之间的实验,其中许多关键缺陷可以被运气所掩盖。


长周期的复杂设备和短周期的测试工具的混合,用于子过程的开发和量子操作,是继续提高QPU质量的关键,并提供了一个持续研发贡献的秘诀,因为最大的QPU开始超过较小的小组和实验室的能力。尽管如此,仍然需要减少长周期时间。其中一些会自然而然地出现:首创工艺和QPU通常需要更长的时间,因为它们往往包括前道步骤、检查和在线测试,虽然一般的最佳实践建议这样做,但可能没有必要。虽然从成本的角度来看会产生反作用,但重复建造“相同”的QPU以解决制造问题并加快创新周期,可能是具有最复杂制造流程的最大QPU的成功策略。


3.2. 配套硬件


扩展到更大的系统还需要扩展经典的控制硬件和进出低温箱的输入/输出(I/O)链。这个I/O链,虽然仍然需要为被控制的确切QPU进行大量的定制,但由大量更传统的设备组成;例如,隔离器、放大器、按比例的信号传输系统,以及更奇特的替代品,如非铁氧体隔离器和量子限制放大器,可能会提高性能、成本或尺寸。这些组件在追求量子计算的各个小组之间有巨大的共享潜力,在某些情况下,可以从商业上购买。


然而,以目前所需的规模组装这些系统需要高容量的低温测试能力,而目前在量子生态系统中并不存在这种能力,这就产生了对垂直整合的量子系统制造的短期需求。这方面的挑战是建立一个能够进行规模化、低成本生产的供应商和测试生态系统:由于需求有点投机性,这个挑战变得非常困难。


每个系统也只有一个部件;例如,我们部署的每台量子计算机只需要一个稀释制冷机,或者在很多情况下是其一部分。稀释制冷机制造商有效地充当了低温冷却器、布线解决方案、泵送系统,甚至是一些辅助电子设备的系统集成商。如果我们能够将这些接口标准化,从而保持我们所需要的灵活性,以便随着系统规模的扩大而迅速改变,这样就很容易实现,例如,在4K时转向一个更可扩展的冷却技术,不需要重新设计整个制冷基础设施。


目前,每个建造大型QPU的小组都有自己的定制控制硬件。鉴于完全不同的控制模式和要求,这些系统的模拟前端不可能被共享。然而,对于所有类型的量子计算机,不仅仅是固态计算机,都需要低成本和低功耗的排序逻辑(分支,本地和非本地条件,循环)。当我们扩展到数千个量子比特甚至更多时,这些可能需要被内置到一个定制的处理器:应用规格集成电路或ASIC中。除此之外,将量子电路转化为该控制硬件的底层表示的软件正变得越来越复杂,生产成本越来越高。


降低成本有利于建立一个带有定制模拟前端的通用控制平台,像OpenQASM3[3]这样的开放规格的控制协议已经在为这种转变铺平道路。


3.3. 量子处理器的经典并行化


要达到近期的量子优势,需要利用电路编织和错误缓解等技术,有效地扩展QPU的能力:用额外的电路执行来模拟更多的量子比特或更高的密度。这些问题可以是令人满意的并行问题,其中个别电路可以在多个QPU上完全独立地执行,或者可以从这些跨越多个QPU的电路之间执行经典通信的能力中受益。引入能够运行多个QPU的控制硬件,就像它们是具有共享经典逻辑的单个QPU一样,或者将单个QPU分割成多个虚拟QPU,以实现量子工作负载的经典并行化,是将这种优势延伸到极限的重要近期技术。


从长远来看,当我们开始建立跨越多个芯片和多个低温箱的量子系统,即模块化的量子系统时,这些技术将发挥关键的推动作用。


3.4. 模块化


模块化量子系统的引入将是引导我们从近期的量子优势走向长期纠错的量子系统的关键。


这些系统具有重复的单元格,如果有缺陷可以被替换,在芯片之间有量子链接来纠缠单元格或执行远程门。这种方法简化了QPU的设计和测试,并使我们能够随意扩展量子系统。


在短期内,考虑到有限的或没有纠错,单位单元将需要高带宽和高密率的链接来连接它们:没有足够的时间来使用复杂的协议,如纠缠分发技术。实现这一目标的最简单的建议是将量子总线扩展到芯片上,允许在遥远的芯片之间使用与单个处理器相同的门。这种“密集的模块化”有效地扩展了芯片的尺寸。这需要用超低损耗、低串扰的线路连接相邻的芯片,这些线路要足够短,以实现有效的单模:芯片之间的距离必须是单个芯片上量子比特之间的距离。来自经典计算硬件的一些技术可能适用于这个问题,但要增加更换单个单元的灵活性,就需要其他的替代方案。


除了(a)中所示的QPU的经典并行化之外,长距离的量子连接在门速度和延时方面有很高的缺陷。如(b)-(e)所示,一个高延性的大型量子系统可能涉及三个层次的模块化:非常短距离的模块化m,允许以最小的门速和延性成本将一个QPU分解成多个芯片。一个较长距离的连接l,在一个单一的低温环境中使用,以绕过I/O瓶颈,并允许非微妙的拓扑结构或路由,和一个非常长距离的光学“量子网络”t,允许附近的QPU作为一个单一的量子计算节点(QCN)一起工作。我们还需要片上非局部耦合器c,如(b)所示,用于探索LDPC码。在这张图中,粉红色的线代表量子通信,紫色的线代表经典通信。


这种“密集模块”中的高密度量子比特为经典的I/O和冷却创造了空间瓶颈。近期改善这一问题的建议包括开发高密度的连接器和电缆,将经典信号在芯片上和芯片外传输,以及增加时域和频域的复用控制。解决这个问题的一个较长期的方法是通过使用在长的传统电缆上执行的修改过的门来改善量子比特的连接,称为l模块化。


除了让我们摆脱控制和冷却瓶颈外,这些长距离耦合器还能实现非二维拓扑结构,从而不仅减少了量子比特之间的平均距离,而且还为探索更多的高效非二维LDPC纠错代码打开了大门。因此,开发这些长距离耦合器不仅使我们能够扩展我们的近期系统,而且开始形成如何建立具有多个QPU的量子系统的基础。


一旦开发和优化了密集模块化和长程耦合器的技术,最终将被移植回量子比特芯片,以实现非局部、非2D的连接。这些芯片上的非本地耦合器将最终允许实施高速率的LDPC码,使我们的长期愿景得以完成。


最后,以临时的方式连接多个量子计算机将使我们能够根据需要创建更大的系统。在这种“量子网络”方法中,信号通常被设想为离开稀释制冷机,通过使用光子t链路在不同的制冷机之间进行微波到光学传输的长期技术进步来实现。


长期可扩展量子系统中的模块化类型


一个实用的量子计算机将可能具有上述所有五种类型的模块化:经典的并行化、密集的芯片到芯片的二维格子的扩展(m)、稀疏的连接与稀释制冷机内的非微观拓扑结构(l),非局部的片上耦合,用于错误校正(c),和长距离的制冷机到制冷机的量子网络工作(t)。每一级模块化的最佳特征大小是一个开放的问题。单独的“芯片对芯片”模块仍将被做得尽可能大,最大限度地提高延时和连接带宽。在这样一个具有多层连接的系统上进行计算,仍然是一个研究和发展的问题。


模块化不仅需要发生在QPU的规模上,而且需要发生在系统的所有层面上。模块化的分类控制系统可以使子系统的测试、更换和组装变得容易。每年为大量的小模块建立测试基础设施要比单一的、可重复工作的单体容易得多。制冷系统也是如此,还有一个好处是运输和部署单体大型制冷系统是不现实的。我们目前的大量故障点是在I/O和信号传输方面,因此可以更换子组件的模块化解决方案是必不可少的;这里的挑战是将可更换的单元从一个单一的单元(电缆)转移到一个更大的单元(一个灵活的带状电缆或其他电缆组件)。


虽然在模块尺寸和其他硬件细节上还没有定论,但可以肯定的是,任何量子计算机的效用是由其以量子优势解决有用问题的能力决定的;最终,硬件所提供的能力是通过软件来实现的,而软件必须能够对机器进行灵活的、简单的、直观的编程。


04

未来:以量子为中心的超级计算机——量子堆栈


要想让量子计算成功改变计算的意义,我们需要改变计算的架构。量子计算不会取代经典计算,而是成为经典计算的一个重要组成部分。IBM认为,计算的未来是以量子为中心的超级计算机,其中QPU、CPU和GPU都在一起工作以加速计算。在整合经典和量子计算时,重要的是要确定(1)延迟,(2)并行性(包括量子和经典),以及(3)什么指令应该在量子与经典处理器上运行。这些要点决定了经典和量子整合的不同层次。


在我们进入堆栈之前,我们需要重新定义量子电路:量子电路是一个计算程序,包括对量子数据(如量子比特)的相干量子操作,以及并发的(或实时的)经典运算。它是一个有序的量子门、测量和复位的序列,它可能是有条件的,并使用实时经典计算的数据。它可以在不同的细节层次上表示:从抽象的单元操作到设置物理操作的精确时间和调度。


电路可以在不同层次上表示。单元块代表库中的电路。这些电路可以使用通用的门电路组分解成参数化的电路。参数化的物理电路使用硬件支持的物理门,而预定电路则指定定时、校准和脉冲形状。


这足以代表电路模型、测量模型和计算的绝热模型,以及特殊的程序,如远距传输。此外,可以在不同层次上表示电路:单元(单元块,可以代表电路库,如量子相位估计,经典函数等)、标准分解(简化为一组通用门或将经典函数表达为可逆门)、参数化物理电路(使用硬件支持的物理门,可能包括电路中未使用的辅助量子比特,或易于实时更新的参数),以及预定电路(完整的定时形成,校准的门,或指定脉冲形状的门)。


量子软件栈由四层组成,每层都针对最有效地执行不同层次的工作。底层的重点是量子电路的执行。在它上面,量子运行时间明智地整合了经典和量子计算,执行原始程序,并实现了错误缓解或纠正。再往上一层(量子无服务器)提供无缝的编程环境,通过云计算提供集成的经典和量子计算,而不给开发者带来基础设施管理的负担。最后,顶层允许用户定义工作流程并开发软件应用。


有了这个扩展的量子电路的定义,就可以定义一个软件栈。上图显示了堆栈的高层视图,我们已经定义了四个重要的层次:动态电路、量子运行时间、无量子服务器和软件应用。在最底层,软件需要专注于执行电路;在这个层面上,电路是由Controller binaries文件表示的,它将非常依赖于超导量子比特硬件,支持的条件操作和逻辑,以及使用的控制电子。它需要控制硬件能够在不同组件之间以低延迟移动数据,同时保持紧密同步。对于超导量子比特,实时经典通信将需要约100纳秒的延迟。为了达到这个延迟,控制器将位于离QPU非常近的地方。


今天,控制器是用FPGA构建的,以提供所需的灵活性,但随着我们进入更大数量的量子比特和更先进的条件逻辑,我们将需要ASIC或甚至冷CMOS。我们把下一个层次称为量子运行层。这是核心的量子计算层。在最一般的形式下,我们期望量子计算机运行量子电路,并在其输出端产生非经典的概率分布。


因此,大部分的工作负载是从分布中取样或估计性质的。因此,量子运行时间至少需要包括两个原始程序:采样器和估算器。采样器从量子电路中收集样本,重建输出的准概率分布;估算器允许用户合理地计算观测值的期望值。


发送给运行时的电路将是一个参数化的物理电路。该软件将进行运行时编译并处理结果,然后再返回修正的结果。运行时编译将更新参数,增加错误抑制技术,如动态解耦,执行时间调度和门/操作并行化,并生成控制程序代码。它还会用错误缓解技术处理结果,并在将来进行错误纠正。电路执行时间可能低至100微秒(错误纠正甚至可能是1微秒),这在云上是不可能的。它将需要被安装在云端,作为该系统的一部分。它将需要作为量子计算机的一部分来安装。


量子无服务器架构的例子,整合了量子和经典计算。量子运行时间由估计器基元来说明。云计算是由一般的经典计算来说明的。专门的经典计算,如高精度计算(HPC)或图形处理单元(GPU)可以被集成到无服务器架构中。在电路切割中,使用专门的经典计算机将一个较大的电路分割成许多小电路。对于每个较小的电路,执行一个估计器基元(E1 , - - , EN),如果需要,可以使用经典计算例程,根据以前的估计器的结果来调节未来的电路。这个过程可以根据需要重复进行。在纠缠合成中,一个2N比特的波函数被分解成更多的N比特电路。纠缠合成可能需要被卸载到专门的经典处理器中。对于每个N-量子比特电路,执行一个估计器EN,并将其合并以得到全局结果。如果在变分算法中使用,这个过程可以重复。量子嵌入将一个问题中可以经典模拟的子部分与那些计算成本最高、需要量子计算的子部分分开。一个专门的经典计算机可以被用来对问题的先前结果进行调节。量子模拟采用在QPU上运行的估计器EN。估算器可以用一般的经典处理器上运行的经典计算来制约量子电路的先前结果。总的来说,这套工具允许更大的系统以更高的精度进行模拟。


在第三个层次,软件可以将高级经典计算与量子计算结合起来。正如本文前面所描述的,引入经典计算可以实现诸如电路编织的想法。在这里,我们需要能够调用量子原始程序,以及执行经典计算,如电路分割。我们称其为工作流(上图为电路编织的工作流例子)。我们将量子无服务器称为软件架构和工具,它支持这种方式,使开发人员只关注代码而不是经典的基础设施。除了电路编织,这一层还将允许高级电路编译,其中可能包括综合、布局和路由以及优化:所有这些都是在发送电路执行之前应该发生的电路简化部分。


最后,在最高的抽象层次上,网络平台必须允许用户有意识地开发软件应用。这些应用程序可能需要获取数据和资源,而不是量子计算本身所需要的,但需要为用户提供一个解决更普遍问题的方法。


我们刚才描述的软件栈的每一层都给量子计算带来了不同的经典计算要求,并为不同的开发者确定了一套不同的需求。量子计算需要启用至少三种不同类型的开发者:核(kernel)、算法和模型开发者。每个开发者都会创建软件、工具和库,为以上各层提供支持,从而增加量子计算的覆盖面。


核开发者专注于使量子电路在量子硬件上以高质量和高速度运行。这包括将错误抑制、错误缓解以及最终的错误纠正整合到运行时间环境中,并将简化的应用编程接口(API)返回到下一层。


算法开发者将量子运行时间与经典计算相结合,实现电路编织,并建立启发式量子算法和电路库;其目的是为了实现量子优势。最后,随着我们展示量子优势的例子,模型开发者将能够建立软件应用程序,找到他们特定领域复杂问题的有用解决方案,使企业能够从量子计算中获得价值。下图总结了软件堆栈的每一层所涉及的开发者类型,以及所涉及的时间尺度,这取决于所执行的工作类型以及每个开发者工作时离硬件的距离。


量子计算涉及的时间尺度和资源取决于不同类型的开发者的需求和他们工作的抽象水平。量子研究人员和核开发人员的工作更接近硬件,而模型开发人员需要最高级别的软件概念。


在把所有这些放在一起并扩展到我们所说的以量子为中心的超级计算机时,我们没有看到量子计算与经典计算整合为一个单一的架构。相反,下图说明了这种整合的架构是一个量子计算节点的集群与经典计算的耦合。颜色越深,经典节点和量子节点的位置就越近,以减少延迟。


集成了经典处理器和QPU的集群式架构模型,以解决延迟、并行化以及经典和量子处理器之间的指令分配问题。颜色越深,要求的延迟越低。


线程运行时间可以在多个控制器上执行原语。控制器之间的实时经典通信可以用来实现电路切割等功能。图中还显示了未来带有量子并行化(l和t耦合器)的QPU如何由一个控制器控制。IBM设想,可能会有工作负载需要近时间的经典通信(即基于电路结果的计算,必须在100微秒左右完成)或在基元之间共享状态,由数据结构实现。最后,协调机构将负责工作流、无服务器、嵌套程序(常见的经典+量子程序库)、电路编织工具箱和电路编译。


05

结论:量子计算的短期、中期、长期愿景


IBM描述了在未来几年内可以在一些科学上相关的问题上实现的量子优势,这一里程碑将通过以下方式实现:


(1)关注那些允许超多项式量子加速的问题,并推进理论设计算法:可能是基于中间深度电路的判例,这些算法可以超越最先进的经典方法;

(2)使用一套错误缓解技术和硬件感知软件的改进,最大限度地提高硬件结果的质量,并从嘈杂的量子电路输出中提取有用的数据;

(3)改进硬件,将QPU的保真度提高到99.99%或更高;

(4)允许电路执行并行化(与经典通信)的模块化架构设计。具有数学性能保证的减错技术,如PEC,尽管有一个指数级的经典处理成本,提供了一个量化预期运行时间和量子优势所需的处理器质量的手段。


这些就是量子计算的近期前景。


量子系统的质量和速度的进步将改善错误缓解方案所需的指数级经典处理成本,错误缓解和错误纠正的组合将推动逐步过渡到容错。经典和量子计算将被紧密地整合、协调,并通过无服务器环境进行管理,使开发人员只关注代码而不是基础设施。


这就是量子计算的中期未来。


最后,我们已经看到,实现大规模量子算法的多项式运行时间以实现全部的实际应用需要量子纠错,而像表面码这样的纠错方法由于在实现非Clifford门方面的低效率和低编码率而无法满足长期的需要。我们概述了发展具有高错误阈值的更有效的LDPC码所提供的前进方向,以及对具有非2D拓扑结构的模块化硬设备的需求,以便对这些码进行研究。


这种更高效的纠错是量子计算的长期未来。


报告原文:

https://arxiv.org/abs/2209.06841


参考链接:

[1]https://journals.jps.jp/doi/full/10.7566/JPSJ.90.032001

[2]https://www.nature.com/articles/s41534-016-0004-0

[3]https://dl.acm.org/doi/full/10.1145/3505636

展开阅读全文

页面更新:2024-03-23

标签:量子   灯塔   宏伟   启发式   蓝图   算法   电路   逻辑   错误   硬件   时间   经典   行业   系统

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top