编者按:
2022年10月7日的出口管制规则
2022年9月,国家安全顾问杰克·沙利文宣布,确保在人工智能等力量倍增技术领域“尽可能领先”是国家安全的当务之急。这项任务由出口管制的实施牵头。这些管制措施远不是为了立即阻碍中国的进步,而是通过长期计划逐渐削弱其人工智能能力。
2022年10月,美国BIS发布了一项出口管制规则——本文简称“1007”规则。在“1007”规则中,美国在实施出口管制时采取了精确的三级策略:
阻止中国直接获得先进半导体,这让中国在短期内无法获取所需的高性能芯片;
拒绝向中国提供设计和制造芯片的工具,即EDA软件和制造设备;
预先阻止中国的本土化努力,通过切断关键的制造部件供应,避免中国自主生产出替代的设备和芯片。
这些措施形成了一种层层递进的制约体系,最终目标是让中国陷入技术瓶颈,无法在没有美国技术的帮助下实现突破。
2022年1007规则的出口管制,从根本上说是为了限制可用的总处理性能(Total Processing Performance, TPP)以及互连速度阈值(interconnect speed threshold)。
所谓的总处理能力是衡量芯片处理计算任务能力的一个指标。在AI芯片领域,总处理性能通常用“每秒执行的计算次数(TOPS)”来表示,TOPS代表“每秒万亿次操作”(Tera Operations Per Second)。
然而,单纯的TOPS数字并不能全面反映芯片的实际性能,因为芯片的位宽(Bit Width,数据通路的宽度)也会影响计算能力。位宽指的是芯片一次可以处理的数据量的大小,通常以“位(bit)”为单位来衡量。位宽越大,意味着每次计算时可以同时处理的数据量更多,从而提高计算效率。32位、64位是常见的位宽,位宽越大,意味着一次操作可以处理更多的信息。在AI计算中,大多数任务需要处理大量的数据(如训练神经网络时的大规模矩阵乘法),而更宽的位宽可以在每次计算中携带更多的数据,从而提高芯片的整体计算性能。举个例子:如果一个芯片的计算能力为100 TOPS,每次计算时使用的是32位数据,那么每秒就能完成100万亿次32位数据操作。如果将位宽增加到64位,同样的TOPS值下,它每秒能处理的数据量就会增加,因为每次操作可以处理更多的数据。
计算性能通常用“TPP(Total Processing Performance,总处理性能)”来综合衡量。TPP的计算方式是——TPP=TOPS×位宽。举个例子:如果一个芯片的TOPS是500(即每秒500万亿次操作),而它的数据位宽是10位,那么它的TPP就是500 × 10 = 5000。这意味着该芯片每秒钟可以处理5000万亿个操作,乘上数据位宽后的计算性能就是我们所说的TPP。
Interconnect speed threshold(互联速度阈值)是指芯片之间通信的速度限制,通常用于描述芯片如何通过高速接口与其他芯片或计算单元进行数据交换。在芯片设计中,互联速度决定了多个芯片或处理单元之间能够快速交换数据的能力。更高的互联速度通常意味着芯片在并行计算和大规模数据处理时能够更高效地协同工作。
1007规则的假设是,人工智能能力主要由并行处理能力和在数据中心及超级计算设施中将大量芯片联网的能力驱动——这是一个简单的等式:性能 = 质量 × 数量。这也是沙利文“高墙、小院”理论的首次亮相——它允许美国只限制最先进的半导体对中国的出口,同时允许美国企业继续向中国出售不那么先进的芯片和制造设备。
首先,该规则低估了通过强制使用大量性能较差的芯片来扩展人工智能模型的能力。这也许是一种低效的做法,但却是一种有效的变通办法。其次,过分强调了互联速度是一个关键的阻塞点,而没有预见到它是多么容易被规避。芯片制造商可以简单地低估互联规格,或在市场上销售“可配置”速度的芯片,以便在售后进行调整。如下图所示的H800和A800。
2023年10月17日的出口管制规则
BIS认识到其2022年的规则过于关注单个芯片。这一认识促使他们首先放弃了互联速度作为监管的门槛参数【如上图所示】,因为这一标准被证明太容易被绕过。这一决定直接将H800和A800囊括其中。
其次,BIS发现,即便是性能较低的芯片,在大规模使用时也能实现显著的计算能力。因此,BIS决定在2023年10月17日发布的出口管制规则(本文简称为“1017”规则)中,将TPP(总处理性能)阈值从4800千兆运算每秒降低至1600千兆运算每秒。
为了进一步堵塞潜在漏洞,“1017”规则还引入了两项附加标准。第一是增加了性能密度要求,目标是那些虽然物理尺寸较小,计算能力较低,但计算效率与最强芯片相当的芯片。所谓的性能密度(Performance Density)是指单位面积的计算能力,它用来衡量芯片在其物理空间内的计算效率。性能密度的计算公式为——
为什么性能密度很重要?有些芯片可能体积较小,单个芯片的计算能力不高,但因为它们的计算能力和面积比(即性能密度)高,多个这样的芯片可以通过高带宽连接起来,协同工作时会实现非常高的计算能力。例如,一些小芯片虽然单个性能较弱,但由于它们的面积小、效率高,多个芯片结合起来反而能超过一个大芯片的性能。性能密度的限制可以防止一些芯片制造商通过设计小巧、计算效率高的芯片来绕过计算性能的限制。因此,新的规定不只是要求计算能力达到一定水平,还要求每平方毫米的计算能力(性能密度)也不超过某个阈值。举个例子,假设有两个芯片:芯片A:TPP为6000,面积为100mm²,性能密度为6000 / 100 = 60。芯片B:TPP为5000,面积为80mm²,性能密度为5000 / 80 = 62.5。即使芯片A的TPP更高,但芯片B的性能密度更高,表明芯片B在单位面积上有更强的计算能力。
第二是“1017”规则实施了数据中心标准。所谓的数据中心标准,就是由于现代AI训练不单纯依赖于单个芯片的性能,而是需要大量芯片在数据中心内进行集群运作,因此增加了针对大规模网络芯片的管控。这一标准反映了现代AI需求对计算集群的依赖。BIS提出该标准的目的是为了确保管制仅针对那些在数据中心环境中使用的大规模AI训练等高性能计算应用的芯片,而非面向其他用途(例如,游戏)设计的芯片。
具体来说,数据中心芯片具有两个特性:1)数据中心专用功能:芯片需要集成一些数据中心特有的功能,例如:高带宽连接插座等硬件特性,这使得芯片适用于数据中心环境,支持更高效的并行计算和数据传输。2)营销和宣传,即如果芯片在面向公众的材料中(如新闻稿、数据表等)被推销为专用于数据中心,那么该芯片也会被视为数据中心芯片,受相关管制。
非数据中心芯片,特别是那些专为游戏等领域设计的芯片,只有在其性能达到一定阈值时才会受到管制。具体来说:TPP (Total Processing Power) 必须大于或等于 4800,才能进入管制范畴。即便如此,管制仍然较为宽松,主要针对的是那些具备足够性能且可能被用于更高端计算的芯片。
为防止规避管制的措施,BIS特别指出,企业不能通过将多个性能较低的芯片组合在一个电路板上来规避管制。具体来说:TPP和性能密度(PD) 应在最高集成度(即包括整个电路板)上计算。这意味着,如果多个芯片被集成到同一电路板上,并且这些芯片的总性能超过了管制阈值,那么该设备仍然会受到管制。即使单个芯片的性能低于管制阈值,但如果通过集成多个芯片,导致总性能达到阈值,这些设备也将受到管制。因此,数据中心标准的设计旨在确保针对那些真正用于大规模AI训练和高效计算的芯片进行管制,同时避免不必要地管制那些可能并不适用于这种应用场景的芯片。通过对芯片功能、营销材料和集成度的审查,BIS力求确保管制措施既精准又有效,避免被制造商规避。
根据上述三项标准,有三种可能的许可决定:1) 需要常规许可证;2) 符合许可证例外规定;即除了对最先进的数据中心芯片要求常规许可证外,BIS 还为非数据中心芯片和某些不太先进的数据中心芯片设立了许可证例外——"通知的先进计算"(NAC)。3) 不受出口控制。
如上图所示,对于数据中心芯片来说,
红色阴影区域:如果数据中心芯片的技术参数(TPP和PD)位于红色阴影区域,这些芯片在出口到某些国家时需要常规许可证。在“1017”规则中,该标准为:1)总处理性能为4800或以上;或2)总处理性能为1600或以上,且性能密度为5.92或以上。此时就需要申请常规许可证。
黄色阴影区域:位于黄色阴影区域的数据中心芯片符合NAC(No Advance Clearance)资格,这意味着它们根据出口目的地的不同,可能只需要快速许可证或根本不需要许可证。
绿色阴影区域:如果数据中心芯片的技术参数不符合上述阈值,且处于绿色阴影区域,它们就不受管制,能够自由出口。
对于非数据中心芯片来说
不需要常规许可证:非数据中心芯片始终不需要常规许可证。对于这些芯片,最先进的版本可能符合NAC资格,如黄色阴影区域所示,意味着它们可以按照简化程序出口。
较低级芯片:对于技术性能较低的非数据中心芯片,它们不受管制,并且可以在没有其他出口限制的情况下自由出口,如绿色阴影区域所示。
上图为常见芯片根据1017规则所列标准的分布情况。图来源于【Center for Security and Emerging Technology.】
在划清了受不同管制措施的芯片之后,还需要进一步分析1017规则对出口目的地国的分组。
2022 年 “1007”规则对3A090物项出口限制,仅限制向中国和澳门。但2023年的“1017”新规则,将芯片管制扩大到另外 43 个国家,其中大部分位于中东、非洲和中亚。具体来说,BIS(美国工业与安全局)通过将国家划分为不同的国家组(Country Groups),来确定哪些国家应受到哪些出口限制。如下:
国家组D:5和澳门(D:5M):包括澳门和一些美国实施武器禁运的国家,如俄罗斯、伊朗和中国。
国家组D:1和D:4:这些国家因为涉及国家安全问题或导弹技术的顾虑,受到美国的出口管制。
国家组 A:5 和 A:6:这些国家与美国有友好的外交关系,对这些国家的出口管制相对宽松。
根据“1017”新规则,《出口管理条例》(EAR) 国家组D:1、D:4 或D:5M中确定的国家和地区将受“1017”新规则的出口许可要求,但这些国家中排出了国家组 A:5 或 A:6。具体如下图所示:一般情况下,许可证申请将根据批准推定(a presumption of approval)进行审查,但涉及国家组D:5 中的国家以及澳门(如下图所示)的申请,BIS将采取拒绝推定(a presumption of denial)进行审查。 除了传统的出口目的地之外,“1017”规则还首次采用了“最终用户总部”标准。其目的是为了应对中国公司或其他总部位于美国武器禁运国家的公司,可能通过其海外子公司购买和获取受控芯片的风险。对此,BIS指出:
根据“最终用户总部”标准,如果出口商知道某个交易涉及总部设在澳门或美国武器禁运国家(包括中国)的实体(即“D:5M-总部实体”),即使是出口到(D:1、D:4、D:5M)之外的目的地,也必须申请出口许可证。D:5M-总部实体可以是“买方”、“中间收货人”、“最终收货人”或“最终用户”。因此,不仅是直接购买方受到管制,任何与此类实体有关的中介角色也需要遵循出口管制要求。
还是借用【Center for Security and Emerging Technology】的图:
第一种情形:常规许可证芯片出口到D:5M国家(美国武器禁运国或澳门)
所有向D:5M国家(包括中国)或其实体的出口、再出口和转让常规许可证芯片,都需要申请正式许可证。在大多数情况下,这些许可证申请会被拒绝。例如,向中国出口Nvidia H100的许可证申请很可能会被拒绝。
第二种情形:常规许可证芯片出口到D:1和D:4国家(因国家安全或导弹技术问题受控的国家)
向这些国家的实体出口常规许可证芯片也需要正式许可证。如果出口目标是总部位于D:5M的实体,则大多数情况下许可证会被拒绝。否则,这些许可证大多数情况下会被批准。例如,向沙特阿拉伯的阿里巴巴子公司出口Nvidia H100的许可证申请可能会被拒绝。向沙特阿拉伯的法国OVHcloud子公司出口Nvidia H100的许可证申请可能会被批准。
第三种情形:常规许可证芯片出口到非D:1、非D:4、非D:5M国家
向非 D:1、非 D:4 和非 D:5 国家出口、再出口和转让常规许可证芯片,只有在总部位于 D:5M 的实体是交易一方的情况下,才需要获得正式许可证。这些许可证将逐案审查。例如:向位于德国的腾讯子公司出口 Nvidia H100 的许可证申请可能会逐案审查。例如,向德国的腾讯子公司出口Nvidia H100的许可证申请可能会被逐案审查。
第四种情形:符合NAC标准的芯片出口到D:5M国家
向D:5M国家的实体出口和再出口符合NAC标准的芯片需要申请快速许可证,但许可证审查标准尚不明确。例如,向中国出口Nvidia RTX 4090游戏芯片需要快速许可证。
第五种情形:符合NAC标准的芯片出口到D:1和D:4国家
向因国家安全或导弹技术问题受管制的D:1和D:4国家的任何实体(包括总部位于D:5M的实体)出口符合NAC标准的芯片不需要许可证。例如,向越南的百度子公司出口Nvidia RTX 4090游戏芯片不需要许可证。
第六种情形:符合NAC标准的芯片出口到非D:1、非D:4、非D:5国家
向这些国家的任何实体(包括总部位于D:5M的实体)出口、再出口和转让符合NAC标准的芯片不需要许可证。例如,向英国ByteDance子公司出口Nvidia RTX 4090游戏芯片不需要许可证。
总结如下:
就中国而言,可以用下图(来源于CSIS)来简示:
2024年12月2日发布的出口管制规则
如前所述,2022年10月和2023年10月的出口管制规则主要针对用于训练和操作人工智能(AI)模型的高级逻辑芯片,例如英伟达的A100、H100和Blackwell GPU(图形处理器)。这些都是用于AI模型训练和推理(即已训练模型的实际应用)等计算任务的高性能芯片。此外,这些规则限制了美国SME企业向中国的半导体生产设施(即“晶圆厂”)出口参与生产的先进芯片,无论是逻辑芯片还是存储芯片。
然而,与对逻辑芯片的出口限制相比,2022年和2023年的出口管制规则并未在全国范围内限制向中国出口专门用于AI的先进存储芯片。虽然通过最终用途和最终用户管制措施对存储芯片有一些限制,但这些限制并不具备战略性意义。这意味着,尽管逻辑芯片的出口受到严格控制,存储芯片,尤其是高带宽内存(HBM),并未受到同样的全面管制。
为何HBM至关重要?
众所周知,现代人工智能芯片的性能不仅依赖于大容量的内存容量,还需要极高的内存带宽。内存带宽指的是内存在单位时间内可以向处理器或其他组件传输的数据量。如果内存带宽较低,AI芯片的处理能力往往会浪费时间,等待数据从内存中读取或存储到内存中,直到能够将数据传送到处理器,导致大量的计算资源空闲等待。因此,HBM在AI训练中扮演着至关重要的角色,它用于处理大规模数据集的快速读取和写入。
可以把每个 GPU 想象成工厂里速度超快的流水线工人。无论工人处理计算操作的速度有多快,如果他们不能足够快地接收数据,他们的生产力就会受到严重限制。他们需要不断访问指导手册(模型权重)和原材料(输入数据和中间计算)。这就是高带宽内存(HBM)。
传统的动态随机存取存储器(DRAM)通常就像一个单层仓库,位于工厂(即逻辑处理器)远离的地方。由于数据需要在长距离内传输,这导致了数据访问速度较慢。而高带宽内存(HBM)则彻底改变了这一架构,它将一个垂直自动化仓库直接建设在工厂车间(即逻辑处理器)的上方。HBM的设计就像是在工厂的顶部堆叠了8到12层的存储单元,每一层都通过高速电梯(即硅通孔)和直接接入点(即微凸块)相连接。这样的设计大幅度提高了数据访问的速度,使得数据传输的效率提升了超过130倍,从传统DRAM的每秒25 GB提升至现代HBM的每秒3.35 TB。
在进行前沿人工智能训练时,通常需要大规模的GPU集群。这些集群就像成千上万的工厂车间,需要协调运作,实时共享数据和同步模型参数。如果没有HBM,高带宽内存的支持,GPU间的通信将变得非常低效。在没有HBM的情况下,增加更多的GPU反而会适得其反——这就像试图通过一条乡间小路来提供高速公路般的数据传输能力。HBM的优势在于,它可以极大地缓解GPU处理速度与内存带宽之间的瓶颈。通过集成HBM,数据可以快速、高效地流动,确保AI训练所需的海量计算资源能够充分利用,而不会因内存传输速度限制而浪费宝贵的计算时间。
对于现代AI芯片而言,浪费时间等于浪费金钱。训练和运行高端AI模型需要巨大的资金投入,每个AI芯片的成本可能高达数万美元,因此,客户希望最大化AI芯片的使用率,接近100%利用率,以确保投资回报的最大化。一个先进的AI数据中心可能包含高达10万个Nvidia GPU,耗资数十亿美元,而正在讨论和构想的下一代数据中心可能会包含100万甚至更多的GPU,耗资数百亿美元。在如此大规模的AI计算需求下,超强的GPU如果90%的时间在等待低带宽内存传输数据而闲置,显然是不可容忍的。
综上,高带宽内存(HBM)成为了AI芯片不可或缺的一部分。自2015年HBM商用以来,它的快速数据访问能力就成了AI计算领域的关键。近年来,HBM通过先进的封装技术(如晶圆上芯片(CoWoS))直接集成到GPU中,优化了AI处理器与内存之间的连接,进一步提升了性能。
如今,采用CoWoS技术将HBM与AI加速器集成已成为所有先进AI芯片的基本设计蓝图。也就是说,购买AI芯片的客户,实际上是在同时购买HBM。根据估算,Nvidia AI芯片的制造成本中,约一半实际上是HBM的成本。因此,任何想要设计、生产并销售先进AI芯片的公司都需要可靠的HBM供应。
“1202”规则分析
HBM正是美国2024年12月2日发布的出口管制规则(以下简称“1202”规则)的重点。通过对HBM出口实施管制,美国的目标是切断中国获取先进内存技术的途径,这将对中国在AI领域的快速发展造成毁灭性打击。
美国政府注意到HBM 的生产需要高度精密的制造能力以及与 GPU 的复杂集成,全球在HBM市场中只有少数几家公司能够生产这种高技术组件。2023年,SK海力士以53%的市场份额领跑HBM市场,三星和美光紧随其后,分别占38%和9%。控制HBM技术可能比单独控制 GPU 更有效。它既解决了关键技术瓶颈,又利用了天然集中的供应链。
“1202”规则在现有的ECCN3A090下增加了新的".c"分段,以控制目前正在生产的HBM堆栈。具体来说,BIS将管制"内存带宽密度"(memory bandwidth density)大于每秒每平方毫米2千兆字节 (GB) 的HBM的出口。
其中,"内存带宽密度"是:每秒GB为单位的封装或堆栈内存带宽(memory bandwidth of the package or stack measured in GB per second)/以平方毫米为单位的封装或堆栈面积(the area of the package or stack measured in square millimeters)。目前,所有投入生产的 HBM 堆栈都超过了这一阈值。
“1202”规则区分先进和不先进HBM的管制。"内存带宽密度"超过3.3GB的HBM即被视为先进HBM。
对于先进HBM,“1202”规则其无法出口至中国及其他D:5国家组(见上文),以及澳门。“1202”规则要求出口许可证,并明确声明对所有此类许可证申请“推定拒绝”。对于较旧的、性能较低的HBM仍然可以销售到中国,但需要遵循严格的最终用途和最终用户限制。例如,性能较低的HBM必须直接销售给最终用户(而非通过分销商),并且这些最终用户不能将其用于AI应用或用于生产AI芯片。
实践意味着HBM2(2016年首次推出)将被允许出口到中国,但必须附带最终用途和最终用户的限制。而更先进的HBM(如HBM2e、HBM3、HBM3e、HBM4)将不允许出口。Nvidia V100(2017年推出)是首个使用HBM2的芯片,符合这些新的出口管制标准。美国政府官员已经确认,允许向中国出口HBM2,但会对最终用途和最终用户进行严格检查。
为了确保SK海力士和三星对中国的出口也受到管制,美国根据外国直接产品规则,要求三星和SK海力士的HBM(以及它们的所有芯片)必须遵循美国的出口管制。这是因为这两家公司在生产HBM时,使用了美国的SME的技术。
2022-2024规则的简短总结
“1007”规则、“1017”规则、“1202”规则的根本目的是:(1)通过限制中国获得先进的人工智能芯片,阻止中国进入人工智能和高性能计算(HPC)的未来;(2)防止中国获得或在国内生产替代品;以及(3)通过继续允许向中国销售不那么先进(因此可能威胁较小)的技术,减轻对美国产业收入和利润的影响。
DPO线下沙龙的实录见:
第
数
域外数据安全和个人信息保护领域的权威文件,DPO社群的全文翻译:
传染病疫情防控与个人信息保护系列文章
关于数据与竞争政策的翻译和分析:
健康医疗大数据系列文章:
网联汽车数据和自动驾驶的系列文章:
《
网络空间的国际法适用问题系列文章:
《网络数据安全管理条例(征求意见稿)》系列文章:
! 《 《 认 专
关于我国数据跨境流动监管体制变革的系列文章:
关于个人信息安全影响评估的文章如下:
通过技术增强对个人信息的保护,本公号曾经发表的文章包括:
欧
关于新加坡数字化(包括个人信息、网络安全、人工智能等)方面的改革,本公号发表的文章:
关于健康医疗数据方面的文章有:
关于数据要素治理的文章有:
针对美国的人工智能监管政策发展,本公众号发表过如下文章:
关于域外在数据、电信、外国投资方面所建立的国家安全相关的审查机制,本公号发布过以下文章:
关于人工智能安全和监管,本公号发布过以下文章:
、
关于DeepSeek的系列文章:
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……
还没有评论,来说两句吧...