本文立足人工智能时代用户、应用和系统的需求,分析“外挂式模型”演进路径下的操作系统发展困局,提出通过“模型-系统-芯片”的全栈协同设计来构建模型原生操作系统,并进一步探讨了面临的机遇与挑战,以及业界与作者团队的相关初步探索。
以ChatGPT为代表的生成式人工智能(Generative AI)正在深刻变革人类社会。大模型凭借其卓越的语言理解、内容生成与逻辑推理能力,已成为科技发展的新范式与重要推动力。全球主要经济体和科技巨头纷纷布局,美国和欧盟累计投资上千亿美元推进技术研发,微软、英伟达、苹果、谷歌等公司在模型架构、系统、芯片等方面展开全方位竞争。
然而,操作系统作为计算机系统的核心枢纽,其与人工智能技术的融合仍面临诸多挑战。当前主流方案如微软的Windows Copilot和苹果的Apple Intelligence机制,采用将模型作为外挂服务的方式。这种方案虽然能快速落地,但模型的概率性特征、软硬件栈的复杂性,以及模型-系统-芯片的割裂状态等结构性问题,导致当前基于模型的智能应用存在可控性差、开发难度大、算力效能低等短板,领域生态面临“重作诗、轻做事”、生态碎片化、智能水平受限等问题。
本文立足人工智能时代用户、应用和系统的需求,分析“外挂式”AI演进路径下的操作系统发展困局,提出通过“模型-系统-芯片”的全栈协同设计来构建模型原生操作系统。这一新型操作系统将重构交互范式、接口抽象、执行模式、安全机制等,打通智能应用间的数据壁垒,促进多模型有机协同,优化资源供给以提升运行效能,最终实现模型的概率性智能与操作系统的确定性规则的有机统一。本文将探讨模型原生操作系统面临的机遇与挑战,并介绍业界与作者团队的相关初步探索。
人工智能时代操作系统的需求与挑战
算法、数据、算力被誉为人工智能发展的三大引擎。操作系统的泛在性是连接和驱动这三大引擎的关键纽带,是人工智能迈向通用智能、赋能千行百业的重要基石。从操作系统的视角来看,包括大模型、小模型、传统机器学习方法等在内的“模型”正在演变为一种底层基础能力。人工智能时代的操作系统亟须实现对模型的原生支持,以满足来自用户、应用及系统自身的智能化需求,在执行效能、智力水平、交互范式、隐私保护与系统安全等方面实现变革。
执行效能
随着生成式人工智能的发展,模型参数规模呈指数级增长,对算力的需求也急剧攀升。为提供更强的算力支撑,GPU、NPU等新型算力硬件组成的异构、混合精度算力系统已成为当前人工智能场景的基础设施,主流芯片设计厂商纷纷推出异构算力芯片。异构算力也促使虚拟数字人等新兴应用场景出现,该应用往往需要GPU/NPU/CPU等多种计算硬件协同工作以支持虚拟数字人的实时交互和智能表现。在这一趋势下,操作系统需要管理的资源从传统的离散垂域分治转向异构融合架构,这带来了双重挑战:(1)异构算力的融合使编程模型与框架日趋复杂,迫切需要操作系统向应用提供统一、易用的编程抽象,以降低开发门槛;(2)不同硬件具有独特的性能特质和适用场景,如GPU、NPU适合大批量数据的高吞吐计算,CPU则更适合小规模数据的低延迟处理,这要求操作系统能够智能规划任务分配,实现异构硬件的协同调度,最终提升系统整体执行效能。
智力水平
大模型的迅猛发展正在重塑智能终端设备形态,有望赋能百亿级参数的智能设备。全球领先的智能手机、个人电脑(PC)和汽车制造商正积极探索将大模型部署至移动设备和车载芯片上,以获得更好的隐私保护和发挥本地化优势。谷歌推出的AI Core可在智能手机上运行拥有20亿参数的Gemini Nano模型,苹果计划在iOS 18中整合30亿参数的本地大模型,华为也通过鸿蒙原生智能将AI能力下沉到终端。面对这一趋势,操作系统必须突破创新,使规模更大、智能水平更高的模型能够在终端设备上高效运行。然而,现有的模型压缩方法如量化、裁剪等往往导致模型性能显著下降。这一技术瓶颈要求操作系统深入理解模型特性,探索更有针对性的优化方案,而不能仅依靠简单的压缩、量化等手段。
交互范式
大模型正在引领人机交互范式的革命性转变,将用户从传统的图形界面演进为语音、手势、眼神等自然时空交互。很多行业正在积极探索这一新型交互形态,例如,OpenAI的GPT-4o支持实时语音对话,可充当智能家教辅导作业;智谱AI的AutoGLM能够理解并执行复杂甚至跨APP的指令,包括“在线购物”“酒店预订”甚至“发送红包”等。可以预见,随着数字化与智能化的深入,大模型将成为人机交互的重要入口,甚至能够根据用户习惯和场景动态调整交互界面。然而,当前模型在理解用户界面方面仍面临诸多挑战。例如,界面元素往往具有多样的分辨率、比例和布局,并包含大量细粒度的文本、按钮等交互对象,这些特点使现有模型难以准确理解界面语义,制约了自然语言交互的效果。
隐私保护与系统安全
随着大模型应用的普及,其安全与隐私问题日益突出。近期欧洲数据保护委员会(EDPB)和意大利隐私监管机构对OpenAI服务进行了严格审查,意大利甚至一度叫停ChatGPT。大模型的隐私保护涉及多个层面:(1)在数据层面,模型在训练和推理过程中可能泄露敏感信息,同时模型参数本身也是重要的数字资产;(2)在系统层面,复杂的软硬件栈难免存在安全漏洞;(3)在行为层面,模型输出的不确定性可能导致越权操作或偏离预期;(4)当前系统过度关注性能指标,缺乏系统化的行为审计与约束机制。这要求我们构建多维度的安全防护体系,在数据、系统、行为、审计等层面实现全方位的隐私保护。
当前“外挂式”AI演进路径的发展困局
以微软Windows Copilot为代表的AI发展路径以“外挂”形式在操作系统中提供智能化服务。Windows 11操作系统内置了专门的Copilot窗口,支持用户通过任务栏图标、快捷键或专用按键等多种方式快速调用AI助手。Copilot不仅能够进行文本对话,还能执行调整系统设置、辅助日常操作、给出写作建议等多样化任务。然而,这种将AI作为外挂式服务集成到现有操作系统的方案,虽然能够快速落地并让用户体验到智能服务,但从长远来看,存在算力差、智力差、魅力差、安全差四个方面的根本性困局,阻碍人工智能技术与操作系统的深度融合,影响为用户提供更高水平的智能服务。
算力差:无法充分利用异构硬件的计算能力
当前算力硬件呈现快速迭代和多元化发展趋势。一方面,主流GPU硬件不断升级迭代;另一方面,各类AI芯片在提供特定算力优化的同时,也在能耗、性价比等方面给予了更多选择。智能手机、AI PC等端侧场景更是普遍采用混合算力架构,追求提升绝对计算能力的同时降低整体功耗。但在端侧部署大模型时,其参数规模当前停留在70亿左右,大大限制了系统的智能水平。随着智能化应用的普及,算力硬件资源不再被少数应用独享,亟须操作系统对异构化算力进行统一、高效、协同的调度和管理,进而将硬件的绝对计算能力兑现成应用和系统的智力。外挂式智能服务面临的困局在于,缺少操作系统的原生支持,无法有效利用和管理混合、异构化算力资源,甚至可能造成算力资源的竞争与冲突。
智力差:智能化技术难以与操作系统深度融合
以外挂方式集成智能技术,仅能提供单向、有限的智能化支持,难以与操作系统各模块深度融合,导致智能技术难以渗透到操作系统的关键服务和功能,限制了系统的智能化水平,阻碍其从“作诗”走向“做事”。外挂式智能技术难以利用操作系统的底层数据和资源,大大限制了其智力水平。例如,Windows Copilot无法直接访问系统深层数据,未能与系统深度融合,且已被降级为渐进式网络应用程序(PWA)。此外,外挂式智能技术存在数据孤岛、响应延迟高等问题,模型的概率性问题进一步突显,导致资源分配、任务调度及内存管理等系统服务的智能化受到极大限制,难以实现深度系统级优化。
魅力差:未能突破传统操作系统固化的交互模式
传统操作系统固化的交互逻辑难以满足用户群体的不同偏好,以及在不同场景下的交互需求。一方面,现有交互逻辑仍然是由开发者静态设计,所有用户体验一份相同的交互逻辑,无法提供“千人千面”的个性化用户体验。另一方面,不同应用的交互逻辑完全独立,即便一个简单的用户任务也会涉及多个应用,导致用户必须在应用之间反复切换。传统操作系统固化的交互模式大大限制了智能技术融入人机交互过程。以苹果公司Ferret-UI为例,其虽能利用多模态大模型操控用户界面(UI)屏幕完成任务,但受限于固化交互模式,仍然被迫在多个应用间频繁切换与操作,单次任务包含冗长的操作与决策链条,导致任务完成率低、完成时间长、推理费用高等问题。
安全差:易导致系统安全隐患和隐私泄露问题
当前智能技术本身存在不可解释、不确定等安全隐患,而智能服务的执行模式、交互方式等仍处于快速迭代发展中,其安全可靠性远低于操作系统。近年来,使用ChatGPT引发的机密泄露事件频发,反映出大模型和智能服务面临安全挑战。以外挂形式集成智能服务,未将其纳入到整个系统的安全保护机制中,可能引入安全漏洞并放大操作系统攻击面,势必影响系统的安全稳定。如果允许外挂式智能服务直接访问系统和处理数据,容易被利用成为攻击入口和跳板。而如果单纯将其隔离在外,智能服务使用的用户数据又会面临隐私泄露风险。
上述困局本质上源于外挂式智能服务方案未能实现AI与操作系统的有机融合,最终限制了整体的智能化水平。要真正发挥AI的潜力,需要在操作系统架构层面进行更深层次的变革。
破局思考:模型原生操作系统
模型作为一种底层基础能力,在人工智能时代的操作系统演进中必然扮演着重要角色,但操作系统以何种路径与模型融合是一个重要且开放的问题。图1对比了不同的发展路径。图1(a)为渐进路线,即采用前文所提的将大模型作为应用外挂到现有操作系统的方法,优点是对现有操作系统改动少,可快速落地;缺点在于割裂模型与操作系统,制约了模型的能力。图1(b)为激进路线,即用大模型一次性取代操作系统成为新的操作系统,优点在于可充分发挥大模型的智能能力;缺点在于完全颠覆现有软件格局与生态,过于依赖模型本身的能力,缺乏与物理世界的交互能力,也缺乏对输出的确定性保证。
图1 智能时代操作系统与模型融合的不同发展路径的系统架构对比
与前两种技术路线不同,我们提出采用融合路线探索模型原生操作系统,如图1(c)所示。融合路线基于模型与操作系统双向奔赴的思路,即系统原生为模型设计,模型原生为系统调整,通过在服务模型操控、供给模型资源、融合模型能力方面进行探索,实现模型与操作系统的多层次深度融合。通过“模型-系统-芯片”全栈协同设计,重构接口抽象、执行模式、运行效能和安全机制等核心要素,实现概率性智能与确定性规则的有机统一,提升手机、PC、通用机器人、智能制造等领域的系统智能化水平,为用户提供更加流畅、智能、个性化的服务。在此,我们将从六个维度阐述对模型原生操作系统的思考。
思考一:智能交互范式(面向交互范式革新)
大模型正在重塑操作系统与用户的交互方式。传统操作系统采用直接面向用户的交互设计,用户通过命令行、图形界面、语音等接口操控硬件。在模型原生时代,用户将更多地通过与智能体交互实现设备控制。然而,当前操作系统的交互框架与智能体存在多重不匹配。在接口层面,现有框架主要依赖图形界面表达功能语义,而大模型在UI理解的准确性和确定性方面仍有明显短板;在逻辑层面,传统框架要求开发者静态设计每个应用的交互逻辑,难以支持大模型为用户提供动态个性化的交互体验;在能力层面,应用间数据与功能的割裂状态,阻碍了操作系统利用大模型实现跨应用的智能服务。
为应对这些挑战,模型原生操作系统需要在多个层面进行协同创新。在交互接口层面,设计面向模型的新型操作接口,使模型能够准确高效地调用系统功能;在交互逻辑层面,提供支持多模态的生成式交互逻辑开发框架,使开发者能够利用大模型动态构建时空自然交互;在交互能力层面,构建“系统-模型-应用”的数据互通机制,打通应用间壁垒,支持基于上下文的智能交互。
思考二:创新系统抽象接口(面向提高执行效能)
随着模型与操作系统的融合,传统操作系统的抽象面临挑战。现有接口针对命令式服务设计,难以满足智能体的需求:(1)无法充分表达应用语义或实现端到端智能优化;(2)缺乏原生智能化能力支持,增加了开发负担,限制了智能体间的协作。同时,现有接口难以暴露底层系统服务和异构硬件能力,导致性能损失。
为应对这些挑战,操作系统须引入智能化抽象,支持从单一命令到端到端需求的动态、灵活表达。在系统层面,支持多种层次的系统服务接口,高层接口满足传统应用和程序使用,底层接口用于高性能智能应用优化,充分平衡智能的应用和系统的实时性。同时,应结合历史行为和模型智能,利用生成式接口的新特性实现自我优化与智能演进。
思考三:系统内生智能(面向提高智力水平)
当前智能体的能力边界局限于单个应用范围,各应用通过外挂模型实现智能化。例如,用户期望智能体能自动完成日程安排,这需要跨越日历、会议、邮件等多个应用实现协同。然而,目前面向特定领域的专用模型在适应性和鲁棒性方面存在明显不足。典型案例是当前的手机智能助手,虽然能够执行简单的购物任务,但一旦遇到未经训练的广告弹窗等干扰就极易中断操作。
为此,模型原生操作系统应具备内生智能,从而有机整合来自不同应用智能体的能力,实现跨应用的无缝配合与复杂协同。这就需要构建面向操作系统的通用基础模型,提供系统级智能体服务,并实现模型能力与系统功能的深度融合,支持跨应用的无缝协作;同时,建立高效的持续学习机制,探索新的操作系统内生智能的训练方法,并实现高效、低成本的持续训练和微调,以更好地满足用户多样化的智能需求。
思考四:智能知识存储(面向提高智力水平)
模型智能水平与知识型数据紧密相关,现有存储系统主要面向数据而非知识,难以满足大模型对知识生成、管理和利用的需求。在纵向维度,现有系统在设计上强调对原始数据的存取,缺乏对数据语义层次和知识表示的高效支持;在横向维度,模型应用模糊化的输入使多模态、多类型的存储系统关联更加紧密,而异构表达形式给数据跨应用横向流动带来挑战。
为应对这些挑战,在纵向层面,系统须面向知识存储最大程度地利用软硬协同的通信机制,提供与硬件演进协同发展的编程抽象;在横向层面,系统应通过更高整合度的数据结构与通信机制,实现不同存储系统数据互通与协作,为模型提供跨应用的数据融合能力,使多模态等任务中的数据协同更加高效,从而提升模型在复杂场景下的智能水平。
思考五:高效算力供给(面向提高执行效能)
模型对算力有着极高的要求。然而,模型原生操作系统在为模型提供算力时,不能仅考虑模型本身的需求,还要综合考虑算力、内存、功耗、智能水平等多个相互制衡的关键指标。当前异构算力硬件体系为智能应用提供了关键性的算力支撑,但当前操作系统仍然以特殊外设的方式管理算力硬件,智能应用主要依赖专门化适配与设计来利用特定的算力硬件,导致系统严重碎片化,也大大限制了智能应用的发展和普及。
为应对这些挑战,需要在多个层面实施优化策略。在模型层面,研究如何在保持模型性能的同时减少参数量;探索动态调整模型结构的方法,并针对智能体等复杂场景提出针对性的模型微调和轻量化设计。在系统层面,探索端侧资源受限场景下的高效推理方案,包括面向操作系统目标任务的模型稀疏化、投机推理等;同时设计新的计算卸载方案,在保证用户数据隐私以及对应用尽可能透明的前提下,充分利用来自富算力设备的计算资源。在硬件层面,探索异构计算架构,针对不同类型任务提供专用处理单元并实现协同调度和统一管理,提高整体效率。
思考六:系统安全可靠(面向隐私保护与系统安全)
随着大模型系统应用越来越广泛,其在隐私安全与可靠性方面的挑战也越来越突出。在数据隐私方面,一方面大模型在访问和生成数据时,可能会泄露隐私数据和敏感信息;另一方面,大模型自身的参数也是需要保护的重要数字资产。在可靠性层面,大模型的输出存在不确定性,可能导致模型执行未经授权的操作或出现偏离预期的行为;目前的系统往往注重性能和精度等指标的提升,缺乏有效的行为审计机制和约束技术。
为应对这些挑战,在数据安全方面,应对大模型的参数和数据进行“存储-传输-计算”的全生命周期加密保护,严格控制数据流转时的访问权限,并构建轻量化、定制化的可信AI软件栈,减少攻击面以提高系统的整体安全性;在可靠性方面,提出面向智能应用安全的内生安全审计机制,通过弹性规则对模型的行为进行动态约束,在保证模型智能水平的同时有效提升确定性。
当前探索与实践
模型原生操作系统作为一种新兴的技术范式,正在成为人工智能大模型从“作诗”走向“做事”的关键。虽然目前尚未出现完全实现这一设计理念的成熟产品,但国内外学术界和工业界已经开展了这方面的初步探索。
OpenAI联合创始人安德烈·卡帕西(Andrej Karpathy)在2023年11月提出了LLM OS理念,激进地用大语言模型替代操作系统(LLM as OS)。美国罗格斯大学提出的AIOS是LLM OS理念的一次初步实践。然而,这类探索主要存在两个局限:一是提出了全新的交互范式和软件开发模式,难以有效兼容现有软件生态;二是将模型作为黑盒使用,并未针对模型的推理效能、智力水平等进行针对性地优化。作为一种折衷方案,SWE-agent提出了智能体-计算机接口(Agent-Computer Interface, ACI),将大模型智能体在软件工程任务中能够解决的问题从3.8%提升至18%,验证了操作系统与大模型协同的重要性。
除了系统架构和编程接口层面的创新,工业界正在积极探索操作系统智能体技术。美国Anthropic公司的Computer Use和国内智谱公司的AutoGLM等系统通过将云端大模型与图形界面(GUI)深度融合,实现了智能化的界面操作自动化,在办公应用、社交媒体、在线购物等场景展现出接近人类水平的操作能力。然而,当前基于外挂式多模态大模型的方案在处理动态UI和复杂操作时仍面临挑战。同时,依赖云端大模型带来的网络延迟和隐私安全问题也亟待解决。
为了支持大模型在端侧设备中的推理,当前业界提出了多种端侧大模型推理框架,如ExecuTorch、llama.cpp和MLC LLM等,然而这些系统对异构算力的利用有限,端侧设备通常只能运行不超过100亿参数的小型模型,制约了模型原生操作系统的性能水平。为解决这一问题,上海交通大学推出PowerInfer系列工作,首次探索“模型-系统-芯片”协同设计理念,实现端侧大模型的显著加速。该方案在模型层面采用Turbo Sparse方法提升模型稀疏性,在系统和芯片层面优化操作系统推理设计,实现异构算力调度、神经元簇流水线等技术。实验结果表明,PowerInfer-1在个人电脑上实现11.7倍加速,可运行1750亿参数模型;PowerInfer-2让智能手机流畅运行470亿参数模型,性能提升27.8倍。
模型原生操作系统除了需要解决端侧推理性能问题,还需要解决智能应用在硬件加速器层面的高效调度问题。当前商用GPU缺乏有效的抢占式调度机制,实时任务面临两难选择:要么独占GPU资源,增加成本;要么等待低优先级任务完成,影响性能。上海交通大学团队最早在商用GPU上实现了百微秒内的任务抢占和细粒度的空分算力共享,与将GPU专用于实时任务相比,整体吞吐能力提升7.7倍,与多任务共享GPU相比,时延干扰减少99%。当前硬件加速器百家争鸣,系统层面的支持成为竞争关键,团队进一步提出了硬件加速器调度的通用抽象和多层硬件模型,能够快速支持不同架构、品牌、代次硬件加速器的抢占式调度,以及开发硬件无关的通用调度策略。
结束语
模型原生操作系统是人工智能时代操作系统的重要发展方向,需要在模型与系统的深度融合中探索理论创新。这种融合不是简单的功能叠加,而是要从架构到实现进行全方位创新,从而推动操作系统的智能化演进。虽然学术界和产业界在架构设计、性能优化、调度机制等方面取得了一系列初步探索,但要实现真正可用的产品级系统,仍须在交互范式革新、模型推理效能、系统融合程度、生态演进策略等方面持续深入研究。
(本文内容是基于2024中国计算机大会(CNCC2024)“大模型基础软件”论坛上的报告《模型原生操作系统的一些思考》进行的扩展)
扫码观看相关视频
陈海波
CCF会士、系统软件专委会副主任、开源发展委员会常务委员。上海交通大学特聘教授,ACM/IEEE Fellow。主要研究方向为操作系统、分布式系统和机器学习系统等。[email protected]
夏虞斌
CCF杰出会员、系统软件专委会常务委员、开源发展委员会执行委员、教育工委主任助理。上海交通大学教授。主要研究方向为操作系统、体系结构等。[email protected]
陈榕
CCF杰出会员、CCCF专栏编委。上海交通大学教授。主要研究方向为操作系统、分布式系统、智能计算系统等。[email protected]
其他作者:王肇国 糜泽羽 古金宇
CCF推荐
【精品文章】
点击“阅读原文”,查看更多CCCF文章。
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……
还没有评论,来说两句吧...