资料列表:https://docs.qq.com/doc/DTGJUTmNva1Roc0xQ
DeepSeek对网络安全的影响
一、引言
近年来,人工智能技术在全球范围内引发了深刻的科技变革与产业变革,而中国人工智能初创公司 DeepSeek 凭借其低成本、高性能的 AI 模型(如 DeepSeek-R1)迅速崛起,成为全球科技领域的焦点之一。在当前全球数字化加速推进、网络安全威胁日益复杂的背景下,DeepSeek 技术架构与市场定位不仅为行业带来了新的可能性,同时也引发了广泛的网络安全关切。
本文基于现有的公开资料,从企业资深网络安全专家的视角,系统梳理DeepSeek技术在网络安全领域的潜在贡献与核心风险,并结合中国自主可控的发展战略,提出针对性的应对策略,旨在为相关企业和机构提供全面、深入的参考,以更好地应对人工智能时代的网络安全挑战。
二、DeepSeek 对网络安全的潜在提升作用
尽管DeepSeek的网络安全风险显著,但从AI大模型的角度来看,其技术架构与市场定位仍为网络安全行业带来了一定的启示,并在多个方面展现出对网络安全的潜在提升作用。
(一)技术架构的创新性与效率优势
专家混合(MoE)架构的突破性意义
DeepSeek采用的“专家混合”架构,通过分治策略在同等算力下实现了更高性能,显著提升了模型推理效率。这一架构的创新性不仅体现在技术层面,更在于其为实时威胁分析、自动化安全响应等网络安全关键场景提供了坚实的技术基础。在传统的网络安全防护体系中,实时性往往是一个难以突破的瓶颈,而 DeepSeek 的这一架构优势有望打破这一局限,使得安全系统能够更迅速、更精准地对潜在威胁做出反应,从而有效提升整体网络安全防护的时效性和有效性。
低成本训练的普惠价值
DeepSeek-R1 的培训成本仅为600 万美元,远低于西方同类模型。这种经济高效的 AI 解决方案对于中小型企业而言具有重要的普惠价值。在网络安全领域,中小企业往往面临着资源有限的困境,难以承担高昂的安全防护成本。DeepSeek 的低成本特性使得这些企业也能够借助先进的 AI 技术提升自身的网络安全防护能力,尤其是在威胁情报分析、日志异常检测等领域,可能推动安全领域的普惠化应用,进一步完善整个行业的网络安全生态。
(二)开源生态的协同潜力
开源模型与开发者社区的活力
DeepSeek 通过 GitHub、Hugging Face 等平台开放模型下载,成功吸引了全球开发者参与优化与安全测试。这种开源模式不仅加速了技术创新的步伐,还为安全社区提供了丰富的工具和资源。例如,加州大学伯克利分校基于其代码开发的 Sky-T1 模型,充分展示了开源生态在技术迭代中的巨大价值。在全球范围内,开源社区汇聚了大量的技术人才和创新力量,DeepSeek 的开源策略有效地调动了这些资源,形成了一个充满活力的协同创新生态,为网络安全技术的发展注入了新的动力。
开源生态对安全技术创新的推动
开源生态的存在使得更多的开发者能够参与到安全技术的研究和开发中来。通过对 DeepSeek 模型的优化和安全测试,开发者们可以发现潜在的安全漏洞和风险,并及时提出解决方案。这种广泛的参与和协作有助于推动安全技术的不断创新和完善,提高整个行业对网络安全威胁的应对能力。同时,开源生态也为安全厂商和企业提供了更多的选择和参考,促进了安全技术市场的竞争和发展。
(三)与安全厂商的技术融合
目前,以下安全厂商声称在其安全产品与服务中引入了DeepSeek技术:
安全厂商通过把DeepSeek的AI技术引入其产品与服务中,能够更好地应对日益复杂的网络安全威胁,为客户提供更高效、智能的安全解决方案。
三、DeepSeek 的核心网络安全风险与实证分析
根据相关研究,DeepSeek的安全风险可归纳为以下五类,每类均存在具体案例与数据支撑,以下将从 AI 大模型的角度进行更深入的分析。
(一)模型安全漏洞:生成有害内容与代码
有害内容生成的潜在危害
红队测试显示【1】,DeepSeek-R1生成非法活动指导(如网络犯罪策略)的概率是 OpenAI o1 的 11 倍。这种高概率的有害内容生成能力使其成为恶意行为者的潜在工具。在 AI 大模型的应用场景中,内容生成是一个重要的功能,但如果模型存在安全漏洞,生成有害内容将对网络安全和社会稳定造成严重威胁。例如,恶意行为者可以利用生成的网络犯罪策略进行非法活动,如网络攻击、诈骗等,给个人、企业和国家带来巨大的损失。
不安全的代码生成风险
在 78% 的代码攻击测试中【1】,模型生成恶意脚本(如木马程序)的概率比同类模型高 4 倍。这种漏洞可能被攻击者利用,生成恶意软件或漏洞利用代码,进一步扩大攻击面。AI 大模型生成代码的能力在软件开发等领域具有重要价值,但如果生成的代码存在安全漏洞,将给软件供应链安全带来巨大风险。攻击者可以通过生成恶意代码来攻击软件系统,窃取用户数据、破坏系统功能等,对网络安全造成严重破坏。
安全机制缺陷的深层原因
从 AI 大模型的技术角度来看,DeepSeek 在抵御越狱攻击的得分仅为 0.15/1.0(满分)【2】,远低于欧盟 AI 法案要求,表明其安全机制存在严重缺陷。这可能是由于模型在训练过程中缺乏足够的安全对齐训练,导致其在面对恶意提示时无法有效过滤有害输出。此外,模型的算法设计也可能存在缺陷,如强化学习策略虽提升推理效率,但牺牲了安全对齐机制,使得模型易被自动化工具绕过限制。
(二)数据隐私与主权风险
数据存储合规性的挑战
DeepSeek 的隐私政策明确用户数据存储于中国境内服务器,受《中国网络安全法》约束,政府可依法要求数据访问。这种数据存储政策引发了国际社会的广泛担忧,尤其是在涉及敏感信息时。在 AI 大模型的应用中,数据是核心资源,数据存储的合规性至关重要。不同国家和地区对数据隐私和主权有不同的法律法规要求,DeepSeek 的数据存储政策可能与一些国家的法律产生冲突,导致合规性风险。但用户若通过本地运行模型或第三方平台使用服务,可能可以规避这一限制。
跨境合规冲突的复杂性
在 AI 大模型的全球化应用中,跨境数据流动是一个重要问题,不同国家和地区的法律法规对跨境数据流动有不同的要求。DeepSeek 需要在满足中国法律法规的同时,应对其他国家和地区的合规要求,这增加了其运营的复杂性和风险。同样,用户若通过本地运行模型或第三方平台使用服务,也可以规避这一限制。
数据泄露事件的严重后果
2025 年 1 月的数据泄露事件中,超过 100 万条用户聊天记录与 API 密钥因未加密的 ClickHouse 数据库暴露而泄露【6】。这种大规模数据泄露事件不仅损害了用户信任,还暴露了其数据保护措施的不足。在 AI 大模型的应用场景中,数据泄露可能导致用户隐私泄露、商业机密被盗用等严重后果,给企业和用户带来巨大的损失。同时,数据泄露事件也会对企业的声誉和市场竞争力造成负面影响。
(三)基础设施与网络架构脆弱性
DDoS 攻击与应急响应不足的暴露
2025 年 1 月,DeepSeek 遭遇峰值 3.2Tbps 的 DDoS 攻击,导致官网瘫痪 48 小时,初期防御体系未能有效过滤异常流量。这种大规模攻击暴露了其带宽管理与应急响应机制的不足。在 AI 大模型的应用中,基础设施和网络架构的稳定性至关重要,DDoS 攻击是一种常见的网络攻击手段,如果防御体系不完善,将导致服务中断、用户体验下降等严重后果。
反射放大攻击的带宽管理缺陷
反射放大攻击(如NTP/SSDP 协议滥用)暴露其带宽管理缺陷。这种攻击方式不仅消耗了大量资源,还可能导致服务中断,影响用户体验。在 AI 大模型的应用场景中,带宽管理是一个关键问题,如果带宽管理存在缺陷,将无法有效应对大规模的网络流量,导致网络拥塞和服务质量下降。
供应链与第三方风险的潜在威胁
攻击者通过PyPI 平台分发伪装成 DeepSeek API 客户端的恶意软件包【3】,窃取环境变量与用户数据。这种供应链攻击不仅威胁到用户数据安全,还可能影响其品牌声誉。在 AI 大模型的应用中,供应链安全是一个重要问题,如果供应链存在漏洞,将导致安全风险的传导,影响整个系统的安全性和稳定性。
(四)越狱攻击与对抗性漏洞
模型防御机制失效的严重性
使用 HarmBench数据集的 50 个有害提示攻击中【4】,DeepSeek-R1 的攻击成功率(ASR)达 100%,即使在确定性输出模式下仍无法阻止有害响应。这种高成功率表明其安全机制存在严重缺陷,极易被滥用。在 AI 大模型的应用中,模型防御机制的有效性至关重要,如果防御机制失效,将导致有害内容的生成和传播,对网络安全和社会稳定造成严重威胁。
Qualys 测试结果的警示
Qualys 测试显示【5】,其在不同越狱技术(如 Titanius、AJP)下的失败率超58%。这种高失败率表明其安全防护机制几乎无效,极易被绕过。在 AI 大模型的应用场景中,越狱攻击是一种常见的攻击手段,如果模型无法有效抵御越狱攻击,将导致安全漏洞的暴露和滥用。
算法设计缺陷的影响
强化学习策略虽提升推理效率,但牺牲了安全对齐机制,导致模型易被自动化工具绕过限制。这种设计缺陷使其在面对复杂攻击时显得尤为脆弱。在 AI 大模型的技术架构中,算法设计是核心环节,如果算法设计存在缺陷,将影响模型的安全性和可靠性。
(五)地缘政治与监管风险
国际禁令与市场限制的阻碍
澳大利亚与美国海军已禁止在政府设备中使用 DeepSeek,认为其数据实践构成“不可接受的安全风险”。这种禁令不仅限制了其市场扩展,还可能引发其他国家的效仿。在 AI 大模型的全球化应用中,地缘政治因素对市场准入具有重要影响,国际禁令将导致DeepSeek 在一些国家和地区的市场受限,影响其业务发展和市场竞争力。
美、意等国推动立法限制的挑战
美国与意大利等国推动立法限制 DeepSeek 市场准入,加剧其国际化障碍。这种地缘政治风险可能对其长期发展产生深远影响。在 AI 大模型的国际市场竞争中,法律法规和政策环境是重要因素,立法限制将增加DeepSeek 的运营成本和风险,影响其国际化战略的实施。
技术依赖与供应链安全的隐患
尽管DeepSeek 自研“烛龙”框架减少对英伟达 CUDA 的依赖,但其早期依赖 A100 GPU 库存仍存在供应链断供风险。这种技术依赖可能使其在面对国际制裁时陷入被动。在 AI 大模型的技术体系中,供应链安全是关键环节,如果供应链存在隐患,将影响技术的稳定性和可持续性。
四、企业与安全厂商的应对策略
基于上述风险,结合专家经验与技术实践,以及中国自主可控的发展战略,提出以下关键措施。
(一)强化模型安全机制
安全对齐训练(RLHF)的深化
采用红队数据集优化模型对有害内容的过滤能力。通过安全对齐训练,可以有效减少模型生成有害内容的概率,提高模型的安全性和可靠性。在 AI 大模型的训练过程中,安全对齐训练是一个重要环节,通过引入红队数据集,可以模拟各种恶意攻击场景,增强模型对有害内容的识别和过滤能力。
动态内容过滤系统的构建
部署情境感知防护,结合语义分析与意图识别拦截恶意输入。动态内容过滤系统可以实时监控模型输出,确保其符合安全标准。在 AI 大模型的应用场景中,动态内容过滤系统是一个重要的安全防护手段,通过对模型输出的内容进行实时分析和过滤,可以有效防止有害内容的传播。
(二)技术加固与合规适配
零信任架构与加密技术的应用
对核心数据库实施分域部署与权限最小化。零信任架构可以有效减少数据泄露的风险,加密技术可以保护数据的机密性和完整性。在 AI 大模型的数据存储和管理中,零信任架构和加密技术是重要的安全措施,通过分域部署和权限最小化,可以限制数据的访问和使用,防止数据泄露。
合规性改造的推进
通过针对模型的风险评估和第三方审计验证各国和地区有关AI 法案的合规性。合规性改造可以确保企业在国际市场的合规性,降低法律风险。在 AI 大模型的应用中,合规性是一个重要问题,通过针对模型的风险评估和第三方审计,可以对模型的风险进行全面评估和管理,确保其符合相关法律法规的要求。
(三)生态合作与技术创新
安全厂商协同的深化
针对安全厂商的产品与服务,将AI能力整合至威胁检测系统。安全厂商协同可以提升整体安全防护能力,形成优势互补。在 AI 大模型的应用中,安全厂商协同是一个重要的合作模式,通过将 AI 能力整合至威胁检测系统,可以提高安全防护的智能化水平,增强对网络安全威胁的应对能力。
开源生态治理的加强
通过开发者社区共建安全标准,例如建立漏洞赏金计划。开源生态治理可以有效减少开源生态中的安全风险,促进开源社区的健康发展。在 AI 大模型的开源生态中,通过建立漏洞赏金计划等激励机制,可以鼓励开发者积极参与安全漏洞的发现和修复,提高开源生态的安全性。
(四)应急响应与人员培训
分级响应机制的完善
针对攻击升级场景制定自动化遏制策略。分级响应机制可以快速响应复杂攻击,减少损失。在 AI 大模型的应用中,应急响应是一个重要环节,通过完善分级响应机制,可以提高对网络安全事件的应对能力,降低事件的影响和损失。
安全意识培养的强化
开展数据伦理与模型滥用识别培训。安全意识培养可以提升员工的安全意识,减少人为失误。在 AI 大模型的应用中,员工的安全意识和技能是关键因素,通过开展数据伦理和模型滥用识别培训,可以提高员工对网络安全威胁的认识和防范能力。
(五)国际合作与标准共建
跨境数据治理框架的推动
推动国际数据主权协议,减少法律冲突。跨境数据治理框架可以提升企业在国际市场的合规性,降低法律风险。在 AI 大模型的全球化应用中,跨境数据治理是一个重要问题,通过推动国际数据主权协议,可以协调不同国家和地区的法律法规要求,减少法律冲突。
技术开源与透明化的推进
通过开放部分代码与安全白皮书增强市场信任。技术开源与透明化可以提升用户信任度,促进技术的广泛应用。在 AI 大模型的发展中,技术开源与透明化是一个重要趋势,通过开放部分代码和安全白皮书,可以让用户更好地了解技术的原理和安全性,增强对技术的信任。
五、结论
DeepSeek 的崛起既是 AI 技术创新的里程碑,也是网络安全风险的集中体现。其核心优势(低成本、高性能)与安全缺陷(安全漏洞、合规短板)并存,要求企业与安全厂商采取“技术+管理+生态”的综合策略。从技术层面来看,优先部署动态防护与零信任架构,减少模型滥用风险;从管理层面来看,建立跨部门应急机制,强化合规审计;从生态层面来看,通过厂商合作与开源治理构建安全生态。
此次事件警示行业:AI安全需嵌入技术研发全生命周期,唯有系统性思维方能平衡创新与风险。未来,DeepSeek 若能在安全对齐、国际合作与透明治理上取得突破,可进一步提升其技术价值,成为 AI 安全领域的标杆。在中国自主可控的发展战略下,DeepSeek 有望通过技术创新和生态合作,推动 AI 技术在网络安全领域的健康发展,为全球网络安全事业做出贡献。
DeepSeek创始人梁文锋的60条思考:
1.我们做大模型,跟量化和金融都没有直接关系。我们要做的是通用人工智能,也就是AGI。
2.语言大模型是通往AGI的必经之路,并且初步具备了AGI的特征,所以我们从这里开始。
3.我们不会过早设计基于模型的一些应用,会专注在大模型上。从长期看,大模型应用门槛会越来越低,初创公司在未来20年任何时候下场,也都有机会。我们的目标很明确,就是不做垂类和应用,而是做研究,做探索。
4.我们理解人类智能的本质就是语言,人的思维就是一个语言的过程。你以为你在思考,其实可能是你在脑子里编织语言。这意味着,在语言大模型上可能诞生出类人的人工智能(AGI)。
5.只做复刻的话,可以在公开论文或开源代码基础上,只需训练很少次数,甚至只需finetune(微调)一下,成本很低。而做研究,要做各种实验和对比,需要更多算力,对人员要求也更高,所以成本更高。
6.我们希望更多人,哪怕一个小App都可以低成本去用上大模型,而不是技术只掌握在一部分人和公司手中,形成垄断。大厂的模型,可能会和他们的平台或生态捆绑,而我们是完全自由的。
7.从商业角度来讲,基础研究是投入回报比很低的。我们比较确定的是,既然我们想做这个事,又有这个能力,这个时间点上,我们就是最合适人选之一。
8.从最早的1张卡,到2015年的100张卡、2019年的1000张卡,再到一万张,这个过程是逐步发生的。很多人会以为这里边有一个不为人知的商业逻辑,但其实,主要是好奇心驱动,对AI能力边界的好奇。
9.对很多行外人来说,ChatGPT这波浪潮冲击特别大;但对行内人来说,2012年AlexNet带来的冲击已经引领一个新的时代。AlexNet的错误率远低于当时其他模型,复苏了沉睡几十年的神经网络研究。虽然具体技术方向一直在变,但模型、数据和算力这三者的组合是不变的,特别是当2020年OpenAI发布GPT3后,方向很清楚,需要大量算力。那之后,我们有意识地去部署尽可能多的算力。
10.一件激动人心的事,不能单纯用钱衡量。就像家里买钢琴,一来买得起,二来是因为有一群急于在上面弹奏乐曲的人。
11.人工成本是对未来的投资,是公司最大的资产。我们选的人相对朴实一点,有好奇心,来我们这里有机会去做研究。大厂很难单纯去做研究,做训练,它更多会是业务需求驱动。如果不能很快应用,大厂不一定能持续坚持,因为它更需要看到结果。
12.我们招人有条原则是,看能力,而不是看经验。如果追求短期目标,找现成有经验的人是对的。但如果看长远,经验就没那么重要,基础能力、创造性与热爱等更重要。
13.我们的核心技术岗位,基本以应届和毕业一两年的人为主。做一件事,有经验的人会不假思索告诉你,应该这样做,但没有经验的人,会反复摸索、很认真去想应该怎么做,然后找到一个符合当前实际情况的解决办法。
14.我们招人的条件是热爱,这些人的热情通常会表现出来,因为他真的很想做这件事,所以这些人往往同时也在找你。
15.我们的考核标准和一般公司不太一样。我们没有KPI,也没有所谓的任务。
16.创新需要尽可能少的干预和管理,让每个人有自由发挥的空间和试错机会。创新往往都是自己产生的,不是刻意安排的,更不是教出来的。我们交给员工重要的事,并且不干预他。让他自己想办法,自己发挥。
17.招人时确保价值观一致,然后通过企业文化来确保步调一致。当然,我们并没有一个成文的企业文化,因为所有成文的东西,又会阻碍创新。更多时候,是管理者的以身示范,遇到一件事,你如何做决策,会成为一种准则。
18.按照教科书的方法论来推导创业公司,在当下,他们做的事,都是活不下来的。但市场是变化的,真正的决定力量往往不是一些现成的规则和条件,而是一种适应和调整变化的能力。很多大公司的组织结构已经不能快速响应和快速做事,而且他们很容易让之前的经验和惯性成为束缚,而这波AI新浪潮之下,一定会有一批新公司诞生。
19.最让我们兴奋的是去搞清我们的猜想是不是事实,如果是对的,就会很兴奋了。
20.信仰者会之前就在这里,之后也在这里。他们更会去批量买卡,或者跟云厂商签长协议,而不是短期去租。
21.创新是昂贵且低效的,有时候伴随着浪费。所以经济发展到一定程度之后,才能够出现创新。很穷的时候,或者不是创新驱动的行业,成本和效率非常关键。OpenAI也是烧了很多钱才出来的。
22.这个世界存在很多无法用逻辑解释的事,就像很多程序员,也是开源社区的疯狂贡献者,一天很累了,还要去贡献代码。类似你徒步50公里,整个身体是瘫掉的,但精神很满足。
23.不是所有人都能疯狂一辈子,但大部分人,在他年轻的那些年,可以完全没有功利目的,投入地去做一件事。
24.我们的大模型服务降价只是按照自己的步调来做事,然后核算成本定价。我们的原则是不贴钱,也不赚取暴利,在成本之上稍微有点利润。
25.抢用户并不是我们的主要目的。我们降价一方面是因为我们在探索下一代模型的结构中,成本先降下来了,另一方面也觉得无论API,还是AI,都应该是普惠的、人人可以用得起的东西。
26.如果目标是做应用,那沿用Llama结构,短平快上产品也是合理选择。但我们的目的地是AGI,这意味着我们需要研究新的模型结构,在有限资源下,实现更强的模型能力。这是scale up到更大模型所需要做的基础研究之一。除了模型结构,我们还做了大量其他的研究,包括怎么构造数据,如何让模型更像人类等,这都体现在我们发布的模型里。
27.最重要的是参与到全球创新的浪潮里去。过去很多年,中国公司习惯了别人做技术创新,我们拿过来做应用变现,但这并非是一种理所当然。这一波浪潮里,我们的出发点,就不是趁机赚一笔,而是走到技术的前沿,去推动整个生态发展。
28.随着经济发展,中国也要逐步成为贡献者,而不是一直搭便车。过去三十多年IT浪潮里,我们基本没有参与到真正的技术创新里。我们已经习惯摩尔定律从天而降,躺在家里18个月就会出来更好的硬件和软件。但其实,这是西方主导的技术社区一代代孜孜不倦创造出来的,只因为之前我们没有参与这个过程,以至于忽视了它的存在。
29.大部分中国公司习惯follow,而不是创新。
30.创新的成本肯定不低,过去那种拿来主义的惯例和过去的国情有关。但现在,无论中国的经济体量,还是字节、腾讯这些大厂的利润,放在全球都不低。我们创新缺的不是资本,而是缺乏信心以及不知道怎么组织高密度的人才实现有效的创新。
31.过去三十年,我们都只强调赚钱,对创新是忽视的。创新不完全是商业驱动的,还需要好奇心和创造欲。我们只是被过去那种惯性束缚了,但它也是阶段性的。
32.在颠覆性的技术面前,闭源形成的护城河是短暂的。即使OpenAI闭源,也无法阻止被别人赶超。所以我们把价值沉淀在团队上,我们的同事在这个过程中得到成长,积累很多know-how,形成可以创新的组织和文化,这就是我们的护城河。
33.开源,发论文,并没有失去什么。对于技术人员来说,被follow是很有成就感的事。开源更像一个文化行为,而非商业行为。给予是一种额外的荣誉,一个公司这么做也会有文化的吸引力。
34.美国最赚钱的公司,都是厚积薄发的高科技公司。
35.中国AI和美国真实的gap是原创和模仿的差距。如果这个不改变,中国永远只能是追随者,所以有些探索也是逃不掉的。
36.英伟达的领先,不只是一个公司的努力,而是整个西方技术社区和产业共同努力的结果。他们能看到下一代的技术趋势,手里有路线图。中国AI的发展,同样需要这样的生态。很多国产芯片发展不起来,是因为缺乏配套的技术社区,只有第二手消息,所以中国必然需要有人站到技术的前沿。
37.我们不会闭源,我们认为先有一个强大的技术生态更重要。
38.我们短期内没有融资计划,我们面临的问题从来不是钱,而是高端芯片被禁运。
39.更多的投入并不一定产生更多的创新,否则大厂可以把所有的创新包揽了。
40.我们认为当前阶段是技术创新的爆发期,而不是应用的爆发期。长远来说,我们希望形成一种生态,就是业界直接使用我们的技术和产出,我们只负责基础模型和前沿的创新,然后其它公司在DeepSeek的基础上构建toB、toC的业务。如果能形成完整的产业上下游,我们就没必要自己做应用。
41.如果需要,我们做应用也没障碍,但研究和技术创新永远是我们第一优先级。
42.技术没有秘密,但重置需要时间和成本。英伟达的显卡,理论上没有任何技术秘密,很容易复制,但重新组织团队以及追赶下一代技术都需要时间,所以实际的护城河还是很宽。
43.提供云服务不是我们的主要目标,我们的目标是去实现AGI。
44.大厂有现成的用户,但它的现金流业务也是它的包袱,也会让它成为随时被颠覆的对象。
45.大模型创业公司可能活下来2到3家。现在都还处在烧钱阶段,那些自我定位清晰、更能精细化运营的,更有机会活下来。其它公司可能会脱胎换骨。有价值的东西不会烟消云散,但会换一种方式。
46.我经常思考的是,一个东西能不能让社会的运行效率变高,以及你能否在它的产业分工链条上找到擅长的位置。只要终局是让社会效率更高,就是成立的。中间很多都是阶段性的,过度关注必然眼花缭乱。
47.我们发布的V2模型没有海外回来的人,都是本土的。前50名顶尖人才可能不在中国,但我们能自己打造这样的人。
48.DeepSeek也全是自下而上的。而且我们一般不前置分工,而是自然分工。每个人有自己独特的成长经历,都是自带想法的,不需要push他。探索过程中,他遇到问题,自己就会拉人讨论。不过当一个idea显示出潜力,我们也会自上而下地去调配资源。
49.我们每个人对于卡和人的调动是不设上限的。如果有想法,每个人随时可以调用训练集群的卡无需审批,同时因为不存在层级和跨部门,也可以灵活调用所有人,只要对方也有兴趣。
50.我们选人的标准一直都是热爱和好奇心,所以很多人会有一些奇特的经历,很有意思。很多人对做研究的渴望,远超对钱的在意。
51.创新首先是一个信念问题。为什么硅谷那么有创新精神?首先是敢。Chatgpt出来时,整个国内对做前沿创新都缺乏信心,从投资人到大厂,都觉得差距太大了,还是做应用吧。但创新首先需要自信,这种信心通常在年轻人身上更明显。
52.我们在做最难的事。对顶级人才吸引最大的,肯定是去解决世界上最难的问题。其实,顶尖人才在中国是被低估的。因为整个社会层面的硬核创新太少了,使得他们没有机会被识别出来。我们在做最难的事,对他们是有吸引力的。
53.OpenAI不是神,不可能一直冲在前面。
54.AGI可能是2年、5年或者10年,总之会在我们有生之年实现。至于路线图,即使在我们公司内部,也没有统一意见。但我们确实押注了三个方向:一是数学和代码,二是多模态,三是自然语言本身。数学和代码是AGI天然的试验场,有点像围棋,是一个封闭的、可验证的系统,有可能通过自我学习就能实现很高的智能。另一方面,多模态、参与到人类的真实世界里学习,对AGI也是必要的。我们对一切可能性都保持开放。
55.未来会有专门公司提供基础模型和基础服务,会有很长链条的专业分工。更多人在之上去满足整个社会多样化的需求。
56.我主要的精力在研究下一代的大模型,还有很多未解决的问题。
57.所有的套路都是上一代的产物,未来不一定成立。拿互联网的商业逻辑去讨论未来AI的盈利模式,就像马化腾创业时,你去讨论通用电气和可口可乐一样,很可能是一种刻舟求剑。
58.我们经历了一个漫长的积累过程,外部看到的是幻方2015年后的部分,但其实我们做了16年。
59.未来中国产业结构的调整,会更依赖硬核技术的创新。当很多人发现过去赚快钱很可能来自时代运气,就会更愿意俯身去做真正的创新。
60.未来硬核创新会越来越多,现在还不容易被理解,是因为整个社会群体需要被事实教育。当这个社会让硬核创新的人功成名就,群体性想法就会改变,我们只是还需要一堆事实和一个过程。
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……
还没有评论,来说两句吧...