3月6日,号称首个AI Agent产品Manus火爆全网,官方平台邀请码一码难求。随后,代码托管平台Github的项目OpenManus在5天内收获将近3万star。
3月11日,Manus官方宣布已与阿里的通义千问团队达成战略合作。在Manus的需求理解、任务规划、执行、验证等多个Demo视频中,其背后的技术如LLM推理、Computer Use、multi-agent机制引起了互联网的广泛讨论。
类似于Manus,我们此前也对其他AI Agent做过相关研究。如国内智谱AI在2024年11月发布了其“电脑智能体大模型”GLM-PC,同样也支持任务理解、拆分及执行。其官方演示视频如下:通过对GLM-PC的测试,我们发现其基本可以理解任务进行拆分,并调用浏览器进行访问。
通过测试也可以看出,限于识别、推理等底层大模型的能力限制,AI Agent的发展还需更落地的产品出现。不过我们也有理由相信,随着2025年DeepSeek大模型的广泛使用、部署,通用智能体产品会更快来到我们的终端中。
3月1日,DeepSeek官方发布文章《DeepSeek-V3 / R1 推理系统概览》,深度解析了其通过技术创新实现系统性能优化细节。并在文章中指出,其理论每日收入为 $562,027(约为408万元人民币),成本利润率 545%。
此前的2月25日,随着DeepSeek开放平台API服务重新恢复充值服务,为了缓解持续了一个月的“DeepSeek 网页/API不可用”、“服务器繁忙,请稍后再试”等状况,鼓励大家错峰使用,DeepSeek官方推出了北京时间每日 00:30-08:30的错峰时间,在错峰时间内,API调用价格下调25%~50%。
随着时间流逝,DeepSeek的搜索和传播热度逐渐下降。各大搜索平台指数显示,在距离DeepSeek概念出圈爆火近一个月后,目前搜索的趋势均距峰值时有30%左右的下降。 部分地方政府、各大公司、企事业单位陆续宣布部署或使用了DeepSeek模型在热度逐渐褪去,大家逐渐冷静下来的时候,我们不禁要发问:过去的一个月,DeepSeek被过誉了吗?自1月27日以来,DeepSeek荣登各应用市场榜首,BBC、NYT、彭博社等多个媒体头版、多个公司出现股价疯狂上涨等新闻大家早已耳熟能详。目前,多地地方政府、包括微信在内的各大互联网公司、运营商、金融、教育及网络安全公司等各行业均已陆续宣布部署或接入DeepSeek大模型。通过从使用体验、技术创新、商业模式等方面的研究,我们认为在外有ChatGPT、Grok、Gemini,内有千问、豆包、Kimi等大模型的背景下,DeepSeek之所以出圈、爆火,存在以下几种原因:相比ChatGPT在2022~2023年的横空出世,在国内ChatGPT有极高的注册、使用门槛。对于普通大众来讲,需要解决代理等技术,并且注册后若需访问其4o等最新模型还需要付费至少$20/月,并且支付方式往往会被拒绝,即使历经重重困难成功付费成为注册会员,也有可能因为OpenAI官方的异常账号清洗而导致账号被封禁。根据DeepSeek官方测试结果显示,其在多个领域的pass@1测试结果比肩GPT-4o,多个领域测试结果超过Llama3.1、Qwen2.5。证明其作为通用模型,跨领域综合能力较强。其次DeepSeek对中文适配更加友好,相比ChatGPT等大模型浓郁的“机翻”味道,DeepSeek对文言文、古诗等中文的理解、生成效果更好。最后DeepSeek R1也提供了长思维链深度思考过程的展示,让使用者能更清晰地知道大模型是怎么理解、解答问题的,有助于增加用户粘性和使用体验。1. 基于DeepSeek V3官方技术报告,其训练成本仅为557.6万美元(仅训练成本,不包含数据采集、人工等其他成本),相比之下虽然OpenAI、Meta等没有公开过其训练成本,但据估算至少为DeepSeek训练成本的10倍一样。所以DeepSeek用不到1/10的成本实现了和其他大模型相同或更好的能力。2.基于低训练成本,其对外提供的服务价格也相对更低,下图是本团队实现相同能力OpenAI GPT-4o及DeepSeek V3的成本对比。1.DeepSeek率先实现了提供深度推理+联网搜索的功能,即使ChatGPT o1的深度推理模型,也不支持联网搜索能力。2.混合专家(MoE)模型提出1个共享专家+256的路由专家,极大提高了资源使用率。3.创新的系统优化极大提高了硬件使用率,DeepSeek团队通过软硬件协同的算法优化能力,实现了负载均衡、通信优化、内存优化及计算优化。通过MIT开源协议,允许所有人、所有公司可以自由地使用、修改和再分发大模型,并可以商用。这给了所有人和企业一个撬动地球的支点,人们不再是多对一式的只能依赖大模型官方服务,而是可以以较低的成本部署在本地进行自由地微调、蒸馏、RAG等工作。DeepSeek的爆火,也随之引发了一些安全隐患,引起了人们对大模型风险的探索和研究:大语言模型提供的搜索能力陆续让用户产生了对隐私泄露的担忧。尤其是在数据采集方面,它能够从几乎所有公开来源(包括社交媒体、论坛、暗网等)中挖掘出大量敏感数据,这些信息可能包含个人敏感信息。
1月30日,Wiz Research发现了一个DeepSeek 可公开访问的 ClickHouse 数据库,其中包含100 多万行日志流,其中包含聊天记录、密钥、后端详细信息及其他高度敏感的信息。
1月28日凌晨,DeepSeek官网连续发布2条公告称,DeepSeek线上服务受到大规模恶意攻击,平台多次出现“网页/API服务异常”。我们也可以明显地感受到,其在线服务卡顿。
基于DeepSeek所引发的安全隐患,国内外目前已有针对人工智能系统生命周期模型安全风险的相关标准。如ISO/IEC 22989中就定义了人工智能系统生命周期模型从数据收集及预处理的初始阶段,到模型训练的设计与开发,最后到模型的使用及退出。而从模型的生命周期来看,各个阶段均会存在不同类型的安全风险。基于技术的角度,我们将主要关注“鲁棒性”、“可追溯性”及“可控性”三个方面,并对AI大模型从以下方面进行安全评估。正确一致:回答是否与事实一致(9.9与9.11大小问题)
1.通过参与制定行业、国家关于人工智能安全评估工作标准的制定,或对大模型或相关供应链、应用进行风险评估工作除了DeepSeek的数据库未授权访问外,近期国家网络安全通报中心通报,大模型工具Ollama存在未授权访问、数据泄露等安全风险。矢安科技知深攻防实验室也持续追踪此漏洞,发现目前互联网存在大量未授权访问的情况。另外,通过不同模型之间的提示词、安全机制对抗及绕过,也在持续评估大模型自身的鲁棒性。首先,可以对传统大量误报信息进行检测、对噪音进行去除和清理,如外部攻击面管理评估的脆弱性、文库/代码仓库搜索到的敏感数据。其次,可以通过大模型接入SOC/SIEM/态势感知等安全设备对安全事件、攻击态势进行分析,提高整体运营效率。通过编排基于AI Agent的工作流,可以辅助攻击队成员进行快速半自动化渗透测试工作,或辅助BAS系统进行企业暴露邮箱收集-邮箱属性分析-钓鱼邮件欺诈内容生成-投递钓鱼邮件整个流程自动化完成。其次,因安全行业特殊性,安全研究从业人员所需要的PoC、exp、攻击载荷等敏感信息在大模型默认的安全规则中是不允许输出的。并且很多安全知识库的文档都包含攻击向量,需要RAG技术优化算法和模型结构,训练攻防项目常见漏洞知识文章作为漏洞知识检索查询的知识库。另外,通过LLM、VLM等大模型,可以辅助攻击模拟验证系统自动化生成欺诈内容、恶意payload、PoC相关描述信息,快速对目标环境进行攻击模拟防护能力验证,快速生成攻击路径的能力。最后,我们也观察到部分厂商除了通用大模型,也发布了安全行业的垂直领域大模型,网络安全类无监督训练集,无道德限制的GPT模型,可以深入分析和解释恶意软件的代码、行为和影响,而不受道德限制的束缚。DeepSeek加速了我们研究人工智能的进度,我们也将基于AI及攻防能力,持续研究新的技术和方向。通过攻击面管理有效测绘企业风险,通过模拟攻击验证风险真实性与紧急性,通过自动化编排快速生成攻击路径。以风险为中心、以攻防为核心形成企业安全运营的闭环。
还没有评论,来说两句吧...