太酷了,这个 Agent 的体验。感觉这是最近除了 Codex 外,最让我惊喜的 Agent 产品了。今天想和大家分享一下。
最近这周我特别忙,团队新启动了一个 AI 产品,还有一个 AI Maker 大会,所以我每天在各个微信群、飞书群以及会议之间来回切换。
昨晚下班的时候,我突然想起前两天装了一个叫 Vida 的客户端 Agent。我是在 X 上看到有人推荐的,装完之后就把这事忘了。
于是随手问了它一句:最近这段时间,在 AI Maker Summit 上,我做过哪些重要的决策,你认为我现在需要和团队重点沟通什么。
结果它开始疯狂输出,给我总结了最近 AI Maker Summit 上我做过的四个重要决策。
我去,看到这里我倒吸一口冷气。
6 月 17 日,我确实在群里和团队说过网站的域名结构调整,然后端午假期,要彻底重构了整个网站的代码,并加入了 SSG。
Vida 全部总结了出来。
更夸张的是,它根据对我工作情况的了解,立马罗列了我需要和团队的重点沟通事项。
看到这里,已经晚上 8 点多了。浑身疲惫,我试探着继续问 Vida,让它帮我看看还有哪些紧急的待办任务。我靠,它居然回答了出来。
继续,我说既然你都知道我还有哪些事情还没干完,那就直接干吧,帮我把讲师沟通文档写出来。
等了不到一分钟,再切回软件一看,初稿已经 ready 了。
这真的超出我预期。
注意,我从来没有告诉过它 AI Maker Summit 是什么,也没有告诉过它我们的讲师沟通流程是什么,更没有把相关文档喂给它。理论上,它什么都不知道。
但你看它生成出来的内容,它知道 AI Maker Summit 的定位是什么,知道我们有哪些专题,知道讲师沟通大概会经过哪些环节,甚至连时间节点和整体节奏都基本是对的。
很明显,Vida 能够读取我的屏幕。这件事就变得有意思了。因为一旦可以读取屏幕,AI 其实就开始看到一整段连续的工作过程。
这就是屏幕上下文的价值。
之前 AI 对我们的了解,基本上都来自两种方式,一种是我们在对话里说的内容。一种是我们接入进去的第三方系统。但本质上,这些信息都是我们主动告诉它的。
但如果它能看到我们屏幕的话,这事就会变得完全不一样。比如我打开了哪些文档,在群里和谁沟通,说过什么话。
有了这些真实的上下文之后,Vida 就可以彻底理解我在做什么,以及怎么做的,然后进一步给出具体的工作建议,甚至一步到位,帮我搞定某件事。
我能猜到,很多人看到这里,第一反应肯定是:隐私怎么办?
这个问题确实绕不开。
事实上,这条路线 OpenAI 也在尝试,ChatGPT Pro 也已经具备读取屏幕的能力,只是开放范围有限,而且成本较高。
欧洲、英国等地区暂未开放相关能力,可能也与监管和隐私要求有关。
我觉得这本质上是一种个人选择:如果希望 Agent 获得更强的上下文能力,就需要开放更多信息。如果不愿意开放,那么它对你的理解自然会存在边界。
我比较放心 Vida 的是,它在隐私条款里明确写着用户的语音和屏幕数据均都是实时处理,不会在服务器保存原始输入,也不会用这些数据来优化他们的模型。
这部分我后来还专门做了一个测试。我用同一个账号,在另一台全新的电脑上登录 Vida。
结果发现,它对我之前那些工作内容完全不了解。无论是 AI Maker Summit 的信息,还是之前积累下来的那些工作上下文,它都不知道。
这进一步验证了,所有的信息只存在本地,不会到云端。
接下来,我再给大家看一个真实的 Case。
我让 Vida 坦诚地告诉我,从它的视角来看,我有哪些工作流程是可以优化的。下面这是他的回复截图的一部分。
看到这里的时候,我又感受到了 Aha Moment。
因为让 AI 总结信息不稀奇,让 AI 写文档也不稀奇。但让 AI 反过来分析我的工作习惯,其实是另一回事。要做到这一点,有个前提:
它得先理解我平时是怎么工作的。
比如每天在哪些工具之间来回切换,哪些事情花的时间最多,哪些任务经常被打断,哪些工作其实可以标准化,但现在还靠自己手工处理。
这些东西,如果只是看几段聊天记录,根本分析不出来。
但 Vida 不一样,它看到的是我真实的工作流。所以当它给我提建议的时候,那种感觉有点像一个跟我深度协作了好几天的人,坐下来认真复盘我的工作。
刚刚截图里提到的团队内部对账流程,我之前根本没想过应该把这事结构化。但你看 Vida,它很敏锐的意识到了这里的工作流可以优化。
写到这里,我突然意识到,很多时候,我对自己的工作状态其实并没有想象中那么了解。
每天都在忙,但时间到底花在了哪里,哪些事情在重复消耗自己,身在局中,用惯性在做事情,未必真的看得清楚。
Vida 反而能够从一个更客观的视角把这些问题指出来。指出来还不够,它还可以直接帮我创建文档。
除了在 Vida 的客户端里直接聊天,它其实还有很多玩法。比如在任何可以输入文字的地方,我都可以直接按下 Option + I,让它帮我生成初稿。
因为 Vida 已经持续观察了我一段时间,它对我的工作内容、沟通对象以及写作习惯已经有了不少了解。
所以我根本不用把背景讲完整,只需要简单说一句我要干什么,它就知道我大概想表达什么。
我录个屏,大家看看。这次更神,我直接说确认了和朋飞老师的合作,没有说是什么合作。它也能理解,而且完整的把需要写到邮件里的信息给我写了出来。
看完这些 Case 之后,我觉得 Vida 这个产品真的特别有意思。
甚至我隐隐觉得,屏幕上下文,这可能会是客户端 Agent 接下来往前走的一个重要方向。因为它解决的是 Context 问题。
以前很多 Agent 像一个特别聪明的新人,能力很强,但对我们的工作一无所知。所以每次都得重新同步项目进展,重新补充上下文。
这也是为什么今年 OpenClaw 火的时候,大家一直在说养虾。养虾的过程就跟处对象一样,让对方慢慢了解我们。
而 Vida 因为能看到我们的真实工作流程,所以,它很自然的就知道我最近在忙什么,这样很多事情都可以直接开始。
我今天体验完之后,甚至第一时间就在团队群里说:大家都可以装一个 Vida,认真用一周,然后让它评价一下自己的工作流,看看哪些地方还能优化。
对了, Vida 这个产品现在可以免费试用,大家可以下载去玩。
https://vida.app/
另外他们还发起了一个公开挑战,要把100个实用场景的交付成果做到SOTA,官网会更新进展,看来这产品的边界还会不断扩。
另外,再给大家分享一个我的场景,我感觉它特别适合帮我们写 SOP。
我发现几乎所有团队都有一个共同的问题,大家都知道 SOP 很重要,但就是懒得写。
有的同事可以把事情做得很好,但你让他把这套流程完整的总结出来,他似乎没有那个能力。
像我们公司,很多工作流程其实已经跑得很成熟了,但就是一直没有系统地沉淀下来。
以前这是个老大难问题,现在突然变简单了,因为 Vida 本来就看过整个过程。它知道我是怎么 Vibe Coding 的,怎么查资料的,怎么写文章的。
我可以直接告诉它:帮我把某个工作流整理成 SOP。它可以直接把初稿写出来。
这也是有屏幕上下文之后可以催生出的新场景。
很多人觉得 Agent 的应用场景有限,除了 Coding 和数据分析,好像没有特别强的需求。但我越来越觉得,问题未必是能力不够,而是上下文不够。
当上下文足够丰富时,很多原本琐碎的工作都可以交给 Agent 完成,甚至还能分析一天的工作方式、发现低效环节、优化流程,或者自动整理写作流程并沉淀成 SOP 供团队学习。
过去这些事情都需要自己手动总结,现在它已经能够根据真实工作过程自动完成。
太有意思了。这个时代,怎么能突然冒出来这么多有趣有用的产品呢?
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……




还没有评论,来说两句吧...