屏幕上下文，绝对是被低估的Agent洼地。

太酷了，这个 Agent 的体验。感觉这是最近除了 Codex 外，最让我惊喜的 Agent 产品了。今天想和大家分享一下。

最近这周我特别忙，团队新启动了一个 AI 产品，还有一个 AI Maker 大会，所以我每天在各个微信群、飞书群以及会议之间来回切换。

昨晚下班的时候，我突然想起前两天装了一个叫 Vida 的客户端 Agent。我是在 X 上看到有人推荐的，装完之后就把这事忘了。

于是随手问了它一句：最近这段时间，在 AI Maker Summit 上，我做过哪些重要的决策，你认为我现在需要和团队重点沟通什么。

结果它开始疯狂输出，给我总结了最近 AI Maker Summit 上我做过的四个重要决策。

我去，看到这里我倒吸一口冷气。

6 月 17 日，我确实在群里和团队说过网站的域名结构调整，然后端午假期，要彻底重构了整个网站的代码，并加入了 SSG。

Vida 全部总结了出来。

更夸张的是，它根据对我工作情况的了解，立马罗列了我需要和团队的重点沟通事项。

看到这里，已经晚上 8 点多了。浑身疲惫，我试探着继续问 Vida，让它帮我看看还有哪些紧急的待办任务。我靠，它居然回答了出来。

继续，我说既然你都知道我还有哪些事情还没干完，那就直接干吧，帮我把讲师沟通文档写出来。

等了不到一分钟，再切回软件一看，初稿已经 ready 了。

这真的超出我预期。

注意，我从来没有告诉过它 AI Maker Summit 是什么，也没有告诉过它我们的讲师沟通流程是什么，更没有把相关文档喂给它。理论上，它什么都不知道。

但你看它生成出来的内容，它知道 AI Maker Summit 的定位是什么，知道我们有哪些专题，知道讲师沟通大概会经过哪些环节，甚至连时间节点和整体节奏都基本是对的。

很明显，Vida 能够读取我的屏幕。这件事就变得有意思了。因为一旦可以读取屏幕，AI 其实就开始看到一整段连续的工作过程。

这就是屏幕上下文的价值。

之前 AI 对我们的了解，基本上都来自两种方式，一种是我们在对话里说的内容。一种是我们接入进去的第三方系统。但本质上，这些信息都是我们主动告诉它的。

但如果它能看到我们屏幕的话，这事就会变得完全不一样。比如我打开了哪些文档，在群里和谁沟通，说过什么话。

有了这些真实的上下文之后，Vida 就可以彻底理解我在做什么，以及怎么做的，然后进一步给出具体的工作建议，甚至一步到位，帮我搞定某件事。

我能猜到，很多人看到这里，第一反应肯定是：隐私怎么办？

这个问题确实绕不开。

事实上，这条路线 OpenAI 也在尝试，ChatGPT Pro 也已经具备读取屏幕的能力，只是开放范围有限，而且成本较高。

欧洲、英国等地区暂未开放相关能力，可能也与监管和隐私要求有关。

我觉得这本质上是一种个人选择：如果希望 Agent 获得更强的上下文能力，就需要开放更多信息。如果不愿意开放，那么它对你的理解自然会存在边界。

我比较放心 Vida 的是，它在隐私条款里明确写着用户的语音和屏幕数据均都是实时处理，不会在服务器保存原始输入，也不会用这些数据来优化他们的模型。

这部分我后来还专门做了一个测试。我用同一个账号，在另一台全新的电脑上登录 Vida。

结果发现，它对我之前那些工作内容完全不了解。无论是 AI Maker Summit 的信息，还是之前积累下来的那些工作上下文，它都不知道。

这进一步验证了，所有的信息只存在本地，不会到云端。

接下来，我再给大家看一个真实的 Case。

我让 Vida 坦诚地告诉我，从它的视角来看，我有哪些工作流程是可以优化的。下面这是他的回复截图的一部分。

看到这里的时候，我又感受到了 Aha Moment。

因为让 AI 总结信息不稀奇，让 AI 写文档也不稀奇。但让 AI 反过来分析我的工作习惯，其实是另一回事。要做到这一点，有个前提：

它得先理解我平时是怎么工作的。

比如每天在哪些工具之间来回切换，哪些事情花的时间最多，哪些任务经常被打断，哪些工作其实可以标准化，但现在还靠自己手工处理。

这些东西，如果只是看几段聊天记录，根本分析不出来。

但 Vida 不一样，它看到的是我真实的工作流。所以当它给我提建议的时候，那种感觉有点像一个跟我深度协作了好几天的人，坐下来认真复盘我的工作。

刚刚截图里提到的团队内部对账流程，我之前根本没想过应该把这事结构化。但你看 Vida，它很敏锐的意识到了这里的工作流可以优化。

写到这里，我突然意识到，很多时候，我对自己的工作状态其实并没有想象中那么了解。

每天都在忙，但时间到底花在了哪里，哪些事情在重复消耗自己，身在局中，用惯性在做事情，未必真的看得清楚。

Vida 反而能够从一个更客观的视角把这些问题指出来。指出来还不够，它还可以直接帮我创建文档。

除了在 Vida 的客户端里直接聊天，它其实还有很多玩法。比如在任何可以输入文字的地方，我都可以直接按下 Option + I，让它帮我生成初稿。

因为 Vida 已经持续观察了我一段时间，它对我的工作内容、沟通对象以及写作习惯已经有了不少了解。

所以我根本不用把背景讲完整，只需要简单说一句我要干什么，它就知道我大概想表达什么。

我录个屏，大家看看。这次更神，我直接说确认了和朋飞老师的合作，没有说是什么合作。它也能理解，而且完整的把需要写到邮件里的信息给我写了出来。

看完这些 Case 之后，我觉得 Vida 这个产品真的特别有意思。

甚至我隐隐觉得，屏幕上下文，这可能会是客户端 Agent 接下来往前走的一个重要方向。因为它解决的是 Context 问题。

以前很多 Agent 像一个特别聪明的新人，能力很强，但对我们的工作一无所知。所以每次都得重新同步项目进展，重新补充上下文。

这也是为什么今年 OpenClaw 火的时候，大家一直在说养虾。养虾的过程就跟处对象一样，让对方慢慢了解我们。

而 Vida 因为能看到我们的真实工作流程，所以，它很自然的就知道我最近在忙什么，这样很多事情都可以直接开始。

我今天体验完之后，甚至第一时间就在团队群里说：大家都可以装一个 Vida，认真用一周，然后让它评价一下自己的工作流，看看哪些地方还能优化。

对了， Vida 这个产品现在可以免费试用，大家可以下载去玩。

https://vida.app/

另外他们还发起了一个公开挑战，要把100个实用场景的交付成果做到SOTA，官网会更新进展，看来这产品的边界还会不断扩。

另外，再给大家分享一个我的场景，我感觉它特别适合帮我们写 SOP。

我发现几乎所有团队都有一个共同的问题，大家都知道 SOP 很重要，但就是懒得写。

有的同事可以把事情做得很好，但你让他把这套流程完整的总结出来，他似乎没有那个能力。

像我们公司，很多工作流程其实已经跑得很成熟了，但就是一直没有系统地沉淀下来。

以前这是个老大难问题，现在突然变简单了，因为 Vida 本来就看过整个过程。它知道我是怎么 Vibe Coding 的，怎么查资料的，怎么写文章的。

我可以直接告诉它：帮我把某个工作流整理成 SOP。它可以直接把初稿写出来。

这也是有屏幕上下文之后可以催生出的新场景。

很多人觉得 Agent 的应用场景有限，除了 Coding 和数据分析，好像没有特别强的需求。但我越来越觉得，问题未必是能力不够，而是上下文不够。

当上下文足够丰富时，很多原本琐碎的工作都可以交给 Agent 完成，甚至还能分析一天的工作方式、发现低效环节、优化流程，或者自动整理写作流程并沉淀成 SOP 供团队学习。

过去这些事情都需要自己手动总结，现在它已经能够根据真实工作过程自动完成。

太有意思了。这个时代，怎么能突然冒出来这么多有趣有用的产品呢？

推荐站内搜索：最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……

ZhouSa.com

正文

屏幕上下文，绝对是被低估的Agent洼地。

相关阅读

一秒入戏！在 Centos终端实现黑客帝国代码雨

远程运维必备：断网续连 + 进程保活完全指南

网安出海正当时——2026全球安全展会攻略一览

欢迎收看：黑灰产的一周工作vlog

发表评论取消回复

还没有评论，来说两句吧...

目录[+]