众所周知,一旦入行了数据合规领域,就要做好被信息流淹没的准备。每天最头疼的事情莫过于每天新增的国内外新闻资讯,如同新鲜的韭菜一般,看了一茬,还有一茬。
而且国外数据法的资讯分布得又比较广泛,各个国家的监管机构总会时不时地弄出一个大新闻。有时候真的没精力每天去各家监管机构的官网上去追踪最新的资讯。但又生怕自己会错过世界的某个角落发生的大事件。
当然,也不是没有偷懒的方法,比如一些成熟的第三方资讯平台(例如IAPP,Data Guidance)会贴心地为你总结和追踪世界各地的数据法新闻。通过订阅它们的Newsletter服务,你就可以较为便捷地一站式了解天下事。但缺点嘛,就是这两个平台都是英文网站,在语言方面并非是最适合中国小朋友体质的产品。
另一种偷懒的方法就是订阅一些知名数据合规的公众号。很多同行朋友们会在第一时间同步海外的重要资讯,并贴心地翻译成中文。比如说数据何规的何老师(有时不得不感叹一句活该人家做得好,真卷啊)
但是呢,我在想,还有没有更加偷懒一点的做法。你说,现在AI技术这么发达了,那能不能我躺在沙发上,轻轻敲击一下回车键,就能指挥AI们帮我干活,自动整理新闻资讯,并翻译成中文,告诉我昨天一天世界上发生了哪些值得关注的事情。
这要是成了,得多是一件美事呀。
于是乎,我就萌生了去动手做一个“数据法新闻日报 Agent”的念头。这一方面能够取悦自己,也能方便DLaw Hub的群友,还能锻炼一下coze工作流的开发技巧。
经过一个月的摸索,终于,我基本实现了预期的设想 —— 成果就是每天早上和大家见面的“数据法晨报”。
现在,我想把这段时间的开发日记和大伙们分享一下,也算是给自己留个纪念。当然,这个产品的技术含量很低,目前产品也很粗糙,仅供博君一笑。
1
起步:搭建工作流程
事情的起因源于在网上冲浪时看到了一位名叫“画小二”的博主发布的“批量抓取网页数据生成画小二日报”的视频,分享了如何使用coze的AI Agent自动抓取某一个新闻网站上的资讯,并进行清理数据,整理成所需的格式和内容,最终形成一份像模像样的日报。
整个工作流程主要包括以下几个步骤:
输入一个新闻主页的网址;
使用coze官方的LinkExtractorPro插件提取所有超链接;
使用大模型过滤出有效的新闻链接;
再交给coze官方的LinkReaderPlugin插件,逐条读取网页内容;
最后再用大模型整理成英文日报(当然也可以翻译成中文)。
我于是照猫画虎般拿EDPB官网做了一个试验,很顺利地跑通了工作流,将EDPB前10条新闻整理成了一份日报。
但是很快,我就发现一个严重的问题,就是一些资讯聚集的主流媒体平台,比如IAPP、Reuters、US news、New York Times等的网页,coze 官方的爬虫插件无法顺利读取到网页上的超链接,自然也无法进一步获取链接中的新闻资讯。这使得我没有办法仅通过一个网站就能获取大部分的资讯,项目陷入了第一个困境。
我当时以为是这些网站做了比较厉害的反爬虫机制,但现在想想可能另有其他比较搞笑的原因(具体且听后文分解)。
面对这个问题,我当时想到的是,采取“农村包围城市”的策略。如果无法从个别主流资讯平台一站式获取信息,那么就直接找到信息的源头,从各家监管机构的网站上入手。先筛选出可以使用插件抓取的网站,逐步拼凑,分布式实践,或许也能达到同样的效果。
2
筛选资讯来源
于是,之后一周的工作就是逐步筛选出插件可以读取的网站,包括:
但是,很快这条路径也遇到了问题。
一方面是各个监管机构的新闻发布频率不是很频繁,并不能保证每天都会产生新的新闻资讯。而上文提及的工作流原理是抓取网页上排名靠前的链接和内容,这就使得如果某个网页一直不更新新的内容,那么这个工作流每天就会反复抓取和整理重复的资讯,造成资源的浪费(毕竟每跑一次工作流都要消耗一定量的token)。
另一方面就是,一些网站也并没有特别多有营养、值得关注的内容。比较让我震惊的是新加坡的PDPC。可能是此前曾在那里留学过的缘故,我一直认为PDPC算是比较活跃的监管机构。但是这次项目中,我才发现PDPC的动态更新频率比较低,而且其中还充斥了一些大家并不感兴趣的活动消息。真正有价值的立法和执法动态少得可怜……可能这也是某种营商友好的体现?hh
以上两点导致的结果便是,这套方案的效率低得离谱。如果要靠多个平台拼凑组合信息,从而达到和IAPP、DataGuidance的同样水平,可能需要关注十数个网站。那每跑一次消耗的资源可真的会让我肉疼的。
更尴尬的是,有些重要新闻根本不在监管机构的官网,而是来自一些媒体的报道。所以,好像一切又要回到了原点。
2.5
番外:摸鱼的收获
所以有一段时间,整个开发的进度还是比较难受的,一直徘徊在找网站,测试网站,网站有这样那样的问题需要找其他新网站替代的死循环中。
在各种漫无目的的搜索过程中,到是看到了一些有意思的项目。
News Minimalist
(https://www.newsminimalist.com/)
这是一位加拿大软件工程师独立开发的项目,使用ChatGPT 每天分析 30,000 条新闻,然后给每条打一个“重要程度评分”(0 到 10 分),从而整理出每天世界上“最重要的几条新闻”。
整个项目起源于他被信息浪潮淹没的苦恼。他介绍说:“我只是想看点真正重要的新闻,但每次刷新闻,总是病毒、明星绯闻、手机发布会搅在一起。”
这个项目的Logo还是一只魔性的乌龟……真的笑死我嘞!
那个晚上,我盯着这只乌龟的脸,大眼瞪小眼地盯了10分钟。
同时,我的内心也在纳闷,他是怎么抓到 Reuters、NYT、Washington Post 这类主流媒体的内容的啊?!……🧐
Folo
有一天寻找海外播客的时候,突然看到了播客平台的RSS订阅功能,并进一步发现了一个超好用的RSS管理工具:Folo。
所谓的RSS是一种用于订阅和聚合网站内容的技术。它允许用户在不访问网站本身的情况下,就可以自动接收最新更新的信息,比如新闻、博客文章或播客。用户只需通过RSS阅读器添加感兴趣网站的RSS订阅链接,阅读器就会定期抓取内容并集中展示,帮助用户高效获取信息、节省浏览时间。
而Folo就是帮助大家管理RSS的平台。你可以在上面查阅各个订阅平台的最新消息,体验就和微信公众号的感受很像。非常丝滑。
我直接在上面订阅了 IAPP 的每日新闻 RSS,每天大概会推送 6~8 条全球数据合规相关的新闻。除了IAPP的每日新闻外,你还可以订阅其他监管机构(例如香港个人资料私隐专员公署)的新闻内容。
3
柳暗花明又一村:RSS订阅
💡沿着这个思路,我突然想到,能不能也让AI Agent读取RSS内容,并且自动输出成为我想要的新闻摘要呢?
还真的可以!我发现coze官方也提供了RSS读取的插件,工作的方式也和之前的LinkExtractorPro插件类似,都是能够通过解析一个原始的网页链接/RSS链接,来获取包含的新闻资讯链接和内容。
更可喜的是,IAPP官方就有提供RSS链接,通过该链接,我能够非常顺利地抓取到该平台的新闻标题和开头的片段。当然,由于IAPP设置了较强的全文反爬机制,所以我们通过插件也只能获取每个新闻开头的一小段正文(类似于试读章节)。但经过测试,通过这一部分内容已经足以了解该新闻的大致信息,因此RSS链接中的片段足够用了!
有小伙伴可能会说,IAPP的新闻在网站上是免费可以查阅的,
当时,我就在想说,既然IAPP可以通过这种方式可以抓到,那另一大数据法资讯的聚集平台DataGuidance是不是也能如此操作一番呢?这两个平台可是全球数据法新闻领域的“巨无霸”,只要拥有它俩,资讯的覆盖率就能轻轻松松达到到80%+。
但很可惜,DataGuidance并没有提供官方的RSS链接。
不过,非常幸运的是,此时群里的小伙伴Harvey老师送上了及时的助攻。他自己编写了DataGuidance的RSS链接,并发布在RSSHub上面。
并且Harvey老师和我分享了他之前制作Newsletter的心得,更加让我确信这个方式是可以跑通的。
在天时地利人和的加持下,很快,RSS路线的第一版工作流程就搭建完毕,也顺利获取到了IAPP平台上的最新资讯。
但是,正所谓好事多磨,就在我以为一切大功告成的时候,DataGuidance RSS读取却出现了问题。Coze的RSS读取插件死活无法成功读取到DataGuidance RSS内容。我一开始以为是哪里出现了Bug,心里有些泄气,还向Harvey老师抱怨着前路的坎坷。好在Harvey老师看了一眼报错说明后,很快就找到了病根。他猜测可能是国内版Coze无法访问海外的rsshub.app。
于是乎,我在第二天便把战场转移到了海外版的coze平台上。果然不出所料,这一切换到海外版本,一下子跑通了。看着数据沿着工作流的通路一点点汇聚成最终日报上的文字,心里终于长舒了一口气。
现在想起来,之前国内版coze的爬虫插件无法读取Reuters、New York Times等的网页上的内容,想必也可能是因为网络连接的问题吧。只不过我并没有在海外版的coze上找到对应的爬虫插件,因此暂时也无法印证这个猜想。
4
成品:数据法晨报
经过前后一个月的搭建,最终还是将这个简单的应用做出来了。
当然,值得后续继续改进的和打磨的点还有很多,比如现阶段每跑一次就需要消耗3万个token,其中不少会浪费在一些重复的内容筛选上,并不是非常的效率和经济;还比如现阶段的资讯来源都集中在欧美地区,亚非拉中东等地区的新闻还不能完全覆盖到;又比如AI总结的内容还稍显生硬,可能需要反复测试才能寻找到最佳的prompt和底层大模型。
但是,至少现在的应用可以实现我最初设想的,每天早上只点击一下鼠标,就能快速生成一份读得懂的数据法日报。
虽然难度并不高,但能亲手做出一个小产品还是挺开心的。总之,偷懒万岁!
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……
还没有评论,来说两句吧...