支付宝有多狠？当年为抓骗子搞出图计算，现在竟用它预测未来

浅友们好~我是史中，我的日常生活是开撩五湖四海的科技大牛，我会尝试用各种姿势，把他们的无边脑洞和温情故事讲给你听。如果你想和我做朋友，不妨加微信（shizhongmax）。

支付宝有多狠？

当年为抓骗子搞出“图计算”

现在竟用它预测未来

文 | 史中

（零）圣彼得堡凶杀案

19世纪，圣彼得堡的一座高档公寓里，发生了一起凶案。

一位富商在浴室被刺死，而凶器就遗落在一旁，是一把精致的开信刀。

资深的警探史·伊万懦夫·中奉命调查此事。他制定了天衣无缝的调查计划：

结果，两群人完全不重合。

“这。。。不科学啊，一定存在更隐蔽的联系！”

警探不放弃，决定进一步调查。

他把“表格A”上的100人和“表格B”上的100人分别连线，成为10000组配对，然后挨个走访调查。

他想发现这些“配对”之间有没有“曾同处一室”或“认识同一位中间人”的情况，但组合众多，其中的可能性也多如牛毛。史·伊万懦夫·中咬咬牙，以坚毅的决心开始推进！

调查进行了几个月，案件陷入一团乱麻，但警探遇到了不得的事儿：

表格B上有一位刀具经销商格列布，格列布对他说，你这么有毅力有恒心，不妨跟我做生意，比当警探好赚多了！表格A上有另一位富豪安托尼，他的女儿居然对自己产生了爱慕之情。

于是，史·伊万懦夫·中毅然决定出任格列布公司的总经理，然后娶了安托尼的女儿，走上人生巅峰。

今天的浅黑讲故事就到这里。

等等。。。那边血泊里还躺着一位呢，不管了吗？！

不是不管，是真管不了。。。

我们回到警探身边，不难发现，他面前发散出了无数个表格：

每个人都和众多地点和人存在关联，如果事无巨细地顺藤摸瓜，最终定能找到几条被害人和刀之间的连线，再从中排查，大概率能找到凶手。

但问题是，这么干。。。懦夫警探到退休也不一定能查出真相啊。。。人生苦短为啥不出任总经理迎娶白富美？

残酷的事实是：

哪怕明知道人命关天的真相就藏在一堆数据里，因为分析复杂，代价太大，实际上根本无法进行——而无法浮现出来的真相，就不是真相。

但我们不想一直迷迷糊糊地生活，我们渴望用技术接近真相。

直接向你宣布两个好消息：

第一，21世纪的今天，我们掌握了一种“显影术”，弹指一挥间，就能从浩渺的数据中查询关联、计算真相，这就是——图计算。

第二，在图计算领域，中国人的技术一直居于世界前列，相当于巴西在足球历史中的地位——是少有的我们从没被任何人“卡脖子”的尖端领域。

话说，啥是“图计算”嘞？

我先用五句话简单科普一下：

你可以这样理解：普通的数据库是图数据库在某个平面的“投影”，而图数据库是普通数据库融合在一起形成的“全息影像”。

话说，要是史·伊万懦夫·中警探穿越到今天，他就可以把警局的“户籍数据”、“金融转账数据”甚至“交通数据”都导进图数据库中，再输入自己调查到的独家信息，按一下回车键，一条清晰的连线没准就会奇迹般浮现在他眼前！

正所谓，踏破铁鞋无觅处，得来全靠图数据库！能把人一生的艰苦卓绝都压进几十毫秒的计算里，这是一种专属于科技的浪漫。

而我幸运地认识了一位制造这种顶级浪漫的大牛。他就是蚂蚁集团图数据库的负责人，洪春涛。

你不一定听过他的名字，但是，每当你用支付宝转账的时候，金额、设备、人物关系等，都是图计算判断你的账户是否有风险的依据。

从这个意义上说，在座各位都享受过他和小伙伴们的“贴身服务”。

洪春涛

（一）点燃技术进步“第一把火”的竟是骗子

我猜很多人心里有隐隐的疑问：

答案并不那么显而易见。

你想想，支付宝是个支付工具，它的数据库只要把每笔转账的“金额”记清楚，不错一分钱，就够了，为啥非要费劲把人、设备的关系这些“额外信息”也存进去呢？增加存储成本不说，还得额外保护这些数据不泄露，里外都是负担！

答案是两个字：骗子。

在支付宝刚成立的时候，数据库里确实只存“用户 ID”和“转账金额”等几个有限的信息。

但是人的恶念像水，只要有缝隙，就会渗进去。

很快，有人开始“盗号”，偷来别人的密码，或伪造身份证重置别人的密码，在自己的电脑上（那时候还没有手机版）登录，把钱转走。

只靠ID和金额，支付宝无从判断一笔转账是不是被盗号之后做的。

于是，老师傅只好把登录的设备、网络环境等等信息存下来。这样，如果发现异地登录，就很可能是高风险的，你输对了密码也可以不给你转。

就像下面酱，在风控那一层拦住↓↓↓

这条路走不通，坏人就会金盆洗手回去好好上班了吗？不可能，他们会研究更恶毒的办法——诈骗——我让受害者拿自己的手机转不就行了？

就像下面酱↓↓↓

这咋办？支付宝的老师傅冥思苦想，终于一拍桌子，被骗转账和一般的转账并还是有区别！被骗最大的特征就是：会转给一个完全没有关系的账户。

你看，“关系”两个字就这样悄然出现了。

支付宝的老师傅必须找到一种数据库，能够记录“人和人”、“人和设备”、“设备和设备”之间的关系。

于是，从2015年开始，就有一支小分队，秘密研究图数据库 TuGraph（这个名字是后改的，为了便于理解我们就叫这个名字吧）。

图数据库看上去“剪不断理还乱”，其实你只需要知道三样东西：点、边、数据。

所谓点，就是“实体”：一个人、一台手机、一个地址，都是实体。

所谓边，就是“关系”：如果一个人用了一台手机，就把这两个点用边连上；如果一个人转钱给另一个人，也用边把他俩连上。

所谓数据就是：详细记录这个点或边的内容。比如一个人，他的注册身份证号、年龄之类的数据就挂在它的点上；两人之间转账，转账金额就挂在边上。

可用这玩意儿怎么抓坏蛋呢？

也很简单：

就像这张图，左边的“AB转账”风险比较低，右边的风险比较高↓↓↓

有没有感觉眼熟？这个找 A 和 B 关系的操作，不就是懦夫警探调查凶案的过程嘛？

看到这你估计已经恍然大悟：懂了！

不，你不懂。

仅仅能查出关系的图数据库等于废物。。。因为我们没考虑“速度”。

假如，现在你准备转5000块给房东，你输入密码，然后支付宝开始转圈，弹出一行字：我们正在查你有没有被骗，别急啊，明天告诉你结果！

你能等吗？就算你能等，房东能等吗？

“20毫秒，是我们每次查询耗时的上限。一般10秒就能完成”洪春涛说。

人眨一下眼，大概要100毫秒，也就是眨眼的功夫，最少够 TuGraph 帮你查5遍，堪称“一眨五次郎”。

但。。。你有没有发现一个 Bug？

查关系，不像在富士康流水线上组装手机那样每个动作都是“固定的”。

有时候 A 和 B 是好基友，一查很快就知道他们关系亲密；有时 A 和 B 关系比较疏远，经过两三个中间人才能把他们联系起来，得查半天。

也就是说，你没法预知这次查询是快是慢。。。

就像下图↓↓↓

那怎么保证图数据库每次查询都遵守这个“时间红线”嘞？

洪春涛一股脑说了九九八十一招，我挑两条比较有趣的讲给你：

首先，得给数据库装个“小脑”。

影响查询速度的情况成百上千，但要说最大的噩梦，就是一个词：“大点”。

咱们普通人用支付宝，大概只会和十个人有转账往来，这算“小点”。

但有的社牛，资金往来有成千上万人。一旦碰到了这样的“大点”，那可要命了，数据库引擎光查这一个点就超过20毫秒了。。。

这咋办？摇人呗！老师傅的方法是，把大点上的查询任务分成十个任务，并行查询。

但是，浅友们上班儿时肯定深有体会，一个任务一旦拆开，就涉及到同事们的分工合作，要是策略安排得不妥当，最后反而混乱、甩锅、死机。

这背后，就需要设计一套强大的并行调度系统，根据当时的实际情况排布各个线程，就像“小脑”里的运动中枢一样，能调动全身肌肉群协调工作。

其次，还得给数据库装个“大脑”。

洪春涛突然问我：查 A 和 B 的关系，你要从 A 出发找 B？还是从 B 出发找 A？还是 AB 一起出发，在中间碰头？

我正在蒙圈中，他公布了答案：不一定。

如果从 A 出发马上会遇到一个大点，从B出发都是小点，那显然从 B 开始查更快。如果从 A 出发走过一跳之后遇到大点，再从B开始走也可以。

但问题是，在开始查询之前，你不可能确切知道哪里会遇到大点。

所以老师傅会做一个精巧设计：让图数据库在最初存储数据的时候，就做好粗略的估算，这个点比较大，那个点比较小，记在小本本上备用。

这样，在执行查询任务前，让“大脑”照着小本本预先做个规划，才不会费儍功夫，所谓“预则立，不预则废”嘛。

话说，这两个“脑”都是查询层面的优化，如果把它们掀开，还会看到更底层的技术。

比如如何优化“存储机制”和“索引机制”，相当于在脑区里怎么摆布这些信息才能最快回忆出来，那些知识太艰深，咱们暂且略过，把有限的篇幅留给更有趣的故事。

看了“懦夫警探追凶”和“支付宝抓骗子”的案例，估计你会有这样的感觉：图数据库是用来抓坏人的。

但我要说，仅仅把图数据库当做抓坏人的武器，虽不能说大材小用，但属实思路太保守了。

接下来我不妨给你提供一些“吹牛素材”——在跟别人吃饭聊天时，你应该怎样把图数据库放在一个宏大的世界观里讲给他听嘞？

（二）数据库的“特斯拉时刻”

话说，人类发展有这么个奇怪的剧本：

车就是个典型的例子。

在轿车发明的很长时间里，它都是由电驱动的，设计简单，故障率低。哪怕到了1900年，美国制造的汽车中，电车都有15万辆，油车只有可怜的936辆。

但当时的电池技术实在太落后，开着开着就没电了，实干家福特一看，还是落后的燃油车更适合当下，于是他引入流水线，生产“T型车”，这才开启了油车时代。

后来的故事大家也知道，3C产业发展让电池技术突飞猛进，疯子马斯克突然拍大腿，汽车本该用电驱动啊！！

于是有了特斯拉电动车的爆发。

货币也是一个例子。

太平洋上的雅浦岛有很多石盘，人们用它当货币，但这东西太沉，花钱成了体力活儿，于是大家发明了“记账”。

我给你四分之一个石盘，就让村支书在账本上记一笔，这疙瘩的所有权就转移到你身上了。

可在世界其他地方，人太多，经济规模太大，村支书记不过来，只好转回低级形态——把实物金银/货币作为交换的中间物。

后来的故事大家也知道，计算机系统发展起来，银行借此恢复了货币的高阶形态，重新用“账户记账”这种方式管理每个人的财富。

雅浦岛上的石头货币

数据库也是一个例子。

1970年左右，科学家发明数据库的时候，就长成“图”的样子。

但是 IBM 和 Oracle 一看，您这玩意儿99%的计算机都跑不动啊，不如把数据库拍扁了，起码让一部分人先用起来！这才有了二维“关系型数据库”的崛起。

但今天，计算机的算力、软件的代码基础都已经发生了飞跃，难道我们不该用回数据库的“高级形态”——图数据库吗？

这就是数据库的“特斯拉时刻”。

可是看到这，我猜会有人撇嘴：我就是个打工人，远在天边的数据库高级不高级，跟我有毛关系嘞？

这就要说到数据的本质目的。

没有数据的日子，我们人类茹毛饮血天天打猎也活了几万年。可见数据不是我们生活的必需品。但那个时候人类面临很多飞来横祸，洪水干旱，隔壁野人来袭，根本没有办法抵御。

部落首领冥思苦想，要抵御灾祸，咱得有点儿“预测未来”的能力。

数据的本质目的就是预测未来。

最早的数据是龟甲上的裂痕，最早的数据工程师是大祭司。但他们预测的准确率实在是一言难尽，纯纯的50%。因为他们的数据完全没能拟合真实世界。

最早的数据库

往事越千年，咱们有了数据库，存进去的数据真能拟合世界：

于是，数据才开始有了预测未来的能力。当数据库里的数据细密交织，组成了完整的体系，马云所说的“DT 时代”也就到来了。

洪春涛告诉我，为了增加预测准确度，需要不断向系统里注入新的维度的数据，并且对更多维度的数据进行联合分析。这时就会发现，旧有的“关系型数据库”的抽象成本会迅速升高。

这里提到了一个高级的生词：抽象成本。

不妨给你举个例子。

在日心说的世界观里，星体围绕太阳做简单的圆周运动；在地心说的世界观里，星球们做着复杂的翻花儿运动。他俩都可以预测星球轨道，但为啥今天我们不用地心说了呢？因为地心说的抽象成本高！

同样预测50天后火星的位置，用地心说的计算量是日心说的成百上千倍。

敲黑板！！如果你不想预测复杂的事情，那两种数据库都一样，甚至在很多基础计算中传统数据库更快。一旦预测复杂的事情，那差距就大！了！去！了！

举个例子：

现在很多公司的领导都喜欢用“BI 看板”——就是老板出道应用题，数据一通算，在看板上呈现答案。

比如，负责营销的老板可能会问这样的问题：

30-35岁的已婚男士中，最喜欢买“杜蕾斯001”的这群人里，他们的媳妇喜欢买什么商品呀？

你看，这问题里涉及复杂关系。如果用一般的数据库，得把好多平面表格集合在一起才能算。

数据工程师熬夜三天掉一把头发然后把结果发给老板，老板看了看说：诶，我突然有了新点子，你再重新给我算一遍喜欢给孩子买泡泡玛特盲盒的爸爸，他们的媳妇更喜欢哪种口红？

如果你是数据工程师，你肯定会说：35岁的秃顶程序员最想买的是订书机，把老板的嘴钉上！

但之所以数据工程师觉得老板可憎，是因为在数据爆炸的时代，他们还在用地心说理论计算50天后的火星位置。。。

那要是用图数据库，这种复杂分析是怎么做嘞？

其实说白了就两步：

这里提到了“大数据”。

“大数据”当然不是什么新朋友，但我们知道的大数据引擎都是和普通数据库配套的。

图数据库比普通数据库多定义出了一层“关系”属性，原有的大数据系统不能直接算这种关系。这就需要老师傅出手，做一个能和图数据库组CP的“图大数据引擎”。

说到图大数据引擎在蚂蚁内部的诞生故事，还是和坏人有关系。

缅北的诈骗产业园

（三）坏蛋学会了“分身术”

2018年双11开始，支付宝基于图数据库的风控系统上线，每次转账都会查一下“AB关系”。

大批的骗子马上发现：骗钱难度进入了“地狱模式”，如果总用一个账号收钱，行为异常太明显，分分钟会被系统标记为高危，然后封堵。

于是他们开始“进化”，养了一堆账号，不仅每个账号活动的频率降低，金额也被打散了，单独账号的异常特征就弱化了。

这相当于骗子学会了“分身术”！

这个号“不小心”被封了，没关系，用另一个顶上，反正号有的是。

如此，犯罪团伙就变成了软粘的八爪鱼，断了这个爪，还有别的爪↓↓↓

这可咋办？

诶，既然是影分身，就和真正的人不一样。毕竟从关系上讲，控制这堆账户的人还是一个团伙，这些账户总会在某些方面表现出一致的性质。支付宝老师傅要做的就是：找出这些隐秘的规律！

这时，我们就得隆重请上一个新角色：“安全数据分析师”。

分析师干啥呢？

举个栗子，警察蜀黍抓了一个诈骗团伙，然后缴获了他们手上的所有支付宝账号，然后这些账号会给到支付宝的数据分析师，他们就像“神探狄仁杰”，仔细研究：这堆号之间，有怎样的关系模式？然后把这些洞察写成一组识别规则。

至于这些规则具体是啥，我就不举例了，因为这玩意儿说出来你能看到，坏人也能看到。。。

总之，一组规则就像一个“海捕文书”，“衙役”们需要照着这个公文把所有的账户都筛查一遍。这个衙役，就是“大数据引擎”了。

注意，“海捕”一次的工作量可比只查一次AB两点之间的关系要大多了，因为要把所有用户、设备拢共上万亿个点和边都拉网式筛查一遍嘛！

20毫秒，那可是断然干不完了，大概需要几个小时的时间才能通盘算一遍。而这样的计算一般每天凌晨执行一次。

每天一次其实够了。犯罪团伙嘛，比较稳定，不太可能今天你们几个还是团伙，明天就从良了——每天地毯式围剿一遍，足以压制。

左边是分析师的规则，右边是图数据库。两个汇总在图大数据引擎里，算出下面的答案。

这种“狄仁杰+海捕文书+衙役”的组合，就成为了一个经典的图计算模式，也叫“迭代计算”。

迭代计算这玩意儿可太香了，隔壁银行都馋哭了。

当时很多银行来找蚂蚁，想让老师傅帮忙用迭代计算抓坏人。只不过，这些坏人的“坏法儿”不太一样。

比如，某国有大行曾经被犯罪团伙盯上。团伙会在某个小区门口搭个桌子，假装帮用户办信用卡，收集人家个人信息，却把卡寄到了自己的地址，然后用这些卡套现，然后当然就不还了。

银行刚发现几起这样的行为，就警觉了，想把骗子还没来得及套现的信用卡统统找出来，停掉。

但是骗子用了“分身大法”，搞了几十个手机号，十几个地址，接收几百张信用卡。

单纯知道其中一张卡有问题，是没办法根据它预留的地址和电话把几百张卡一锅端出来的。

这时，银行和 TuGraph 的老师傅把数据导入图数据库，然后两边的风控专家（狄仁杰）凑在一起想出了一整套识别规则（海捕文书），交给大数据系统（衙役）去跑，很快符合条件的高危账户就浮现出来，接下来，不仅那些卡都被停了，物理世界的真警察蜀黍也重拳出击抓个痛快！

再比如，银行还会面对一种叫做“连环担保”的风险。

意思就是A公司想向银行借钱，得有人给它担保嘛！

结果B给A担保，C给B担保，D给C担保，E给D担保，F给E担保，A给F担保。绕了一圈结果是“左脚踩右脚”，等于没担保。。。

一般情况下，6度以下的担保被认为是风险很高的，所以，他们的海捕文书就可以这样写：“兹有连环担保风险，凡构成6度以内圆环者，悉数缉拿归案！”

本来某些企业觉得多套几层担保就会天衣无缝，殊不知他们的小动作早就被捕快看得一清二楚。

图里的红圈就构成了连环担保

说到这，你大概能领略图计算的威力了吧？

可是，永远不要低估坏人推陈出新的能力，毕竟他们是真正的“按劳分配”，最有动力去改革。

这不，从2020年开始，一种新的作案方式兴起，我把它称作：“迅雷不及掩耳盗铃式花呗套现”。

套现大家都知道，本来花呗是借钱给他，结果他刷出去的钱又通过某种途径回到他手里，然后这钱就被他花了，花呗很可能就不还了。。。

在图上发现“套现”和发现“连环担保”有点类似，都是找出“圆环”。过去几年，花呗反套现系统也一直是这么干的。

但是！你还记得吧，迭代计算最快要几个小时才能算一次，后来经过优化也得一小时跑一次。

也就是说，如果坏人能在一小时内完成套现的全部操作，他就已经把钱取走了，你再发现就晚了。

坏人们于是搞出了一整套自动化套现服务，先跑整个圆环的前面几步，然后积攒很大的数量，突然完成最后的套现闭环：一个小时别说跑1次，跑100次都可以。

这可咋办？

洪春涛告诉我，当时老师傅被逼无奈，开发出了一种比实时查询（20毫秒）要慢，但比迭代计算（1小时）要快的计算引擎，这就是“流式图计算引擎”（TuGraph-Analytics）。

它的思想也很简单：

我不攒着一块儿算。每一笔转账发生，我都算一步，这样当你完成作恶的最后环节时，我也只需要完成最后一步计算。

这个速度就快多了：1分钟内就能出结果，阻断套现链条。

你看，为了怼坏人，把好人都逼成啥样了？从图数据库本身，到迭代图计算引擎，到流式图计算引擎，不同系统如鳞次栉比的宫殿，依次建立。

正应了那句话：成功需要朋友，巨大的成功需要敌人。。。

不过说到这，我得提醒一下：

人们之所以使用新技术，可不仅仅是馋新技术的效率高，更是因为新技术能做老技术做不了的事情！

我们还拿电动车和货币来解释：

眼下，油车也能开，电车也能开，电车不过就是提速&制动更快。

但往未来看，汽车的终极形态是机器人，要想做出灵活的动作，必须靠电机。

而发动机体系再先进，受限于传动结构的复杂，灵活度也是大幅受限的。

眼下，现金也能用，银行转账也能用，转账不过就是更方便些。

但往未来看，交易会被切到极其细碎，可能一个人/公司会同时和大量的系统交易，每笔交易能低至几分钱。

这种情况现金完全无法应对，必须用记账系统，甚至还要用分布式记账系统和智能合约（即区块链）。

那么，以此类推，图数据库肯定也有些了不得的用法，是传统数据库想都不敢想的，那会是啥嘞？

洪春涛告诉我：“图学习”很可能是答案之一。

（四）图学习：留给人工智能的花园

如今我们身边的大多数任务都是“人机协作”完成的。

但有一个问题不言而喻：人机协作的流程中，“机”越发达，“人”就越成为瓶颈。

举个栗子：饿了么外卖。

商家注册饿了么的时候，会人工填写一堆关键词。比如肯德基，它的关键词可能是：快餐、西餐、薯条、汉堡、可乐。

这样一来，我作为一个用户去搜索这些关键词的时候，对应的商家就会跳出来。比如我搜索薯条，就能搜索出“肯德基”。

可是，人是一种很不靠谱的存在，填关键词的时候，经常想不了这么全面。

假设你在麦当劳打工，负责填写关键词，你写了：快餐、西餐、汉堡、可乐等等，但漏掉了薯条。。。

于是我搜索“薯条”，麦当劳就不会出现，但显然麦当劳有薯条嘛！

这样一来，我少了一种选择，麦当劳丢了一单生意，双输啊。。。

这时，人工智能就可以派上用场！

AI 对图数据库进行推理，发现麦当劳和肯德基连接了很多画像相似的用户，而他们分别都连接了“快餐”、“西餐”、“汉堡”、“可乐”，而肯德基又连接了薯条。

那是不是意味着，我可以大胆地在“麦当劳”和“薯条”之间加上一根连线，让用户可以通过薯条搜索到麦当劳？

再举一个栗子：芝麻信用。

说个真事儿。过去，洪春涛的芝麻信用分很低。这不是因为他干了啥事，而是因为他“没干啥事儿”。

他在家是个甩手掌柜，很少用支付宝，买啥东西都是太太去买，所以太太的芝麻分奇高，有800多。

在图数据库里，洪春涛这个点就是比较“白”的，没有足够数据，就很难评，不知道他是个好人还是坏人，只能先当个坏人打个低分吧。。。

但是，如果交给人工智能，AI 就能通过图数据库给他估算一个分。

大体原理是酱的：洪春涛和太太两个人，在图数据库里的关系很近，他们的登录环境一致，两人又有密切的转账记录。AI 一想，一个芝麻分奇高的人不太可能和一个坏蛋如此亲密互动，所以，洪春涛就沾了太太的光，芝麻分被拉高到了一个体面的程度。

你还记得刚才我们说的，数据的本质目的是预测吧？

而“图学习”，就是让人工智能利用图数据库，对各个维度的空白点位做出“细粒度”的数据预测。

这种预测可以同时发生在上万亿点边组成的信息海洋中，每一朵浪花的细节上。预测之密集，在人类历史上并无先例。

这仿佛摩西劈开红海，是一种神迹。

结论呼之欲出：藉由图学习，人类预测世界的能力可能产生一个飞跃。这件事，靠传统数据库或人类专家手搓，都是决计不可能实现的。

不过，既然叫“图学习”，它预测能力的天花板，就不仅取决于图的水平，还取决于 AI 的水平。

说到这，我们就必须请上今年异军突起的新技术——“大模型”。

小模型可以模拟人在图上做“数据补全”之类的简单脑力劳动；

大模型的凶狠之处在于，它可以在图上模拟人脑的高级脑力劳动——逻辑洞察。

你还记得那个烦人的老板么？他让数据工程师去反复计算不同人群和商品的关系，其实本质是为了找到其中隐藏的逻辑，从而制定商业策略，实现利润目标。

就像那个经典的故事：

超市把啤酒和尿布放在一起，因为知道背后隐藏的逻辑是奶爸会被安排买尿布，他来到货架上如果看到啤酒就会倾向于买，超市销售额就会增加。

如果有一个“大模型助手”，它就可以用这种逻辑思维审视全图，直接建议去调查“特定人群和类目之间的多跳关系”，然后生成精细的促销策略，以达成老板设定的商业目标。

比如他的策略可能是这样的：

要是能精确至此，想必这个推荐不会对用户造成打扰，更可能是雪中送炭！

普通的 AI 可以补全图，但不一定理解图。要想达到深层的理解，还得靠更大的模型。

但说起来简单，要做出此等聪明的大模型谈何容易。

这种大模型不同于 ChatGPT 这样的通用语言模型，它不仅要掌握逻辑推理能力，还要对图数据库的本质有深刻理解。所以蚂蚁的老师傅们尝试把“自然语言样本”和“图数据库样本”融合在一起训练，这就叫“大图模型”（Large Graph Model）。

虽说大图模型才刚上路，但洪春涛寄予厚望。他的判断来自两个先例：

谷歌，之所以会在世纪之交爆火，是因为当时 MapReduce 让大规模并行计算的成本突然降低，这使得“搜索”这种古老的想象作为一种商业模式首次得以成立。

字节跳动的今日头条和抖音，之所以能在几年前爆火，是因为那时大数据分析的成本突然降低。由此，通过数据对一个人的行为进行动态分析，然后找到他此时最可能喜欢的内容怼在眼前，这种商业模式得以首次成立。

历史可能押韵。

如果图学习（大模型+图计算+图数据库）的成本继续下降，会发生什么呢？

我猜，根据图类型的不同，可能在各个领域出现不同的应用：

这样的例子不胜枚举，但背后的基本逻辑很清晰：

一个有能力解释并改造世界的模型，必须和一个有能力体现世界多维细节的数据库相配合，才能发挥出它本来的价值。

当然，为了让历史发生，洪春涛和蚂蚁的老师傅此时必须做一件事，那就是——玩儿命降低图数据库的成本！

（五）图数据库的星火燎原

洪春涛告诉我，目前图数据库主要有三个成本：

实话说，目前这仨成本都很高，全有继续下降的空间，但要说空间最大的，最迫切的，其实是“第3条”。

我们不妨把视角拉开，目前在中国，除了蚂蚁集团在图数据库一马当先，还有百度、华为、腾讯、阿里等大厂也宣布了图数据库，此外还有悦数科技、海致星图、创邻科技、枫清科技等创业公司在做图数据库。

百花齐放当然是好事，但各家图数据库的接口标准和查询语句都不尽相同，相当于战国七雄，大家都说不同的方言，用不同的文字。

这会造成啥问题呢？

刚才说过，各行各业用图计算的姿势都不同，图数据库厂商很难自己服务所有行业，需要靠第三方生态伙伴在中间帮忙。

如果各家图数据库的标准不同，生态伙伴今天学会了蚂蚁，明天还得学百度、华为；对客户来说，今天用了你家的图数据库，明天想换成他家的，整个接口都得重来一遍。

折腾的成本巨大，让很多企业望而却步，这是阻碍图数据库飞入寻常百姓家的一座大山。

既然有山，就得有愚公。

TuGraph，作为中国图数据库里最能打的那个，准备参与一下“愚公移山”的历史进程。

2022年，蚂蚁老师傅联合国际标准组织 ISO 帮助制定图数据库的“普通话”——通用查询语言 GQL；

2023年，他们还联合图数据库的国际组织 LDBC，制定了 FinBench 金融图数据库测试标准，其中就定义了标准的数据接口。

FinBench 的标准流程

光靠降低“协作成本”，老师傅还觉得不过瘾，一个更大胆的想法冒出来。。。

2022年，他们直接把 TuGraph 的单机版给开源了！

这不仅可以让有需要的企业直接“零元购”这套顶级的图数据库，还能让更多对图数据库感兴趣的老师傅毫无鸭梨地研究它。

话说，虽然不要钱，企业们也不可能一上来就让图数据库承担重任，这些老师傅也不可能一上来就适应图数据库的思维逻辑，但不可否认，他们都是星星之火。

TuGraph 宣布开源

有趣的是：因为谁都能下载，洪春涛也不知道究竟谁在用。

但在一些偶然的场合，他遇到了一些小伙伴，他们来自小米和米哈游这样有技术激情的公司。

对方告诉洪春涛，自己的公司已经开始用 TuGraph 了。没啥主动安利的情况下，却能在这些优秀企业里生根发芽，这让洪春涛对 TuGraph 的生命力信心大增！

洪春涛给我画了一张图：随着图数据库的成本降低，它能进入的领域会越来越多。

事情的发展，也在逐渐印证这张图。

就在不久前，TuGraph 团队帮蚂蚁内部做了一个和金融本身没那么大关系的事儿——“数据血缘工程”。

故事是酱的：

在蚂蚁业务中使用的传统数据库里，有一些包含了我国的“行政区划”信息。

这些数据来自最初的那张原始表格，但由于各个业务需求不同，后来有的从中提取了一部分使用，有的把别人的表格拿来再引用。

最后的情况变成了，大大小小一万多张表里都含有最初那张表的“基因”。

这本来没什么问题，但是随着国家的发展，行政区划是会变化的。2021年，蚂蚁集团内部决定更新一下最初的那张行政区划表。

麻烦来了，这个动作究竟会对这一万多张表产生啥影响？这一万多张表都重新修改的话，会对系统造成哪些冲击？应该用怎样的顺序替换？

TuGraph 团队帮忙把这些表格的元信息都导入图数据库，用图算法一跑，其中关系，也就是“数据血缘”立刻浮现出来。

血缘显示，其中有两个表格极其重要。后续很多表格都是它的“后代”，于是这两个表格的负责人被邀请进入了项目组，大家在所有表格上引用数据的点位都做好了关联，这边切换，那边与之相关的点位也同步切换。

这样，不仅避免了这次变更潜在的数据冲突，还盘活了数据库之间的血脉，以后再想变更，直接操作就行！

利用类似的思想，TuGraph 团队还帮某档案馆做了一个“档案血缘”方案，源头档案的内容一变，所有相关的引用就瞬间更改。

他们还帮某海关把报关单的内容都放进图数据库里，可以从中发现全球商品的流动特征，还能探测到虚假报关的行为。

他们还帮一家能源集团把电网中的设备拓扑都归纳在图数据库中，模拟其中某些节点出现故障之后对系统整体造成的影响，从而制定更精确的维护策略。

这些应用五花八门，在洪春涛介绍前，我完全无法想象。

“那图数据库到底能用在哪些行业呢？”我刨根问底。

“所有行业，只要图数据库的成本足够低！”洪春涛说，“现在看来，各个行业都在单独的点上尝试，但你站在远处看，这些点逐渐增多，就会连成片。这就是星火燎原的真实过程。”

这是评价一项新技术的 Hyper Cycle，洪春涛认为图数据库所在的位置已经走出了“幻灭之谷”。

他的话让我突然想起了130年前，1893年的芝加哥世界博览会。

那届博览会为了庆祝哥伦布发现新大陆400年，决定使用当时方兴未艾的新技术，电。

主会场中，12万个灯泡同时闪亮，如同白昼。那是人类第一次创造出一个纯电照明的建筑环境，宛如神迹。

而那之后，人类开启了“电”飞入寻常百姓家的汹涌进程，自此历史再不回头。

而电的应用也从“电灯”开始，逐渐进入了取暖、烹调、工业炼化、机械车床，最终它驱动了电子计算机，成为了承载下一代科技浪潮的基石。

如此看来，新一代科技浪潮，不正在我们脚下涌动吗？

（六）怕风险，更怕“从前慢”

2021年，人民日报发表了一篇文章，名叫《高性能图计算：尖端科技下一个前沿》。

其中低调地说了一句： 在我国发展高性能图计算，具备良好的技术基础和现实条件。

亲身经历这段历史，洪春涛当然知道这些“基础和条件”有多么来之不易。

毫不意外，图数据库最早的企业级生态诞生在美国，2007年创业团队 Neo4j 开拓了图数据库的商业应用，但由于当时数据分析需求不够旺盛，随即进入了长达8年的低潮。

到了2015年，数据量开始暴涨，风口来临，彼时中美两国的老师傅们几乎同时大举杀入图数据库，那一波我们的投入丝毫不逊于美国。

之所以中国人这么有信心，源自我们巨大的人口基数，和建立于其上的全世界最大的移动互联网生态。

这场决绝的投入，换回的结果就是：在图数据库和图计算领域，中国一骑绝尘跑在世界前沿，没有任何人卡我们的脖子。

不是不想，而是不能。

其中，清华大学在学术赛道保持领先，蚂蚁在产业赛道冲在最前面。

而在2020年，洪春涛和他的老师陈文光所代表的来自清华的团队加入了蚂蚁集团，学术界和产业界最强的两支队伍会师，成为了中国图数据库的一个里程碑。

这次会师的结果就是：在最新的权威基准测试中，TuGraph 的成绩提升到了之前美国最强的 TigerGraph 的 2.84 倍。

纵然美国的图数据库面对国际市场，能从全世界吸引最强的人才，综合实力还是领先，但是中国图数据库的性能摆在这里，虽说没必要骄傲，但也没理由妄自菲薄。

而我们更该关心的是，怎么找到一个“快进键”，把物理世界中复杂缠绕的数据尽快塞进图数据库这个基础设施，编织出专属于下一个时代的生产力？

这里，仍有一些值得警惕的事实：

在采用图计算的意愿上，中国企业并没有美国企业那么激进。

银行业，就是一个突出的例子。

虽说我们的很多银行都已使用图计算，但却把它作为解决特定风险的专用工具，没有像蚂蚁那样放进每一笔交易的核心流程里。

但由于银行的风控策略更为严格，对企业贷款的资质信用要求很高，许多中小企业相对缺乏帮助判断的信息，在资金获取方面遇到了困难。

这样并非长久之计。

最近两年，国家大力推进普惠金融，鼓励银行加大对小微企业的贷款支持力度，银行业的风控需求也在进一步向深水区跋涉，新技术的应用可能就是一把钥匙。

银行业只是千行百业的代表。在政策的引导下，能源行业、先进制造业、医药、教育都在进行数字化改造，进一步尝试数据分析和洞察。

这些先行者们是否会像核聚变一样点燃中国图计算新一轮爆炸？蚂蚁这群老师傅站在时光的河流岸边，像纤夫一样用微薄之力拉动这一切发生。

遥想当年，就在美国芝加哥世博会开幕时，大洋对岸甲午战争正在酝酿，中国大地风雨如晦，有识之士仍在快步疾行，寻找德先生和赛先生。

而今，头顶的天空碧蓝，我们找不到理由怀念“从前慢”。

毕竟，“车、马、邮件都慢”和“冒着热气的豆浆店”无法载着我们的世界飞速前进，就让它们留在诗句里吧！

Art work By

Yoshi Sedeoka

往期推荐：

无法浮现的真相

并不是真相

再自我介绍一下吧。我叫史中，是一个倾心故事的科技记者。我的日常是和各路大神聊天。如果想和我做朋友，可以搜索微信：shizhongmax。

哦对了，如果喜欢文章，请别吝惜你的“在看”或“分享”。让有趣的灵魂有机会相遇，会是一件很美好的事情。

Thx with in Beijing

推荐站内搜索：最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……

周飒博客-ZhouSa.com

正文

支付宝有多狠？当年为抓骗子搞出图计算，现在竟用它预测未来

相关阅读

【合作单位动态】获评最佳案例！支付宝基于安全平行切面的可信纵深防御体系入选重要行业领域安全保护典型案例

支付宝客服回应健康码行程码记得解绑：平台不会泄露用户信息

琐事一则

AI快讯：平安集团自研AI编码工具引入通义灵码，小米AI眼镜上线支付宝扫码支付

发表评论取消回复

还没有评论，来说两句吧...

目录[+]