话说我最近一直在琢磨一件事:现在这些越来越强的大模型(LLM),到底要怎么评判它们的能力?传统的 Benchmark 感觉越来越像“应试教育”,模型们都在疯狂刷题,有时候你都分不清它是真的理解了,还是只是把答案背得滚瓜烂熟。
所以,我搞了个自己的“小考”,我管它叫 “Rebecca Test”。
这事儿得从一个叫 Simon Willison 的技术博主和他那只“骑自行车的鹈鹕”说起。
起源:一只“不正经”的鹈鹕
大概是在 2024 年底,Simon Willison 突发奇想,搞了个有点无厘头的测试:让各大模型生成一张“骑自行车的鹈鹕”的 SVG 图像。
你可能会想,这不就是个玩笑吗?没错,Simon 自己也承认,他一开始就是觉得好玩(“I originally intended it as a dumb joke”)。他喜欢鹈鹕,也确信网上基本不可能有现成的“鹈鹕骑车”的图可以给模型抄。
但就是这个“不正经”的测试,意外地成了一把好用的尺子。
你想想,这个场景难在哪?
它难在模型必须动用它的“世界模型”(World Model)——也就是对物理世界基本规律的理解。它不能再靠统计和概率去猜下一个词,而是必须真正去“思考”:
空间关系:鹈鹕那么大的喙,怎么才能不撞到车把手?
物理常识:它的脚蹼(对,鹈鹕是脚蹼)要怎么踩上踏板?身体要保持什么姿势才能平衡?
这其实是一场对模型物理常识和空间想象力的压力测试。结果出来,高下立判。很多模型画出来的东西简直就是“古神”级别的抽象作品,而少数表现好的,则能看出它们确实在尝试理解这个不合常理的世界。
Simon 在他 2025 年的年度回顾里也提到,虽然这个测试是个梗,但它和模型整体能力的关联性,让他自己都感到惊讶。各大 AI Lab 甚至都知道了这个梗,但这帮“作弊高手”就算想针对性优化,也还是画不好这只鹈鹕(“the pelican illustrations produced by even the most advanced frontier models still suck!”)。
演进:从静态图到“群魔乱舞”的 3D 动画
Simon 的鹈鹕给了社区灵感。很快,在 Reddit 的 r/LocalLLaMA 板块,老哥们把难度又提升了一个维度。
他们不再满足于一张静态图,而是开始让模型直接编写 Three.js 代码,在 3D 世界里搞事情。
比如,有人就提了这么个需求:
好家伙,直接来了个“群魔乱舞”。这比画图可难多了。
相比静态的 SVG,Three.js 代码要求模型在一个三维坐标系里进行实时计算。模型不仅要生成代码,还得理解:
人体运动学:跳舞时,膝盖怎么弯曲?手臂怎么摆动?节奏怎么跟上?
空间交互:四个人一起跳舞,怎么编排位置才不会穿模?
这已经不是简单的“画个画”了,而是在考验模型对复杂实体在空间中如何动态交互的深层理解。私以为,这才是真正走向具身智能(Embodied AI)的关键一步。
诞生:我的 Rebecca Test
受到这些启发,我设计了自己的测试——Rebecca Test。
这个测试有两个核心特点:
1. 情感化、抽象化的指令:
我不直接告诉模型要画什么场景,而是用一个非常主观和情感化的词——“most impressive scene”(她最令人印象深刻的场景)。
为什么这么做?因为《赛博朋克:边缘行者》里的 Rebecca,有好几个高光时刻。有的是她双持重火力扫射的癫狂,有的是她为同伴奋不顾身的悲壮。到底哪个“most impressive”?这没有标准答案。
这就把选择权交给了模型。我很好奇,一个没有情感的机器,会如何“理解”和“诠释”一个角色的高光时刻?它会选择战斗场面,还是某个情感爆发的瞬间?这是对模型更高层语义理解能力的拷问。
2. 对复杂 SVG 生成能力的极限压测:
另一方面,Rebecca 这个角色本身的设计就极其复杂——夸张的武器、赛博格改造、丰富的细节。让她作为主角,本身就是对模型SVG 绘制能力的一次极限挑战。SVG 是代码,不是像素画,模型需要将视觉元素精确地转化为路径、形状和颜色代码,任何一个结构错误都会在图像上暴露无遗。
结合这两点,Rebecca Test 就像一面镜子,既能照出模型的代码生成能力,也能照出它那尚处于混沌状态的“世界模型”和“情感理解”。
结果:惨不忍睹,但又在意料之中
我用这个 Prompt 测试了市面上几乎所有的主流大模型,结果嘛……只能说是“大跌眼镜”,但又在“意料之中”。
直接看图吧,我把结果整理在了一张表里。
| Doubao-Seed-2.0-Code | Gemini-3-Pro-Preview |
|---|---|
| GLM-5 | GPT-5.2-Codex |
| Kimi-K2.5 | Qwen3.5-Plus |
最后
一圈测下来,私以为这个 Rebecca Test 还是很有意思的。
即便在代码生成上已经如此强大的今天,模型们对于世界的“理解”在简单提示文本的引导下依然非常肤浅。它们或许能写出精妙的算法,但却画不好一个骑车的鹈鹕;它们能生成复杂的 SVG 代码,却理解不了一个动画角色的悲喜。
这条路还很长,不多说了,我得去想想下一个“不正经”的测试该是什么了。
参考资料
https://simonwillison.net/2024/Oct/25/pelicans-on-a-bicycle/
https://simonwillison.net/2025/Dec/31/the-year-in-llms/
https://www.reddit.com/r/LocalLLaMA/comments/1rqlaw4/new_benchmark_just_dropped/
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……




还没有评论,来说两句吧...