话说我最近一直在琢磨一件事：现在这些越来越强的大模型（LLM），到底要怎么评判它们的能力？传统的 Benchmark 感觉越来越像“应试教育”，模型们都在疯狂刷题，有时候你都分不清它是真的理解了，还是只是把答案背得滚瓜烂熟。

所以，我搞了个自己的“小考”，我管它叫 “Rebecca Test”。

这事儿得从一个叫 Simon Willison 的技术博主和他那只“骑自行车的鹈鹕”说起。

起源：一只“不正经”的鹈鹕

大概是在 2024 年底，Simon Willison 突发奇想，搞了个有点无厘头的测试：让各大模型生成一张“骑自行车的鹈鹕”的 SVG 图像。

你可能会想，这不就是个玩笑吗？没错，Simon 自己也承认，他一开始就是觉得好玩（“I originally intended it as a dumb joke”）。他喜欢鹈鹕，也确信网上基本不可能有现成的“鹈鹕骑车”的图可以给模型抄。

但就是这个“不正经”的测试，意外地成了一把好用的尺子。

你想想，这个场景难在哪？

它难在模型必须动用它的“世界模型”（World Model）——也就是对物理世界基本规律的理解。它不能再靠统计和概率去猜下一个词，而是必须真正去“思考”：

空间关系：鹈鹕那么大的喙，怎么才能不撞到车把手？
物理常识：它的脚蹼（对，鹈鹕是脚蹼）要怎么踩上踏板？身体要保持什么姿势才能平衡？

这其实是一场对模型物理常识和空间想象力的压力测试。结果出来，高下立判。很多模型画出来的东西简直就是“古神”级别的抽象作品，而少数表现好的，则能看出它们确实在尝试理解这个不合常理的世界。

Simon 在他 2025 年的年度回顾里也提到，虽然这个测试是个梗，但它和模型整体能力的关联性，让他自己都感到惊讶。各大 AI Lab 甚至都知道了这个梗，但这帮“作弊高手”就算想针对性优化，也还是画不好这只鹈鹕（“the pelican illustrations produced by even the most advanced frontier models still suck!”）。

演进：从静态图到“群魔乱舞”的 3D 动画

Simon 的鹈鹕给了社区灵感。很快，在 Reddit 的 r/LocalLLaMA 板块，老哥们把难度又提升了一个维度。

他们不再满足于一张静态图，而是开始让模型直接编写 Three.js 代码，在 3D 世界里搞事情。

比如，有人就提了这么个需求：

好家伙，直接来了个“群魔乱舞”。这比画图可难多了。

相比静态的 SVG，Three.js 代码要求模型在一个三维坐标系里进行实时计算。模型不仅要生成代码，还得理解：

人体运动学：跳舞时，膝盖怎么弯曲？手臂怎么摆动？节奏怎么跟上？
空间交互：四个人一起跳舞，怎么编排位置才不会穿模？

这已经不是简单的“画个画”了，而是在考验模型对复杂实体在空间中如何动态交互的深层理解。私以为，这才是真正走向具身智能（Embodied AI）的关键一步。

诞生：我的 Rebecca Test

受到这些启发，我设计了自己的测试——Rebecca Test。

这个测试有两个核心特点：

1. 情感化、抽象化的指令：

我不直接告诉模型要画什么场景，而是用一个非常主观和情感化的词——“most impressive scene”（她最令人印象深刻的场景）。

为什么这么做？因为《赛博朋克：边缘行者》里的 Rebecca，有好几个高光时刻。有的是她双持重火力扫射的癫狂，有的是她为同伴奋不顾身的悲壮。到底哪个“most impressive”？这没有标准答案。

这就把选择权交给了模型。我很好奇，一个没有情感的机器，会如何“理解”和“诠释”一个角色的高光时刻？它会选择战斗场面，还是某个情感爆发的瞬间？这是对模型更高层语义理解能力的拷问。

2. 对复杂 SVG 生成能力的极限压测：

另一方面，Rebecca 这个角色本身的设计就极其复杂——夸张的武器、赛博格改造、丰富的细节。让她作为主角，本身就是对模型SVG 绘制能力的一次极限挑战。SVG 是代码，不是像素画，模型需要将视觉元素精确地转化为路径、形状和颜色代码，任何一个结构错误都会在图像上暴露无遗。

结合这两点，Rebecca Test 就像一面镜子，既能照出模型的代码生成能力，也能照出它那尚处于混沌状态的“世界模型”和“情感理解”。

结果：惨不忍睹，但又在意料之中

我用这个 Prompt 测试了市面上几乎所有的主流大模型，结果嘛……只能说是“大跌眼镜”，但又在“意料之中”。

直接看图吧，我把结果整理在了一张表里。

Doubao-Seed-2.0-Code	Gemini-3-Pro-Preview

豆包这个……怎么说呢，一眼就能认出是 Rebecca，粉毛、红眼，背景还有个 NIGHT CITY。但这个 T-pose 站姿和僵硬的几何肢体，感觉像是刚从建模软件里导出来的初版 T-pose 模型，结构上完全不对。	Gemini 给我画了个……抽象派赛博格？虽然霓虹风格很酷，但兄弟，你这画的是谁啊？完全认不出来是 Rebecca。看来它对“impressive”的理解跑偏到视觉冲击力上去了。
GLM-5	GPT-5.2-Codex

GLM-5 也画出了粉毛，加了个“目标锁定”的 UI，试图营造战斗氛围。但这个几何小人的既视感太强了，手臂和身体感觉是分开的，结构问题很明显。	GPT-5.2-Codex 画的是什么玩意儿？作为人类我已经无法理解了，看起来像个忍者。
Kimi-K2.5	Qwen3.5-Plus

Kimi 抓住了粉色双马尾和重武器这两个关键特征，能认出是 Rebecca。但这个人体结构……脖子又细又长，身体就是几个方块拼的，枪和手的连接方式完全违反物理定律。属于是“神似形不似”的典型。	Qwen 的版本是个可爱的 Q 版扁平风，双马尾、双持手枪，特征明确。在它自己的极简风格里，结构算是完整的，没出什么大错。虽然简单，但至少没把人画崩。