鹈鹕、Three.js 与 Rebecca 话说我最近一直在琢磨一件事:现在这些越来越强的大模型(LLM),到底要怎么评判它们的能力?传统的 Benchmark 感觉越来越像“应试教育”,模型们都在疯狂刷题,有时候你都分不清... admin /新鲜讯息 /2026-03-19 /0 评论 /50 阅读