《我的世界》成AI新“考场”？高三学生创新评测方式引关注‌

日期：2025-03-26 09:15:31 / 人气：15

如果要衡量AI的智能程度，你会怎么做？是让它解数学题、写代码，还是让它通过标准化考试？传统的方法虽然严谨，但普通人往往难以直观理解AI的能力差异。而现在，一位高三学生Adi Singh找到了一个更有趣且直观的评测方式——用《我的世界》（Minecraft）来评测AI。

Adi Singh创建了一个名为MC-Bench的网站，这个网站的核心机制是让不同的AI大模型在《我的世界》里根据相同的提示生成建筑作品，然后由网友投票评选出表现最好的模型。例如，AI模型可能会收到诸如“晶莹剔透的酒杯装满了深红色的葡萄酒，反射出美丽的光芒”这样的提示，然后根据提示在《我的世界》中建造出相应的建筑。

据悉，这个项目迅速吸引了大量AI研究人员和开发者的关注，OpenAI、Google、Anthropic和阿里巴巴等大型企业虽然并未直接参与开发，但也为该项目提供了AI计算资源支持。

那么，为什么Adi Singh会选择《我的世界》作为评测对象呢？他表示，《我的世界》能让人们更直观看出AI发展的进步，而且这款游戏的画风和氛围大家都很熟悉。此外，《我的世界》全球有上亿玩家，可以轻松吸引大量用户参与AI评测，形成众包数据。而且，相比于代码输出或文本生成，视觉化的建筑作品更容易让普通用户参与评测，不需要懂编程也能看出哪座建筑更有创意和写实。

更重要的是，游戏环境提供了一个安全可控的测试场所，有助于研究AI的推理和规划能力。游戏或许可以成为一种测试“自主推理能力”的媒介，比现实世界中的测试更安全，也更容易控制。同时，建造建筑不仅考验AI的生成能力，还涉及逻辑推理、规划、空间认知等能力，而这正是传统AI评测难以全面覆盖的。

目前，MC-Bench是一个公开网站，任何人都可以访问、评判AI生成的作品，并给出自己的投票数据。根据MC-Bench官网来看，其团队仅由8名志愿者组成，以维持日常的开发和维护工作。而从MC-Bench官方给出的胜率最高的Top 10大模型名单来看，Claude 3.7 Sonnet目前位居第一，近来爆火的DeepSeek-R1则排在第三名。

Adi Singh表示，MC-Bench主要测试的还是基础建造能力，以评估AI从GPT-3时代发展至今的进步。至于未来规划，他计划拓展到更复杂的任务，比如长期规划和目标导向型任务。他还透露，MC-Bench的排行榜与他的个人体验高度一致，说明该平台确实能为用户提供有价值的见解。

总的来说，Adi Singh用《我的世界》评测AI的方式不仅让AI研究变得更有趣，也让普通人能够更直观地理解AI发展水平。这种方式或许能够为未来的AI评测提供新的思路。当然，MC-Bench还需要不断完善和发展，但它已经迈出了创新的一步。

作者：欧陆娱乐

《我的世界》成AI新“考场”？高三学生创新评测方式引关注‌

新闻资讯 News

案例展示 Case

现在致电 xylmwohu OR 查看更多联系方式 →

现在致电 xylmwohu OR 查看更多联系方式 →