《我的世界》成AI新“考场”?高三学生创新评测方式引关注
日期:2025-03-26 09:15:31 / 人气:15
如果要衡量AI的智能程度,你会怎么做?是让它解数学题、写代码,还是让它通过标准化考试?传统的方法虽然严谨,但普通人往往难以直观理解AI的能力差异。而现在,一位高三学生Adi Singh找到了一个更有趣且直观的评测方式——用《我的世界》(Minecraft)来评测AI。
Adi Singh创建了一个名为MC-Bench的网站,这个网站的核心机制是让不同的AI大模型在《我的世界》里根据相同的提示生成建筑作品,然后由网友投票评选出表现最好的模型。例如,AI模型可能会收到诸如“晶莹剔透的酒杯装满了深红色的葡萄酒,反射出美丽的光芒”这样的提示,然后根据提示在《我的世界》中建造出相应的建筑。

据悉,这个项目迅速吸引了大量AI研究人员和开发者的关注,OpenAI、Google、Anthropic和阿里巴巴等大型企业虽然并未直接参与开发,但也为该项目提供了AI计算资源支持。
那么,为什么Adi Singh会选择《我的世界》作为评测对象呢?他表示,《我的世界》能让人们更直观看出AI发展的进步,而且这款游戏的画风和氛围大家都很熟悉。此外,《我的世界》全球有上亿玩家,可以轻松吸引大量用户参与AI评测,形成众包数据。而且,相比于代码输出或文本生成,视觉化的建筑作品更容易让普通用户参与评测,不需要懂编程也能看出哪座建筑更有创意和写实。
更重要的是,游戏环境提供了一个安全可控的测试场所,有助于研究AI的推理和规划能力。游戏或许可以成为一种测试“自主推理能力”的媒介,比现实世界中的测试更安全,也更容易控制。同时,建造建筑不仅考验AI的生成能力,还涉及逻辑推理、规划、空间认知等能力,而这正是传统AI评测难以全面覆盖的。
目前,MC-Bench是一个公开网站,任何人都可以访问、评判AI生成的作品,并给出自己的投票数据。根据MC-Bench官网来看,其团队仅由8名志愿者组成,以维持日常的开发和维护工作。而从MC-Bench官方给出的胜率最高的Top 10大模型名单来看,Claude 3.7 Sonnet目前位居第一,近来爆火的DeepSeek-R1则排在第三名。
Adi Singh表示,MC-Bench主要测试的还是基础建造能力,以评估AI从GPT-3时代发展至今的进步。至于未来规划,他计划拓展到更复杂的任务,比如长期规划和目标导向型任务。他还透露,MC-Bench的排行榜与他的个人体验高度一致,说明该平台确实能为用户提供有价值的见解。
总的来说,Adi Singh用《我的世界》评测AI的方式不仅让AI研究变得更有趣,也让普通人能够更直观地理解AI发展水平。这种方式或许能够为未来的AI评测提供新的思路。当然,MC-Bench还需要不断完善和发展,但它已经迈出了创新的一步。
作者:欧陆娱乐
新闻资讯 News
- 小米SU7爆燃事件深度解析:新能...04-03
- 2025年美妆行业:新变局中的挑战...04-03
- 赛力斯赴港IPO:中高端新能源...04-03
- 无招回归钉钉:阿里ToB战略的"...04-03