AI玩《超级马力欧兄弟》：Claude模型操作最溜，推理模型表现不佳

时间：2025-03-04 16:20:15 来源：24直播网

加利福尼亚大学圣地亚哥分校的 Hao 人工智能实验室（Hao AI Lab）上周五开展了一项独特的研究，将人工智能（AI）引入经典游戏《超级马力欧兄弟》中，以测试其性能表现。研究结果显示，在参与测试的 AI 模型中，Anthropic 的 Claude 3.7 表现最为出色，紧随其后的是 Claude 3.5。相比之下，谷歌的 Gemini 1.5 Pro 和 OpenAI 的 GPT-4o 则表现不佳。

需要明确的是，此次实验所使用的并非 1985 年最初发布的《超级马力欧兄弟》版本。游戏运行在一个模拟器中，并通过一个名为 GamingAgent 的框架与 AI 进行连接，从而让 AI 能够控制马力欧。GamingAgent 由 Hao 人工智能实验室自主研发，其向 AI 提供基本指令，例如“如果附近有障碍物或敌人，向左移动或跳跃以躲避”，同时还提供游戏内的截图。随后，AI 通过生成 Python 代码的形式来操控马力欧。

据实验室介绍，该游戏环境迫使每个 AI 模型“学习”如何规划复杂的操作并制定游戏策略。有趣的是，实验发现像 OpenAI 的 o1 这样的推理模型（它们通过逐步思考问题来得出解决方案）表现不如“非推理”模型，尽管它们在大多数基准测试中通常表现更强。研究人员指出，推理模型在实时游戏中表现不佳的主要原因之一是它们通常需要花费数秒时间来决定行动。而在《超级马力欧兄弟》中，时机至关重要，一秒钟的差别可能意味着安全跳过和坠落死亡的不同结果。

数十年来，游戏一直是衡量 AI 性能的重要工具。然而，一些专家对将 AI 在游戏中的表现与技术进步直接挂钩的做法提出了质疑。与现实世界相比，游戏往往是抽象且相对简单的，并且能够为 AI 训练提供理论上无限的数据。

IT之家注意到，最近一些引人注目的游戏基准测试结果引发了 OpenAI 研究科学家、创始成员安德烈・卡帕西（Andrej Karpathy）所说的“评估危机”。他在 X 平台上发表的一篇帖子中写道：“我目前真的不知道该关注哪些 AI 指标。”他总结道：“我的反应是，我目前真的不知道这些模型到底有多好。”

标签模型推理操作马力超级兄弟

上一篇：新华社采访多位国内游戏制作人：国产单机游戏未来拥有无限的可能！

下一篇： mayumi更博晒照：一周内就抵达中国

AI玩《超级马力欧兄弟》：Claude模型操作最溜，推理模型表现不佳

热门数据

相关信息

这...！榜一富哥打赏B站女UP主150万后约饭被鸽后续评论还惨遭拉黑切割

马斯克：AI将使得全民高收入，不必要再存钱

原形毕露涵艺：这about哥昨天的WLS不是猛猛的准吗今天咋回事

Faker：我重新定义了失败不再感到沮丧失败成为了我成长的动力

LCK年度最佳选手入围提名：BDD、Faker、Chovy、Gumayusi

Faker谈退役：还没有明确的退役计划，不过我会把整个生涯奉献给T1

说反话Faker：Chovy是我成长的动力，想赢想表现好的心从小就有

Khan：你能用人脉请LCK冠军最多中单来吗peanut：那就对不起了

EWC官宣《火箭联盟》加入2026电竞世界杯：球速全开赛场狂飙

游戏工委报告：游戏防沉迷进入家庭攻坚阶段家庭监管存在漏洞

12月18日NBA常规赛灰熊森林狼全场录像

12月17日CBA常规赛北京辽宁全场录像

12月17日CBA常规赛山东四川全场录像

12月17日NBA杯冠军赛马刺尼克斯全场录像

12月16日NBA常规赛灰熊快船全场录像

12月15日CBA常规赛青岛四川全场录像

12月15日CBA常规赛北京新疆全场录像

12月15日CBA常规赛辽宁广厦全场录像

12月15日NBA常规赛鹈鹕公牛全场录像

12月14日NBA杯半决赛马刺雷霆全场录像

相关集锦

骑士负公牛跌至东部第九！米切尔32分吉迪23+11+11怀特25分

灰熊力克森林狼华子&莫兰特缺阵JJJ28+12戈贝尔16+16

北京力克辽宁迎3连胜陈盈骏26分周琦15+11杨鸣遭驱逐

杨瀚森28分钟10中5砍14分6板吕佩尔10中1混音不敌国王

尼克斯末节一波流逆转马刺夺冠！布伦森25+8文班替补18+6

深圳击败吉林王浩然21分史密斯30+7姜伟泽14分

快船18分负灰熊近10战9负！JJJ31分奇兵斯潘塞27+6三分10中7

掘金险胜火箭约基奇三双&6犯KD25+7+5帽申京三双&失绝平

爵士加时胜独行侠乔治37+6马卡33+16弗拉格生涯新高42+7

猛龙末节逆转热火英格拉姆28+5阿德巴约20+10鲍威尔20分

热门TAG