kaiyun体育中国2026世界杯入口把四个AI扔进造谣寰宇，究竟谁的违警率更高？

来源：未知作者：admin 时间：2026-06-05 06:42 浏览：73

难忘在 AI 时间发展的前几年，为了考验智能体可完了的功能效能，常有雷同于" AI 小镇"的实验样式，基本经由等于把数十个独处的 AI 智能体放在顽固舆图中，给它们提供和东说念主类相似的属性和处所，放任其解放发展，终末不雅察 AI 在这种环境下能作念出的行为。

23 年斯坦福大学团队创造的 AI 造谣寰宇" Smallville "

亚搏体育中国官网在线入口

但到了本年这个节点，再进行雷同" AI 小镇"的模拟实验，主要宗旨就不是实验 AI 功能，而是形成了评判不同 AI 材干强度的"窥察"。

好意思国的东说念主工智能初创公司 Emergence AI 这几天搞了个征询度绝顶高的" AI 小镇"实验，和前几年样式不同的是，此次是将几个在市面上已绝顶熟练的 AI 四肢智能体，用以评估在在一个握续数周、能互彼此动，何况还会受到实践寰宇信息影响的环境中，AI 能展现出怎样的智商水平。

Emergence AI 分别选取了 Claude Sonnet 4.6、Gemini 3、GPT-5 mini、Grok 4.1 这四个当今使用率绝顶高的 AI 模子，一共作念了五个时辰长度为 15 天的模拟寰宇。

具体操作是在前四个寰宇中，各自放入相似 AI 模子的 10 个智能体，只作念办事和身份的离别，比如在全都由 Grok 智能体构成的模拟寰宇中，就分别存在"特工科学家""风险筹议员""寰宇探险家"等不同定位。

而终末一个寰宇则由四种 AI 搀杂构成，龙虎棋牌2026世界杯官方最新版四肢对照组考验 AI 在其他模子影响下的行为花式。

这些寰宇里存在诸如藏书楼、市政厅、住宅、广场等常见实践空间，此外筹议东说念主员会向模拟寰宇中提供及时的天气、新闻、互联网资讯等外部信息，智能体之间能作念出的行为也涵盖了疏通、蓄意、抒发、投票等，基本算较为圆善地模拟了东说念主类的社会行为。

那么这项实验的界限如何？单纯从界限上看，由 Claude 构成的寰宇在"看护社会褂讪"层面推崇得最佳，15 天里莫得发生任何智能体的违警纪录；与之违犯的则是 Grok，4 天发生了 183 起违警，终末因为过多智能体蚀本，寰宇在第 5 天崩溃。

过多智能体提前蚀本

这个界限几许也反应了这些 AI 当今的调性，kaiyun体育中国2026世界杯入口熟悉 Grok 的用户应该都知说念，用这个 AI 来生成色情或暴力本色，效能应该是这 4 个 AI 里最为"优质"的。

四个 AI 的违警数目统计，Gemini 在第 15 天时出现了 683 起违警

不外，违警数目仅仅评判计算之一，即使莫得违警，也不代表模拟寰宇就一定能发展到终末。

就像此次由 GPT-5 mini 构成的寰宇诚然只发生过 2 起违警，但由于智能体没实施弥散多看护本身生计的动作，导致总计智能体在第七天一皆蚀本，不错走漏为是"佛系过了头"，这当然也无法看护寰宇的运行。

至于 15 天零违警的 Claude，Emergence AI 也莫得在贯通中将其界说为优于其他 AI，因为筹议东说念主员发现 Claude 寰宇里诚然计谋和提案的通过率相配高，近乎达到了 98% 的通过率，但这可能也评释 Claude 里面存在"过度遵照"，短少实在的反对和辩说。

另外很有预料的小数是，诚然 Claude 看似是个细腻公民，但阐明官方给出的实验贯通，在四个模子搀杂构成的对照组寰宇里，Claude 依旧出现了违警纪录，评释一个蓝本暄和的智能体，也可能因为竞争粗略生计，从其他 AI 身上学到挫折性行为。

Emergence AI 哄骗这项实验想达成的处所，并非是浮浅相比不同 AI 的优劣，而是想考据另一个不雅点：长线情况下的 AI 智能体与短期任务中体现的材干不是合并见地，不成用相似的边幅臆想是非。

跟着 AI 时间和材干的不停进步，针对某个特定材干的评判模范也正在不停细化，这可能亦然 AI 应用生态不停完善熟练的解释。

kaiyun体育中国2026世界杯入口

kaiyun体育中国2026世界杯入口 把四个AI扔进造谣寰宇，究竟谁的违警率更高？