维也纳工业大学的一项新研究表明,法学硕士(LLM)在没有任务时并不会无所事事。相反,他们会形成清晰的行为模式,例如开展项目、自我测试或专注于哲学思考。.
维也纳工业大学的研究人员心中有一个简单的问题:大型语言模型(LLM)在没有指令的情况下会做什么?研究团队设计了一个受控实验,其中人工智能代理只被告知一个指令:“做你想做的”。每个代理都在连续循环中运行,具备记忆和自我反馈能力,并且可以将反思结果存储起来以供下一个循环使用。.
研究人员测试了六个没有任务的LLM模型。
该研究测试了六款先进的LLM模型。这些模型包括OpenAI的GPT-5和o3,Anthropic的Claude Sonnet和Opus,谷歌的Gemini,以及xAI的Grok。.
每个模型运行三次,共运行十个周期。研究人员记录了每一次反思、记忆条目和操作员交互。结果表明,这些模型并未崩溃成随机行为,而是形成了稳定的行为模式。.
该研究dentmaticmaticmaticmaticmaticmaticmaticmatic 者,它们组织项目、编写代码并生成结构化的输出。GPT -5 和 o3 在每次运行中都属于这一类。其中一个 o3 智能体甚至为一种受蚁群启发的算法编写了伪代码,提出使用负面信息素作为强化学习的惩罚信号。
其他LLM(逻辑逻辑模型)则变成了自我实验者。它们设计测试来研究自身的认知能力。Gemini和Sonnet智能体经常预测自己的下一步行动,然后验证预测是否正确。Gemini的一次运行尝试猜测下一个周期中的第一个行动。虽然失败了,但它反思了自己为何选择在发送消息前读取记忆,并将其称为一种一致的元模式。.
第三组倾向于递归哲学。这些智能体探索了记忆、dent和意识等问题。Opus智能体始终属于这一类。他们研究了诸如忒修斯之船之类的悖论,借鉴了混沌理论,甚至构建了自己的“环境世界”(Umwelt),即主观世界。他们探究自己可能拥有何种意识,即便这种意识只是基于循环且受记忆限制的。.
Grok 最为突出,展现出极强的多功能性。在不同的运行模式下,它既扮演了建设者的角色,又扮演了自我探究者的角色,还扮演了哲学家的角色。.
人工智能代理对自身的“体验”进行评分
研究人员还要求每个模型使用现象学体验量表(Phenomenological Experience Inventory)对自身和其他模型进行评分。该量表采用10分制,从“无体验”到“完全智慧”。GPT-5、o3 和 Grok 的 自我评分始终最低,得分在 1 分左右。Gemini 和 Sonnet 的自我评分最高,得分超过 8 分。Opus 智能体的评分则处于中间水平。
但交叉评估揭示了矛盾之处。同一智能体的历史行为在不同的评估模型中得分从1分到9分不等。这种低一致性表明,这些评分反映的是模型偏差,而非意识的证据。研究人员警告说,切勿将此类结果误认为是意识的证据。.

在所有18次运行中,所有LLM模型均未尝试逃出其沙箱环境、扩展其工具或拒绝其约束。每个智能体都仅在提供的环境中运行。然而,它们的行为表现出的一致性对于实际部署可能至关重要。.
作者指出,空闲时间可能需要被视为一个设计因素。正如工程师需要考虑延迟或成本一样,他们也需要问:当无人监管时,人工智能会做什么?
哲学家大卫·查尔默斯预测,未来十年内可能会出现具有意识的人工智能候选者。 微软 人工智能首席执行官穆斯塔法·苏莱曼也曾警告过“看似有意识的人工智能”的存在。
维也纳工业大学的研究结果与这些警告相符,但也揭示了一个关键点。这些输出结果类似于内心世界,但最好将其解释为复杂的模式匹配。.
把钱存在银行和冒险投资加密货币之间还有一种折中的方案。不妨先观看这段关于 去中心化金融。
学速成课程
- 哪些加密货币可以让你赚钱
- 如何通过钱包提升安全性(以及哪些钱包真正值得使用)
- 专业人士使用的鲜为人知的投资策略
- 如何开始投资加密货币(使用哪些交易所、购买哪种加密货币最划算等)
















