Scale AI 和人工智能研究中心发现,人工智能代理甚至无法达到 Upwork 平台上 97% 的基本标准完成任务。该研究使用了六种不同的人工智能模型来处理 Upwork 平台上的 240 个项目,涵盖写作、设计和数据分析等多个类别,并将研究结果与真实自由职业者的表现进行了对比。.
调查发现,最佳人工智能模型 Manus 仅成功完成了 2.5% 的任务,在 143,991 美元的奖金总额中仅获得了约 1,810 美元。其他人工智能模型,例如 Claude Sonnet 和 Grok 4,完成的任务率为 2.1%。.
研究人员认为人工智能短期内不会取代工作岗位。
研究人员 发现 ,人工智能代理在处理多步骤工作流程、主动性和判断力方面存在困难。他们还一致认为,人工智能在短期内不会取代工作岗位。
欧洲广播联盟和英国广播公司(BBC)的研究表明 ,包括ChatGPT、Copilot和Perplexity在内的人工智能模型在新闻报道方面表现不佳。研究发现,这些人工智能模型无法满足关键标准,例如信息来源、准确性、文本生成以及区分观点和事实。
人工智能模型在45%的答案中至少存在一个重大问题,而只有31%的答案得分正确。20%的答案是错误的,并且包含过时的信息和虚构的细节。在所有模型中,Gemini的答案中存在重大问题的比例高达76%。.
Freelance.com 发布的 一项研究发现,人工智能生成的求职信已经影响了求职申请的成功率,导致雇主招聘人数减少,甚至招到不合适的人。该公司还指出,技能排名前20%的求职者被录用的频率比以前下降了19%,而技能排名后20%的求职者被录用的频率则上升了14%。
这项研究印证了麻省理工学院8月份的一份研究报告,该报告指出,95%的机构在人工智能领域总共投入的300亿美元投资没有获得任何回报。根据麻省理工学院和Basis Research联合开发的WorldTest,人工智能代理可以匹配模式和预测词语,但在构建内部世界模型方面却面临挑战。.
这项研究包含43个交互式世界中的129项任务,要求人工智能预测世界中隐藏的信息,规划达成目标的行动序列,并判断环境规则何时发生变化。研究人员还对517名人类进行了相同任务的测试,发现人类能够取得接近最优的成绩,而人工智能模型则经常失败。.
研究人员认为,人类之所以 表现 更佳,是因为他们能够凭直觉理解环境、调整视角、进行实验、从零开始,并进行策略性探索。研究表明,增加现有模型的计算能力也无济于事;它只对43种环境中的25种有所帮助。
加密货币和人工智能专家警告称,社交媒体可能出现人工智能驱动的审查制度
麻省理工学院斯隆管理学院的研究人员和Safe Security公司发现,人工智能驱动了80%的勒索软件攻击。网络安全军备竞赛组织(Cybersecurity Arms Race)对2800起勒索软件攻击事件进行的研究发现,对抗性人工智能能够自动化整个攻击流程,包括创建恶意软件、发起网络钓鱼活动以及利用深度伪造电话进行社会工程攻击。.
研究员凯文·博蒙特不同意这项研究,他声称生成式人工智能并非其中任何一个模型的主要组成部分。研究员马库斯·哈钦斯也 称 这篇论文荒谬至极,并表示他当时忍不住大笑起来。
“这篇论文简直胡说八道,糟糕得令人瞠目结舌。糟糕到真不知道该从何说起。”
——凯文·博蒙特,Medium 安全研究员。
加密货币和人工智能领域的领军人物大卫·萨克斯也 表示 ,他担心近年来社交媒体和搜索引擎上的审查制度会随着生成式人工智能的出现而彻底演变成反乌托邦式的局面。他认为,“觉醒人工智能”这个词不足以解释当前的情况,因为它在某种程度上淡化了问题的严重性。他指出,奥威尔式人工智能会扭曲答案、编造谎言,并实时篡改历史,以服务于当权者当前的政治议程。

