人工智能是否拥有与人类相同的技能,它们能否从词汇中发现细微的线索?纽约大学坦顿工程学院的研究人员对《纽约时报》每日谜题“Connections”位列人类活动榜首并不感到惊讶,正如论文中所述。
评估人工智能语言模型
调查揭示了一个在即将举行的 IEEE 2024 米兰游戏研究和共享可用及共同知识会议上引发争议的问题:现代自然语言处理 (NLP) 技术是否有可能解决基于语言的难题?
该团队与纽约大学坦顿工程学院计算机科学与工程系助理教授兼游戏创新实验室主任朱利安·托格利乌斯(Julian Togelius)合作,重点研究了两种人工智能方法——机器学习和高级表征学习。前者利用了GPT-3.5,后者则利用了OpenAI最新发布的GPT-4,后者是OpenAI旗下卓越的语言模型,拥有开放领域和类人语言能力。
下一种机制依赖于句子嵌入模型,特别是 BERT、RoBERTa、MPNet 和 MiniLM。这些模型将语义数据表示为向量形式,但缺乏 LLM 所具备的完整的语言理解和生成能力。
然而,结论是,尽管所有人工智能机器都能执行“连接”中涉及的部分任务,但挑战仍然几乎无法克服。它往往优于早期类别中的其他方法,包括嵌入方法和 GPT-3 等显著成果。
该研究的关键发现之一是,这些模型与人类快速将谜题难度从“简单”到“挑战”进行分类的能力密切相关。游戏创新实验室的博士生、该研究的第一作者格雷厄姆·托德补充说,逻辑逻辑模型(LLM)的使用越来越频繁,仔细研究它们在哪些情况下无法解决“连接”问题,可以揭示自然语言语义处理方面的dent局限性。
利用 GPT-4 拓展边界
研究人员观察到,让 GPT-4 通过分步方法解决谜题大大提高了解决谜题的能力,尤其是谜题的准确率达到了 39% 以上。
正如先前的研究表明(我们的研究也证实了这一点),“思维链提示”的优势在于能够促进词汇的结构化思维,正如游戏创新实验室的dent 、本trac作者之一蒂莫西·梅里诺博士所言。通过让语言模型思考它们正在进行的工作,可以很好地解决语言模型执行任务和完成任务的问题。研究人员使用了一个包含250个拼图的在线拼图库,这些拼图代表了2023年6月12日至2024年2月16日期间的每日拼图。

