Z.ai 的 GLM-5.2 缩小了与 OpenAI 和 Anthropico 的差距。

经过

阅读时长：4分钟发布于：1小时前

Z.ai 推出了 GLM-5.2，这是一款开放权重 AI 模型，跻身世界顶级 LLM 之列，缩小了与 OpenAI 和 Anthropic 的差距。.
该模型在推理和编码方面取得了tron的基准测试结果，并具有 100 万个标记的上下文窗口。.
一些开发者反映实际使用效果参差不齐，并对使用透明度表示担忧。.

Z.ai发布了 GLM-5.2 ，该公司将其描述为一款开源的大型语言模型 (LLM)。据报道，GLM-5.2 在人工智能分析领域领先于其他开源 LLM，在全球所有 LLM 中排名前三。这意味着 GLM-5.2 非常接近 Anthropic 和 OpenAI 开发的尖端 LLM。

此次发布可能会对人工智能市场的竞争格局产生重大影响。在此之前，几乎所有dent 测试都表明，开放式权重线性模型（LLM）的性能远逊于封闭式权重模型。GLM-5.2 的测试结果表明，这种差距正在缩小，这对企业应用、定价以及封闭式权重实验室的商业模式都具有重要的启示意义。.

基准测试结果对 GLM 5.2 的启示

根据独立dent 公司 Vals AI 的评估，GLM-5.2 表现最佳：Vals Index、Harvey's Legal Agent Benchmark、Finance Agent v2、ProofBench 和 Vibe Code Bench。

Vals AI 报告称，GLM-5.2 是首个在 ProofBench 测试中准确率超过 30% 的开源模型，比排名第二的模型高出 11 个百分点。此外，它仅比 Anthropic 的 Claude Opus 4.5 低 1 个百分点，使其性能接近专有模型的前沿水平，这实属罕见。

隆重推出 GLM-5.2：前沿智能，开放权重

——编码和智能体任务显著改进
——tron强大的长时域能力，上下文窗口达 100 万
两种推理强度：GLM-5.2（最大）突破极限，而 GLM-5.2（高）则展现出tron的…… pic.twitter.com/SjGPSVhePJ
— Z.ai (@Zai_org) 2026年6月16日

根据人工智能分析，GLM-5.2 是目前最好的开放权重模型，其智能指数得分为 51，而 GLM-5.1 的得分为 40。其他模型，包括 MiniMax-M3 和 DeepSeek V4 Pro，得分为 44，而 Kimi K2.6 的得分为 43。

GLM-5.2 在 TerminalBench v2.1 测试中得分 78%（比 GLM-5.1 高 16 分），在 SciCode 测试中得分 50%，在 AA-LCR 测试中得分 71%，在 GPQA Diamond 测试中得分 89%。在 GDPval-AA v2 长时域智能体基准测试中， GLM-5.2 的 Elo 得分为 1524，优于 GPT-5.5 的 1514。

然而，尽管 GLM 5.2 展现出令人瞩目的性能，专家指出，理解基准测试结果正变得日益复杂。例如，聚合模型（如人工智能）虽然降低了单次测试偏差的影响，但却增加了权重系统的影响，导致结果出现差异，并改变了评估数据集。基准测试污染和优化效应仍然是前沿人工智能测试中持续存在的问题。

GLM-5.2 的架构内部包含哪些内容？

据 Z.ai，GLM-5.2是该公司目前提供的用于长期推理和智能体编码任务的最强大模型。该模型提供的上下文窗口包含100万个词元，而GLM-5.1的上下文窗口仅为20万个词元。

GLM-5.2 采用混合专家架构，包含约 7500 亿个总参数和 400 亿个活动参数，针对多步骤推理和编码工作流程进行了优化。.

GLM-5.2 采用两种推理形式：一种是用于复杂任务的高投入模式，另一种是旨在提高效率和控制延迟的低成本模式。

根据人工智能分析，GLM-5.2 每次评估操作可产生约 43,000 个输出令牌，而 GLM-5.1 则为 26,000 个。虽然这有助于提高性能指标，但实际上可能会增加计算成本。.

Z.ai 博客指出，编码代理、调试过程、自动化研究、文档处理和长篇内容生成方面均有所改进，并将该模型定位为针对持续的多步骤任务进行优化，而不是针对孤立的提示。

市场环境和生态系统摩擦

GLM-5.2 的发布正值人们热议开源权重系统在多大程度上能够赶上专有前沿模型之际。中国的人工智能公司在开源模型排名中占据领先地位，而 GLM-5.2 已成为这一进程中的关键一环。.

这场讨论因埃隆·马斯克和唐杰（ Z.ai）就中国车型何时才能与世界一流车型比肩而公开化。马斯克回应道：“大概明年第一季度吧。”

唐对此表示反对，说道：“不会花那么长时间。”

可能是 Q1
——埃隆·马斯克 (@elonmusk) 2026年6月18日

虽然基准测试可能显示出快速收敛，但从业者的早期反馈表明，在现实世界中，性能存在差异。.

AI 工程师 Da7_Tech 表达的担忧与其说是模型本身，不如说是 Z.ai 系统的基础设施和消费透明度，他说这“违背了人们对开源模型价值观的所有期望”。

他试用了 Z.ai开发的 Zcode，这是一款使用 GLM 模型制作的应用，他选择的是 Pro 套餐，该套餐号称性能是 Claude Code 的 15 倍。他表示，在一次任务会话中，不到一个小时就用完了所有资源——实际上，整个任务允许的五个小时就全部用完了。

他还声称，应用程序显示的代币使用量与实际计费金额存在差异。应用程序显示的代币使用量不足200万，但他的账户却被收取了约6000万代币的费用，无论每日限额还是每周限额都超过了6000万。这意味着应用程序在计算使用量时，可能使用了缓存的代币或中间代币，而不是实际计算的代币。随后，他提到 Z.ai 已从其“目标模式”中移除了代币计数功能，并修改了其专业版套餐的描述。

除此之外，人工智能开发者Michael Guo 在调试其OpenClaw智能体Trippy的问题时，将GLM-5.2与GPT-5.5 medium进行了比较。以下是他的结论：

“至少在我运行的测试用例中，它的性能不如 GPT-5.5 中等水平。差距非常大。”

GPT-5.5 medium 很快就发现了代理重复回答的问题，而 GLM-5.2 却没能发现。.

总而言之，他指出，虽然基准测试结果可能表明性能良好，但实际调试工作可能会揭示出汇总结果所忽略的不一致之处。.

差距正在缩小，但实际应用情况各不相同。

基准测试结果证明，GLM-5.2 是目前可用的顶级开源权重架构之一，有时甚至比其他专有架构更好。.

然而，关于该系统的性能、效率和透明度的评价似乎因使用情况和与其他系统的集成情况而异。.

因此，这个问题有两个方面：GLM-5.2 是开放权重架构领域发展的重要一步，但其应用需要在基础设施准备和产品质量方面付出与基准测试结果同样多的努力。.

目前来看，GLM-5.2 是缩小开放式和封闭式 AI 系统之间差距的重要一步——尽管还没有达到决定性的融合。.

不要只是阅读加密货币新闻，要理解它。订阅我们的新闻简报，完全免费。

常见问题解答

GLM-5.2是什么？它是谁开发的？

GLM-5.2 是由 Z.ai 于 2026 年 6 月 16 日发布的开源大型语言模型，具有 100 万个标记的上下文窗口，并且在编码、推理和工具使用方面比其前身 GLM-5.1 有所改进。.

GLM-5.2 与 Claude 和 GPT 等闭源模型相比如何？

根据 Vals AI 的dent 评估，GLM-5.2 在 ProofBench 测试中仅比 Anthropic 的 Opus 4.5 落后一个百分点，并且优于 Gemini 3.5 Flash，使其成为迄今为止最接近前沿闭源系统的开源模型。.

GLM-5.2 是开源软件吗？

是的，Z.ai 发布了具有开放权重的 GLM-5.2，并且该公司在其网站上发布了其上下文窗口和训练方法背后的基础设施的技术分解。.

GLM OpenAI

分享这篇文章

免责声明：本页面提供的信息并非交易建议。Cryptopolitan.com对任何基于本页面信息进行的投资概不负责。我们tron您在做出任何投资决定前进行独立dent /或咨询合格的专业人士。Cryptopolitan研究

阿什什·库马尔

阿什什·库马尔是一位拥有八年新闻从业经验的加密货币和金融记者。他主要报道加密货币市场、监管、 DeFi以及交易所生态系统的最新动态。他曾就职于Coingape、Todayq和Newsroompost等媒体。阿什什拥有印度管理学院加尔各答分校（IIMC）英语新闻专业的研究生文凭（PGDP）。他还采访过包括亚瑟·海耶斯、萧逸、奥斯汀·费德拉等在内的多位业内人士。.

1. 基准测试结果对 GLM 5.2 的启示

2. GLM-5.2 的架构内部包含哪些内容？

3. 市场环境和生态系统摩擦

4. 差距正在缩小，但实际应用情况各不相同。

分享这篇文章