- 泄露的数据显示,中国使用人工智能语言模型扫描 133,000 个项目,以标记敏感的网络内容。.
- 该系统针对政治异议、社会动荡和军事话题,其中台湾被提及超过 15,000 次。.
- 专家表示,先进的人工智能工具可以加强国家对舆论的控制和对批评的压制。.
泄露的数据显示,中国正在利用大型语言模型来加强其审查机制。.
最近泄露的信息显示,一个基于 133,000 个用户内容示例构建的复杂人工智能系统,旨在标记任何被政府认为敏感的材料。.
看到 TechCrunch。该数据集显示,中国正在采取措施,将其网络控制范围扩展到远远超出天安门广场大屠杀等话题。
中国正在利用现代技术过滤网络内容
此次泄露的数据最早可追溯到 2024 年 12 月,这清楚地表明中国当局或其关联机构正在使用新技术来过滤网络内容。.
该数据库包含有关中国农村贫困的投诉、有关腐败的共产党成员的新闻报道,以及对腐败警察敲诈勒索企业家的求助信息。.
每条内容都会被输入到一个大型语言模型(LLM)中,该模型会扫描可能引起公众异议的话题。.
加州大学伯克利分校研究中国审查制度的研究员肖强告诉 TechCrunch,泄露的数据是政府意图利用 LLM 来加强镇压的“明确证据”。.
强解释说,与依靠人工进行关键词过滤和人工审核的传统方法不同,LLM 可以快速准确地dent即使是细微的批评,从而使国家主导的信息控制更加高效和广泛。.
该系统不仅用于审查政治话题,还延伸至社会生活和军事领域的敏感地带。泄露的数据显示,任何与污染、食品安全丑闻、金融诈骗和劳资纠纷相关的内容都被列为审查的“最高优先级”。.
数据显示,诸如2012年十房反污染抗议等事件都受到严密监控,以防止引发公众骚乱。即使是针对当前政治人物的政治讽刺和历史类比也会立即被标记。与台湾政治相关的内容也受到重点关注,军事相关内容——包括军事调动、演习和武器装备细节的报道——更是受到密切审查。.
在中国的审查数据集中,“台湾”一词出现了15000次。
泄露的内容中一个值得注意的细节是,“台湾”一词出现了超过 15,000 次,这凸显了当局对任何可能挑战官方说法的讨论的重视。.
该数据集中的其他敏感内容包括对台湾军事能力的评论以及有关中国新型战斗机的细节。就连微妙的异议也未能幸免;数据库中的一个例子是引用中国谚语“树倒了,猴子散了”来讲述权力转瞬即逝的轶事。
安全研究员 NetAskari 发现了该 数据,该数据集存储在百度服务器上一个不安全的 Elasticsearch 数据库中。
“舆论工作”一词指的是由中国国家互联网信息办公室(网信办)主导的审查和宣传活动。人权组织“第十九条”亚洲项目经理迈克尔·卡斯特解释说,这项工作的目的是确保政府的叙事在网络上占据主导地位。.
一份 报告 OpenAI上个月发布的dentdentdentdentdentdentdentdentdent 霞的强烈批评性评论。
中国传统的审查制度通常依赖于基本的算法,这些算法会matic屏蔽包含“天安门事件”或“习近平”等黑名单词汇的内容。用户在使用DeepSeek等工具时对此深有体会。然而,更新的系统能够大规模地检测到哪怕是最细微的批评,并且随着数据量的增加,它们的准确性也会不断提高。.
不要只是阅读加密货币新闻,要理解它。订阅我们的新闻简报, 完全免费。
学速成课程
- 哪些加密货币可以让你赚钱
- 如何通过钱包提升安全性(以及哪些钱包真正值得使用)
- 专业人士使用的鲜为人知的投资策略
- 如何开始投资加密货币(使用哪些交易所、购买哪种加密货币最划算等)















