Les données divulguées montrent que la Chine utilise des modèles de grandes langues pour augmenter sa machine de censure.
Une fuite récente révèle qu'un système d'IA sophistiqué, construit sur 133 000 exemples de contenu des utilisateurs, est conçu pour signaler tout matériau jugé sensible par le gouvernement.
L'ensemble de données, découvert par un chercheur en sécurité et vu par TechCrunch , montre que la Chine prend des mesures pour étendre son contrôle en ligne bien au-delà de sujets tels que le massacre de Tiananmen Square.
La Chine utilise la technologie moderne pour filtrer le contenu en ligne
La fuite, qui date des entrées aussi récemment que décembre 2024, est un signe clair que les autorités chinoises ou leurs affiliés utilisent de nouvelles technologies pour filtrer le contenu en ligne.
La base de données comprend des plaintes concernant la pauvreté dans la Chine rurale, des reportages sur les membres corrompus du Parti communiste et des plats à l'aide de flics corrompus secouant les entrepreneurs.
Chaque élément de contenu est introduit dans un modèle grand langage (LLM) qui scanne des sujets qui pourraient susciter la dissidence du public.
Xiao Qiang, chercheur à UC Berkeley qui étudie la censure chinoise, a déclaré à TechCrunch que les données divulguées sont des «preuves claires» de l'intention du gouvernement d'utiliser les LLM pour améliorer la répression.
Qiang a expliqué que, contrairement aux méthodes traditionnelles qui reposent sur le travail humain pour le filtrage des mots clés et l'examen manuel, un LLM peut rapidement et précisément que jedentmême une critique subtile, rendant ainsi le contrôle de l'information dirigé par l'État plus efficace et plus éloigné.
Le système est non seulement utilisé pour censurer des sujets politiques, mais s'étend également aux domaines sensibles de la vie sociale et des affaires militaires. Selon les détails de l'ensemble de données divulgués, tout contenu lié à la pollution, aux scandales de sécurité alimentaire, à la fraude financière et aux litiges de main-d'œuvre reçoit une «priorité la plus élevée» pour la censure.
Les données montrent que des sujets comme les protestations anti-pollution de Shifang de 2012 sont soigneusement surveillés pour prévenir les troubles publics. Même la satire politique et les analogies historiques visant les personnalités politiques actuelles sont instantanément signalées. Le contenu relatif à la politique de Taïwan est également ciblé, avec des questions militaires - y compris des rapports de mouvements, des exercices et des détails d'armes - en prolongant un examen approfondi.
`` Taiwan '' apparaît 15 000 fois dans l'ensemble de données de censure en Chine
Un détail notable dans le contenu divulgué est que le mot chinois pour Taiwan (台湾) apparaît plus de 15 000 fois, soulignant l'accent mis sur toute discussion qui pourrait contester le récit officiel.
D'autres contenus sensibles dans l'ensemble de données comprennent des commentaires sur les capacités militaires de Taiwan et les détails concernant un nouveau chasseur à jets chinois. Même des formes de dissidence subtiles ne sont pas épargnées; Un exemple trouvé dans la base de données est une anecdote sur la nature éphémère du pouvoir en utilisant l'idiome chinois populaire «Lorsque l'arbre tombe, les singes dispersent».
Le chercheur en sécurité Netaskari a découvert l' ensemble de données , qui a été stocké dans une base de données Elasticsearch non garantie sur un serveur Baidu.
Le «travail d'opinion publique» est un terme utilisé pour les efforts de censure et de propagande supervisés par la puissante administration du cyberespace de la Chine (CAC). Michael Caster, le directeur du programme en Asie pour l'organisation des droits, l'article 19, a expliqué que ce travail est conçu pour garantir que les récits du gouvernement restent dominants en ligne.
Un rapport d'Openai le mois dernier a également révélé qu'un dent , opérant probablement en Chine, a utilisé une AI générative pour surveiller les conversations sur les réseaux sociaux - en particulier celles appelant à des manifestations des droits de l'homme - et a transmis les informations au gouvernement chinois. dent dent chinois .
La censure traditionnelle en Chine s'est souvent appuyée sur des algorithmes de base que l'allié automaticbloque le contenu contenant des termes sur liste noire tels que le «massacre de Tiananmen» ou «Xi Jinping». Les utilisateurs ont vécu cela de première main avec des outils comme Deepseek. Cependant, les nouveaux systèmes peuvent détecter des critiques encore subtiles à grande échelle, et elles s'améliorent car elles sont nourries plus de données.
Cryptopolitan Academy: fatiguée des balançoires du marché? Découvrez comment DeFi peut vous aider à créer un revenu passif stable. Inscrivez-vous maintenant