Google a ouvert l'outil de filigrane de texte SynthID, une technologie qui permet aux utilisateurs de détecter facilement si le texte est original ou généré par l'IA.
Selon Google, le détecteur de texte généré par l'IA peut être téléchargé à partir de la plateforme d'IA Hugging Face et de la boîte à outils Responsible GenAI mise à jour de Google. Les filigranes sont devenus importants avec l'essor de l'IA générative au cours des deux dernières années, car les LLM sont manipulés pour diffuser des informations erronées et des désinformations, ainsi que des contenus sexuels non consensuels et à des fins malveillantes.
Cette évolution intervient alors qu’il est urgent de développer de tels outils, les services répressifs de l’Union européenne craignant que 90 % des textes en ligne puissent être synthétiques d’ici 2026, ce qui rendrait la propagande, la fraude et la tromperie monnaie courante.
Des chercheurs de Google expliquent leur outil de filigrane
Dans un article sur la plateforme X , le géant des moteurs de recherche a révélé qu'il rendait open source son outil de filigrane SynthID Text, affirmant qu'il serait "disponible gratuitement pour les entreprises et les développeurs car il les aiderait à dent leur contenu généré par l'IA".
Pushmeet Kohli , vice-président dent la recherche chez Google DeepMind et co-auteur d'un article de recherche de Google DeepMind, a déclaré : « Le système ne compromet pas les fonctions des modèles d'IA, mais les rend simplement meilleurs. »
Les images et les vidéos ont joué un rôle central dans les discussions sur les informations d'dentdu contenu et les filigranes ont été désignés comme la solution nécessaire pour lutter contre les deepfakes.
La Coalition pour la provenance et l'authenticité du contenu (C2PA), une collaboration entre des entreprises technologiques et de grands médias pour élaborer un système permettant de joindre des métadonnées cryptées pour indiquer les fichiers d'images et de vidéos générés par l'IA, a également été au cœur de ces discussions.
Selon le document de recherche de Google DeepMinds, SynthID Text interfère lors de la génération car il modifie certains mots émis par un chatbot pour qu'ils soient clairs pour un détecteur SynthID mais presque invisibles pour les humains.
"Des modifications comme celles-ci apportent une signature statistique dans le texte généré par l'IA et pendant la phase de détection du filigrane, la signature peut être mesurée pour voir si le texte provenait d'un modèle d'IA par le LLM filigrané", ont écrit les chercheurs dans l'article.
En générant des phrases mot par mot, c'est ainsi que fonctionnent les LLM qui alimentent les chatbots, car ils choisissent le mot suivant probable en fonction du contexte de ce qui précède. En attribuant de manière aléatoire des scores numériques aux mots candidats, le LLM produit des mots avec un score plus élevé. Des filigranes seront apposés sur un morceau de texte qui aura été analysé par le détecteur et qui aura obtenu un score plus élevé.
Aujourd'hui, nous rendons open source notre outil de filigrane de texte SynthID via une boîte à outils d'IA générative responsable mise à jour.
Disponible gratuitement pour les développeurs et les entreprises, il les aidera àdentleur contenu généré par l’IA. 🔍
En savoir plus → https://t.co/n2aYoeJXqn pic.twitter.com/4uRKYaz57Y
– Google DeepMind (@GoogleDeepMind) 23 octobre 2024
Les experts du secteur félicitent Google pour avoir fait un pas dans la bonne direction
Bien que le système DeepMind soit plus performant que les autres outils en matière de filigrane de texte, les chercheurs ont reconnu dans leur article que l'outil présentait encore des défauts. Par exemple, si vous modifiez un texte généré par Gemini, le détecteur sera trompé.
"Bien que SynthID ne soit pas une solution miracle pourdentle contenu généré par l'IA, il constitue un élément de base important pour le développement d'outils d'dentde l'IA plus fiables."
– Kohli.
Si les utilisateurs modifient considérablement les textes ou utilisent un autre chatbot pour résumer le texte, le détecteur s'égarera en filigranant le texte généré par l'IA.
Google affirme que SynthID Text ne compromet pas la qualité, la précision ou la vitesse de génération de texte, telles que testées par le système intégré dans ses modèles Gemini . La société a également ajouté qu'elle fonctionnait même sur du texte recadré, modifié ou paraphrasé.
« La détection est un problème particulier lorsqu'on commence à prendre en compte la mise en œuvre dans des situations réelles, car il y a des problèmes avec la révision de texte dans la nature, où il faudra savoir quel modèle de tatouage a été appliqué pour savoir et où localiser le signal », a expliqué Bruce MacCormack, membre du comité directeur du C2PA.
Outre Google, OpenAI travaille également depuis des années sur la technologie de filigrane de texte IA, mais a retardé sa sortie en raison de sa viabilité technique et commerciale.
Mais les experts du secteur ont généralement salué l'initiative de Google comme un pas dans la bonne direction.
"Il est prometteur pour améliorer l'utilisation des informations d'dentde contenu durables du C2PA pour les documents et le texte brut", a déclaré Andrew Jenks, directeur de la provenance des médias chez Microsoft et président exécutif du C2PA.
MacCormack a également ajouté que même si les chercheurs de Google ont encore beaucoup à faire pour en faire un cas pratique, cela reste une excellente initiative et « la première étape du marathon à venir ».
Cryptopolitan Academy: à venir bientôt - une nouvelle façon de gagner un revenu passif avec DeFi en 2025. En savoir plus