L'intelligence artificielle (IA) est omniprésente dans notre vie moderne, notamment dans la génération de contenu écrit. Si son utilisation peut s'avérer ludique, l'imprécision de la détection des contenus générés par l'IA est alarmante. Pire encore, certains détecteurs d'IA identifient des textes écrits par des humains comme étant générés par des robots de traitement automatique du texte (GPT) ; l'exemple de la Constitution des États-Unis est éloquent.
À lire également : Paul Graham de Y Combinator critiqué pour avoir affirmé que les textes contenant le mot « Delve » sont écrits par une IA
La Constitution des États-Unis a été rédigée en 1787, ratifiée en 1788 et est en vigueur depuis 1789. Il s'agit de la charte de gouvernement écrite la plus ancienne au monde. La Constitution est antérieure d'environ un siècle à l'invention de la première automobile. Pourtant, un détecteur d'intelligence artificielle a déterminé qu'elle était générée à 97,97 % par l'IA.
Des détecteurs d'IA qualifient la Constitution américaine d'inhumaine
L'année 2023 a vu une augmentation des contenus écrits générés par l'intelligence artificielle. Peu après, les développeurs du marché ont saisi l'opportunité de créer des outils permettant d'évaluer la proportion de ces contenus. Cela aurait dû constituer une avancée majeure, mais ce n'est pas le cas.
Un détecteur d'IA a identifié la Constitution des États-Unis comme étant du contenu généré par une IA. Le pourcentage ? Un impressionnant 97,97 %. Le terme « intelligence artificielle » a été inventé et popularisé lors de l'émergence de l'IA entre 1950 et 1956. Alors, comment une IA a-t-elle pu rédiger un document vieux de 163 ans ?
En 1950, Alan Turing publia un article intitulé « Machines informatiques et intelligence », proposant un test d'intelligence artificielle appelé le Jeu de l'imitation. Cet article marqua le début du monde dans lequel nous vivons aujourd'hui.
En 1952, un informaticien du nom d'Arthur Samuel développa un programme permettant de jouer aux dames, le premier à apprendre le jeu de manièredent. Peu après, en 1955, John McCarthy organisa un atelier à Dartmouth sur « l'intelligence artificielle », ce qui marqua la première utilisation du terme.
Les détecteurs d'IA ont des limites
Les détecteurs d'IA ont des limites car le texte généré par l'IA imite l'écriture humaine. Ces détecteurs ont été entraînés par les mêmes personnes qui ont appris aux machines à écrire. Dès lors, comment fonctionnent-ils et quelle est leur précision ? Un autre détecteur d'IA a attribué un taux de contenu généré par l'IA de 1 % à la Constitution américaine. D'où provient ce 1 % ?
Voici la disparité : certains détecteurs d’IA recherchent certains mots comme « delve, tapestry, use, numerous, etc. » qui sont généralement utilisés par l’IA mais qui sont rares chez les Américains.
Cependant, pour certaines personnes originaires de pays ayant un passé colonial britannique, ces mots sont couramment utilisés à l'oral comme à l'écrit.
Le mois dernier, Paul Graham, cofondateur de Y Combinator, a été vivement critiqué suite à une théorie d'attribution de texte ChatGPT qu'il a présentée sur X (anciennement Twitter). Graham a publié une proposition de projet reçue par courriel, qu'il a interprétée comme étant de l'écriture par IA car elle contenait le mot « delve ».
Un utilisateur de X a déclaré : « Les personnes qui ont appris l'anglais dans les pays ayant un passé colonial britannique – c'est exactement comme ça que nous avons appris l'anglais […] "Delve" est un mot courant que nous utilisons. » Un autre a affirmé qu'il s'agissait d'un problème typiquement américain.
Certains pays et certaines personnes utilisent encore ce que je qualifierais d’« anglais littéraire ».
— Africa Research Desk (@MightiJamie) 10 avril 2024
Le problème, c’est que le vocabulaire américain repose principalement sur des expressions familières (ce que vous appelez argot) et des idiomes américains contemporains, au point que l’usage sophistiqué de…
Cela soulève la question suivante : les détecteurs d’IA et les générateurs de contenu doivent-ils être spécifiques à l’anglais régional ? Ou faut-il tout simplement se passer de tous ces outils d’écriture et de détection ?
Les détecteurs d'IA sont imprécis
Les détecteurs d'IA s'appuient sur des caractéristiques linguistiques incohérentes. Le langage humain est par nature variable, avec une grande diversité de styles, de dialectes et d'expressions idiomatiques. Les textes générés par l'IA peuvent présenter ces variations, ce qui rend la détection précise difficile.
Environ 20 % des textes générés par l'IA échappent à ces systèmes de détection, ce qui compromet la fiabilité des détecteurs d'IA. De même, environ 25 % des textes rédigés par des humains sont signalés à tort comme étant produits par l'IA.
Un utilisateur de Quora a écrit : « Un détecteur d’IA identifie mon travail comme étant généré à 100 % par une IA. Je l’ai utilisé par ignorance comme outil de correction et de grammaire à la demande d’un directeur de recherche. Les mots, les concepts et l’expérience de vie contenus dans le texte déjà publié sont pourtant les miens. Que faire ? »
Nombreux sont ceux qui ont exprimé leur frustration face à ce problème. Récemment, dans un article publié par Cryptopolitan , un générateur d'IA a identifié des propos de Donald Trump. Il a déclaré : « Je suis très positif et ouvert d'esprit concernant les entreprises de cryptomonnaies et tout ce qui touche à ce secteur nouveau et en pleine expansion. » Comment l'IA s'intègre-t-elle aux paroles prononcées ? Est-ce au niveau de l'esprit de la personne ? Au niveau des pensées exprimées ?
Un autre message provenait de David Bailey : « Nous nous mobiliserons pour nous défendre. Nous ne votons pas pour Trump en tant que tel, nous votons contre Biden. Le seul responsable de cela est Biden. »
À lire également : La campagne crypto de Trump : tout ce que vous devez savoir
En 2023, OpenAI a publié des conseils à destination des enseignants dans un article de blog promotionnel montrant comment certains enseignants utilisent ChatGPT comme outil pédagogique.
Dans une section de la FAQ intitulée « Les détecteurs d'IA sont-ils efficaces ? », OpenAI répond : « En bref, non. Bien que certains (dont OpenAI) aient publié des outils censés détecter les contenus générés par l'IA, aucun n'a démontré sa capacité à distinguer de manière fiable les contenus générés par l'IA de ceux générés par l'humain. » Le problème de la distinction entre contenus humains et contenus générés par l'IA demeure. La question est donc : quelles solutions adopter ?
Reportage Cryptopolitan de Florence Muchai

