DERNIÈRES NOUVELLES
SÉLECTIONNÉ POUR VOUS
HEBDOMADAIRE
RESTEZ AU SOMMET

Les meilleures analyses crypto directement dans votre boîte mail.

Perplexity pris en flagrant délit de récupération de données, selon Reddit

ParHannah CollymoreHannah Collymore
3 minutes de lecture -
L'accès prioritaire au navigateur IA Comet de Perplexity est offert en avantage aux utilisateurs de PayPal et Venmo
  • Reddit a porté plainte contre Perplexity AI pour avoir secrètement collecté du contenu Reddit malgré son blocage.
  • Reddit a tendu un « piège » numérique qui a révélé que Perplexity AI aurait utilisé les résultats de Google pour contourner les restrictions.
  • Perplexity et ses partenaires de données nient toute malversation et promettent de se défendre devant les tribunaux.

Reddit a porté plainte contre Perplexity AI pour avoir continué à utiliser le contenu de Reddit afin d'entraîner son modèle d'IA malgré des avertissements préalables lui interdisant de récupérer le contenu de la plateforme. 

Alors que les systèmes d'IA s'appuient de plus en plus sur du contenu en ligne accessible au public pour s'entraîner et générer des réponses, des entreprises comme Reddit tentent de tracer des lignes claires entre les données considérées comme « publiques » et celles considérées comme « propriétaires ».

Un piège tendu par Reddit révèle un vol de données présumé  

Reddit a porté plainte contre Perplexity, une entreprise d'intelligence artificielle valorisée à 20 milliards de dollars, l'accusant de collecte illégale de données via sa plateforme. Selon les documents déposés mercredi devant un tribunal fédéral de Manhattan, Reddit affirme que Perplexity a ignoré les instructions lui interdisant d'extraire du contenu et a continué d'utiliser les données de Reddit pour générer des réponses par IA.

La plainte indique que Reddit avait explicitement interdit à Perplexity de collecter ses données, mais que le « moteur de réponses » de cette société d'IA continuait de produire des résultats contenant du contenu Reddit. « L'augmentation était simatic qu'un observateur extérieur a émis l'hypothèse qu'elle était due à la conclusion d'un accord de licence entre Perplexity et Reddit », précise la plainte. « En réalité, aucun accord de licence n'existe entre Perplexity et Reddit. »

Pour confirmer ses soupçons, Reddit a mis au point un test numérique ingénieux. La plateforme a créé une publication « piège » accessible uniquement via le moteur de recherche Google. Google ayant un accord de licence de contenu légitime avec Reddit, toute entreprise ne disposant pas d'un tel accord n'aurait pas dû pouvoir accéder à cette publication.

L'entreprise a décrit ce procédé comme l'équivalent en ligne d'un « billet marqué ». Si le système de Perplexity reproduisait le contenu de cette publication cachée, Reddit saurait qu'il a contourné ses mesures de sécurité, probablement en récupérant des données via les résultats de recherche Google, connus sous le nom de SERP.

Quelques heures plus tard, le message de test, censément privé, a commencé à apparaître dans les réponses générées par l'outil d'IA de Perplexity. 

« La seule façon pour Perplexity d'obtenir ce contenu Reddit et de l'utiliser ensuite dans son "moteur de réponses" est qu'elle et/ou ses co-défendeurs aient extrait des données des SERP de Google », indique la plainte.

Reddit a cité trois sociétés d'extraction de données dans sa plainte : Oxylabs UAB, AWM Proxy et SerpApi. Il les accuse d'avoir aidé Perplexity à accéder sans autorisation aux publications de Reddit, ou d'avoir vendu les données de Reddit à Perplexity.

Les allégations de Reddit sont démenties 

Perplexity a rejeté les allégations. Le porte-parole de l'entreprise, Jesse Dwyer, a déclaré que Perplexity « ne tolérera aucune atteinte à la transparence et à l'intérêt public ». L'entreprise a également affirmé, dans une publication Reddit après le dépôt de la plainte, qu'elle « n'entraîne pas ses modèles d'IA sur du contenu ».

Les représentants des autres entreprises citées dans la plainte ont également publié des déclarations. Un porte-parole de SerpApi a indiqué que la société entendait se défendre vigoureusement devant les tribunaux. Denas Grybauskas, directeur de la gouvernance et de la stratégie d'Oxylabs, a déclaré que son entreprise était choquée et déçue, ajoutant qu'Oxylabs avait toujours été et resterait une pionnière et un chef de file du secteur de la collecte de données publiques

En août, Cloudflare, une entreprise d'infrastructure Internet, a révélé avoir mené un test similaire pour vérifier si Perplexity respectait les règles d'exploration du Web. Cloudflare a indiqué avoir créé des pages contenant un code interdisant l'accès aux robots de Perplexity, mais a malgré tout constaté que les robots d'exploration de l'entreprise d'IA visitaient ces pages interdites.

Le PDG de Cloudflare, Matthew Prince, a fait les gros titres en comparant le comportement de Perplexity à celui des « pirates informatiques nord-coréens » 

« Certaines entreprises d'IA prétendument "réputées" agissent davantage comme des pirates informatiques nord-coréens », a écrit Prince sur X. « Il est temps de les dénoncer publiquement et de les bloquer définitivement. » La plainte déposée par Reddit cite les propos de Prince dans le cadre de son argumentation.

Si vous souhaitez une approche plus sereine de la DeFi et des cryptomonnaies , sans le battage médiatique habituel, commencez par cette vidéo gratuite.

Partagez cet article
PLUS D'ACTUALITÉS
COURS ACCÉLÉRÉ CRYPTOMONNAIES
LES