Les questions autour du droit d’auteur auront un impact important sur l’avenir de l’IA générative, mais plutôt que de laisser les tribunaux décider de ce qui constitue ou non une violation, il serait préférable pour toutes les parties concernées que les parties parviennent à un accord.
Alors que des entreprises comme OpenAI s'empressent désormais de signer des accords de licence de contenu avec plusieurs éditeurs, il est clair que les fournisseurs d'IA sont prêts à payer pour les données de formation dont ils ont besoin. Mais l’industrie manque actuellement d’un outil efficace permettant aux créateurs de trac quand leur contenu est utilisé par des modèles d’IA, ce qui rend difficile la détermination du montant de la compensation qui devrait leur être versée, le cas échéant.
Une solution possible qui pourrait y contribuer est la blockchain, le registre décentralisé qui sous-tend les crypto-monnaies. Il s'agit d'une nouvelle technologie qui pourrait constituer la base d'un système plus équitable permettant tracsavoir à qui appartient le matériel protégé par le droit d'auteur utilisé pour former les LLM et de rémunérer les créateurs de ce matériel.
Des projets tels que droppLink ont déjà progressé dans ce domaine, créant un système tokenisé capable de tokeniser les actions des modèles d'IA. Ce faisant, il peut préserver les droits des propriétaires de contenu, et même les indemniser pour l'utilisation de leurs documents protégés par le droit d'auteur.
Ce n'est pas magique
L’IA générative semble souvent magique. Les générateurs d'images tels que DALL-E 2, Microsoft Designer et Stable Diffusion peuvent produire des visuels époustouflants dans presque tous les styles, comme une aquarelle ou une vieille photographie noir et blanc froissée. Ils créent ces visuels en quelques secondes, et la qualité dépasse ce que de nombreux humains pourraient espérer réaliser. Les générateurs de texte tels que ChatGPT sont tout aussi impressionnants, avec leur capacité à rédiger des essais, à écrire de la poésie et bien plus encore en quelques secondes seulement.
Les utilisateurs pourraient penser à tort que ces outils créent simplement du nouveau contenu à partir de rien, comme le font les humains, mais ce n'est pas aussi simple que cela. Pour que les modèles d’IA générative puissent créer du nouveau contenu, ils doivent d’abord apprendre à le faire, ce qui implique de traiter de grandes quantités d’informations. Ces informations proviennent souvent du Web et une grande partie de ce contenu est protégée par le droit d'auteur.
C’est là que se posent les questions, et nombre d’entre elles restent encore à résoudre. Par exemple, les lois sur la protection des droits d’auteur et la violation des brevets s’appliquent-elles même au contenu généré par l’IA ? Et à qui appartient réellement le contenu créé par les plateformes d’IA générative ? Est-ce l'entreprise d'IA, l'utilisateur qui a incité le système à créer ce contenu, ou est-ce le créateur du contenu original sur lequel les modèles ont été formés ?
Si l’on veut que l’IA générative soit à la hauteur de son potentiel, il faut répondre à ces questions.
Pourquoi la blockchain est la réponse
Les blockchains sont des registres numériques décentralisés alimentés par une série de nœuds publics, et elles permettent le partage transparent d'informations, tout en empêchant que ces données soient manipulées de quelque manière que ce soit.
Bien qu’elle ait été conçue pour la cryptographie, il est devenu clair depuis longtemps que la blockchain peut également être appliquée à de nombreux autres cas d’utilisation où la transparence est souhaitée. En symbolisant les actifs physiques tels que les actes immobiliers, les œuvres d'art et les actions, nous pouvons créer des marchés plus efficaces et transparents sans aucun intermédiaire, avec une plus grande confiance et une plus grande efficacité.
En tant que telle, la blockchain pourrait être le véhicule idéal pour accroître la transparence de l’IA générative, en créant un enregistrement ouvert et immuable qui vérifie d’où les LLM tirent leurs réponses.
Pour les créateurs, la tokenisation de leur contenu en chaîne offre un certain nombre d'avantages. L’un des plus importants est que, dans le cas de l’IA, ils pourraient tokeniser leur contenu et autoriser les LLM à l’utiliser. Étant donné que ce contenu est hébergé sur une blockchain transparente, les propriétaires de contenu disposent d'un moyen de tracet de vérifier qui utilise leur contenu. Cela pourrait entraîner l’émergence d’une relation symbiotique entre l’IA générative et la blockchain. Les réseaux décentralisés fourniront aux modèles d’IA un cadre clair qui vérifie d’où ils tirent leurs informations. Avec la blockchain, un créateur de contenu peut découvrir exactement quand son contenu est utilisé par un modèle d'IA pour générer une réponse.
Un tel système pourrait alors être utilisé pour récompenser les créateurs de contenu. L’accès aux modèles d’IA générative les plus puissants a tendance à avoir un prix, ce qui signifie que ces modèles génèrent des revenus. La blockchain permettrait de partager une partie de ces revenus avec ceux qui permettent aux LLM d'utiliser leur contenu.
Une analyse des modèles de prise de décision d'un LLM peut aider àdentquand le matériel de formation symbolisé en tant que NFT est utilisé pour générer des revenus. Grâce à destracintelligents, il serait possible d'attribuer une partie de ces revenus au créateur de ces données, sous la forme d'une sorte de paiement de redevances.
Tokeniser le cycle de vie de l'IA
Un tel système existe déjà sous la forme de droppLink récemment annoncé par droppGroup , un service intelligent destiné aux développeurs d'IA générative cherchant à créer des LLM plus éthiques. Le système donne aux créateurs de contenu la propriété et le contrôle de leurs données. Il démocratise la contribution des données, éliminant trac complexités informatiques et facilitant les micropaiements pour garantir que les titulaires de droits soient récompensés équitablement.
droppGroup s'est imposé comme un champion de l'IA éthique, en construisant un système basé sur des pratiques de données tracet une compensation pour l'utilisation de la propriété intellectuelle qui répond directement aux préoccupations de nombreuses organisations concernant les risques liés à l'utilisation de l'IA.
droppLink comporte trois composants technologiques principaux, notamment le mécanisme de consensus Proof-of-Gen qui valide l'authenticité du contenu créé par l'IA, ainsi que les données de formation utilisées dans tout LLM. Il est uniquement capable de tracoù, quand et comment ce contenu est utilisé pour éclairer les réponses des LLM aux invites, afin que les créateurs et les propriétaires de propriété intellectuelle puissent être rémunérés pour l'utilisation de leurs matériaux. Les parties prenantes, connues sous le nom de Computational Resourcetron, agissent en tant que validateurs et participent à ce processus en échange de récompenses.
Data Genesis de droppLink est le protocole sous-jacent qui automatise la tokenisation des données de formation de l'IA. Il établit un enregistrement immuable de l'origine et de l'utilisation des données.
Enfin, droppCoin est le jeton natif de l'écosystème droppLink et est utilisé pour récompenser les créateurs de contenu et les propriétaires de propriété intellectuelle chaque fois que leurs contributions sont utilisées par les systèmes d'IA. Les validateurs de réseau gagnent également des doppCoin en récompense pour avoir facilité les microtransactions qui permettent de verser ces récompenses.
Il s'agit d'un système prometteur, particulièrement capable de répondre aux préoccupations institutionnelles concernant les risques liés à l'IA, la protection de la propriété intellectuelle et la provenance des données, et il pourrait jouer un rôle clé en aidant l'industrie de l'IA générative à contourner l'un des principaux obstacles empêchant son adoption à plus grande échelle.
Un mariage parfait ?
droppLink n'est qu'un exemple de la façon dont la blockchain peut potentiellement répondre aux questions concernant la propriété et la violation des droits d'auteur dans l'industrie de l'IA générative, mais d'autres idées sont sur la table. Par exemple, datalatte est un chatbot IA open source basé sur une blockchain et formé sur des données tokenisées. Les propriétaires de ses données de formation ont toute autorité sur qui peut utiliser et accéder à ces données, et la plupart choisissent de les rendre librement disponibles en échange de paiements compensatoires à chaque fois qu'elles sont utilisées par le chatbot.
Alors que l’IA générative poursuit son essor apparemment imparable, la blockchain apparaît comme l’une des solutions les plus prometteuses pour résoudre les problèmes de violation du droit d’auteur qui la freinent actuellement.
La blockchain est une technologie idéale permettant aux titulaires de droits d'auteur de protéger leurs documents et d'en conserver le contrôle, ou bien de monétiser ce contenu s'ils choisissent de le faire. Pour les développeurs d’IA générative, la blockchain peut leur donner accès à une source éthique de données de formation pour renforcer et améliorer leurs modèles. Le mariage de l’IA générative et de la blockchain peut être à la fois durable et gratifiant, résolvant les préoccupations des parties prenantes et ouvrant la voie à la maturité des deux technologies.