Dans l’environnement actuel de fausses nouvelles, de faits alternatifs, de sources non vérifiées et de simples mensonges, il peut être extrêmement difficile de faire confiance à ce qui est publié. Cependant, cette question s’étend bien au-delà de l’actualité politique ou des reportages à la mode. Nous nous trouvons dans un environnement où nous disposons de plus de données que jamais et où nous dépendons de plus de données que jamais, mais notre capacité à vérifier ces données dépasse largement ses limites.
La promesse et le problème des données
L’industrie de l’IA en particulier a considérablement accru notre appétit pour les données. Même si nous pourrions toujours utiliser l’analyse statistique des données pour obtenir certaines informations, l’IA nous a donné ce qui semble être un pouvoir illimité, si seulement nous disposions des données appropriées pour entraîner un algorithme. Avec un ensemble de données d’entraînement approprié, un algorithme d’IA peut classer différentes catégories de données, par exempledentidentification d’un produit sur la base d’une photo. Il peut utiliser des données pour prédire des choses qui seraient impossibles à trouver pour les humains : prédire un comportement frauduleux sur votre compte bancaire, le temps qu'il faudra pour qu'un colis arrive et si une autre voiture va entrer en collision avec votre véhicule à conduite automatique. Il peut optimiser un problème basé sur des données, comme rationaliser une usine, intégrer tous vos rendez-vous en fonction de vos contraintes d'horaire et fluidifier les mouvements d'un robot. Avec suffisamment de données, un algorithme d'IA tel qu'un grand modèle de langage, comme celui trouvé dans ChatGPT et des modèles similaires, peut répondre à un large éventail de questions, souvent avec une précision étonnamment élevée. En quelques années seulement, nous nous sommes retrouvés complètementdent de l’IA car nous en découvrons encore les capacités (et les limites).
Comme vous l'avez remarqué, le dénominateur commun ici est les données . Le problème, cependant, est que le simple fait de disposer de données ne suffit pas pour créer un algorithme d’IA approprié. Créer un modèle d’IA efficace est en réalité beaucoup plus complexe et difficile qu’il n’y paraît. Il faut beaucoup d'expertise pour sélectionner le bon algorithme, ajuster les bons boutons et leviers (appelés hyperparamètres) et former/tester le modèle pour s'assurer qu'il se comporte comme il le devrait. Pour que tout cela fonctionne, le développeur doit créer ou collecter le bon type de données à utiliser pour la formation, les étiqueter si nécessaire et valider qu'elles sont correctes. La quantité de données nécessaires varie mais peut être assez importante, en particulier si le modèle prend des décisions complexes, choisit parmi de nombreuses catégories différentes, ou doit identifier dent très petits changements (comme la détection de défauts microscopiques dans un produit, par exemple).
Le fait est qu'être capable de créer les bons algorithmes d'IA devient de plus en plus facile, tandis que trouver (ou créer) les bonnes données pour entraîner le modèle devient de plus en plus difficile à mesure que les problèmes que nous voulons résoudre deviennent plus complexes, les données requises sont vastes et complexes, ou bien nous disposons des données mais leur validité est douteuse. Que peut-on faire pour collecter et valider ces milliards et milliards de points de données ? Examinons ce problème et explorons pourquoi les principaux attributs de la blockchain peuvent offrir une solution, avec des plateformes comme Synesis One se montrant déjà très prometteuses pour mobiliser une grande force de personnes utilisant la décentralisation.
L'industrie de la collecte de données
Pour collecter correctement les données nécessaires à un modèle d'IA, vous devez d'abord comprendre quel problème vous essayez de résoudre. D’un côté de cette industrie se trouvent des entreprises, des organisations et même des individus qui ont des problèmes à résoudre. Afin de trouver ou de créer les bonnes données, ils doivent être capables d'articuler ce qu'ils tentent de résoudre avec suffisamment de détails pour que les experts en données puissent comprendre quel type de données, quel type d'étiquetage ou de validation et quelle quantité est nécessaire. Idéalement, ces entités diffuseraient leur problème et le type de données dont elles ont besoin. S’il s’agissait d’un rapport ou d’une analyse, vous pourriez utiliser l’économie des petits boulots bien établie pour trouver une personne qualifiée pour le poste. Le défi est qu’avec les ensembles de données nécessaires à l’IA, il s’agit souvent d’un travail beaucoup plus important qu’une seule personne ne peut gérer. Cependant, les éléments individuels ne sont généralement pas difficiles, ne nécessitent pas de formation dans la plupart des cas et peuvent être décomposés en incréments d'un seul point de données. C’est idéal pour répartir le travail entre de nombreuses personnes différentes. Si de nombreuses personnes peuvent chacune collecter ou créer un petit nombre de points de données de manière fiable, puis éventuellement étiqueter les données si nécessaire en utilisant quelques directives de base, alors l'entité essayant de résoudre son problème aura tout ce dont elle a besoin pour commencer.
La décentralisation au travail
C’est là que la blockchain, et en particulier la décentralisation, est parfaite. Comme mentionné ci-dessus, Synesis One et d'autres sociétés Web3 émergentes sont en train de créer toute une industrie de création, de collecte et de validation de données. La blockchain est parfaite car elle permet auxtracintelligents d'automatiser le processus, elle permet aux participants d'être presque n'importe où dans le monde (augmentant les chances que les personnes travaillent sur le problème), et elle permet même le paiement sous forme de crypto-monnaie, ce qui est largement sans frontières. Le résultat ? De nombreuses personnes différentes suivent des instructions de base pour créer ou trouver les bonnes données, les valider, effectuer des évaluations par les pairs si nécessaire (pour s'assurer que tout le monde fait correctement le travail) et les regrouper dans un ensemble de données agréable et prêt à l'emploi.
Bien que le concept puisse paraître assez basique, pour la communauté de l’IA, il est en fait révolutionnaire. Les limitations des données ont longtemps été la malédiction des développeurs d’IA du monde entier, souvent incapables de créer ces ensembles de données eux-mêmes et sans les ressources nécessaires pour embaucher directement les personnes nécessaires pour faire le travail. Ce n'est que grâce à un système ultra-efficace tel que la décentralisation que vous pourrez recruter de nombreuses personnes différentes qui peuvent chacune apporter une petite contribution, être récompensées pour leurs efforts et toutes s'ajouter à la pile qui deviendra éventuellement des données utilisables.
La population en général, y compris ceux qui travaillent dans le secteur technologique, ne comprend pas la quantité de travail et d’apport humain nécessaire du côté des données de l’IA pour que les grands modèles fonctionnent aussi bien qu’ils le font actuellement. @Lempheter fait un travail incroyable dans ce fil en éliminant certains goulots d'étranglement dans le… https://t.co/FFO3sAO3fr
-Synesis One (@synesis_one) 2 mai 2024
Et après?
Une fois l’un des principaux obstacles au progrès de l’IA potentiellement résolu, le marché décentralisé des données servira à stimuler l’accélération de l’IA dans notre vie quotidienne, tout en rendant l’IA utilisable et personnalisée plus accessible aux petites entreprises et même aux particuliers. Nous verrons certainement cette industrie se développer, voire exploser, dans un avenir proche, offrant un cas d'utilisation majeur du Web3 qui est complètement distinct de DeFi, des NFT ou de toute autre utilisation « à la mode » à laquelle le grand public pense lorsqu'il entend le terme « blockchain ». Avec un peu de chance, ils pourraient commencer à considérer la blockchain comme le principal élan dont l’industrie de l’IA a besoin.