Qu’il s’agisse des travaux d’ OpenAI , de Google et de Meta, ou du financement de l’IA dans le secteur industriel par divers moyens, comme la collecte et l’accumulation d’énormes volumes de données numériques de manières parfois créatives, parfois controversées, il est clair que les capacités d’automatisation progressent. Il convient de noter que les efforts déployés, notamment la mise en œuvre des mesures décrites précédemment (prenant en compte les limites légales et les politiques d’entreprise), représentent une quantité considérable de données utilisées pour entraîner les systèmes d’IA.
L'initiative Whisper d'OpenAI : analyser les conversations YouTube
L'histoire de Whisper a commencé l'année dernière. Face à la pénurie criante de textes de qualité en anglais, l'enseignement est ralenti. Whisper, développé par Google, a pris en compte l'immensité des dialogues disponibles sur YouTube et a été conçu comme une application de synthèse vocale. Cet outil d'intelligence artificielle, qui analyse plus d'un million d'heures de vidéos YouTube pour générer de nouveaux textes (en d'autres termes, de nouvelles conversations), a servi à entraîner des modèles d'IA, des plus performants à GPT-4, la dernière version du chatbot ChatGPT.
Bien que certains employés aient soutenu que les séquences Microsoft utilisées par OpenAI plagiaient YouTube de manière systématique, la question de l'éthique du plagiat restait controversée ; de plus, certains admettaient qu'il serait impossible de se conformer précisément aux intentions de YouTube. Par ailleurs, l'acquisition de connaissances, notamment le traitement algorithmique des vidéos pour entracle contenu textuel et alimenter les modèles d'IA, aurait pu être perçue comme une atteinte aux droits d'auteur des créateurs de vidéos, provoquant l'indignation.
Meta, la société mère de Facebook et Instagram, s'inquiétait également de l'utilisation d'éléments protégés par le droit d'auteur provenant de maisons d'édition comme Simon & Schuster, entre autres. Parallèlement, elle a également discuté de l'acquisition de contenu web général, craignant d'être prise en défaut de droits d'auteur.
L'explosion des données : un moteur pour des approches non conventionnelles
La collecte de données, dans un contexte de forte concurrence, met en évidence le rôle crucial des données et leurdentdans le développement de l'IA. L'intégration du langage naturel dans les IA nécessite des ensembles de données d'entraînement toujours plus importants, notamment ceux du Commonwealth, qui sont aujourd'hui exploités jusqu'à des plateformes comme Wikipédia et Reddit à partir de sources externes. Pour les entreprises technologiques, en particulier celles qui peinent à accéder à des sources de données courantes telles que les bases de données traditionnelles, la création de modèles basés sur l'IA peut constituer une solution alternative particulièrement intéressante.
Les entreprises du secteur technologique affirment que la collecte de données est nécessaire à l'entraînement des IA, alors même que ce processus est contesté devant les tribunaux. Pour leur défense, OpenAI et Microsoft ont obtenu gain de cause dans une affaire d'utilisation illégale de matériel protégé par le droit d'auteur. Elles ont toutefois soutenu que leurs actions relevaient du principe d'utilisation équitable. Ces dernières années, le nombre de demandes déposées auprès du Bureau du droit d'auteur des États-Unis par les titulaires de droits a dépassé les 10 000, ce qui démontre clairement que le droit d'auteur à l'ère de l'IA est inédit et en constante évolution. Par conséquent, les principaux acteurs sont constamment confrontés à des risques de contrefaçon, souvent sous prétexte que les modèles d'IA utilisés ne sont pas conformes aux licences.
L'impératif des ensembles de données massifs
Globalement, le travail de Kaipan, et notamment celui de Jared, scientifique de renom, a eu un impact considérable, bien qu'involontaire, sur le développement de l'IA. Le contenu basé sur les données est un élément essentiel du processus d'apprentissage de l'IA, mais celle-ci ne peut fonctionner correctement sans des modèles bien entraînés et performants. Avec l'essor de l'intelligence artificielle, la demande de données pour réussir sur le marché explose, soulevant des questions juridiques, éthiques et de protection de la vie privée pour les entreprises. Par conséquent, les algorithmes d'intelligence artificielle doivent impérativement exploiter ces ensembles de données pour prospérer sur le marché.
Les pratiques de collecte de données des VIP sont profondément modifiées au profit de l'intelligence artificielle ; les principes méthodologiques habituels sont bafoués. Que ce soit par le biais de leurs interventions sur YouTube ou par la création de données synthétiques, ces entreprises se positionnent comme des pionnières dans leur quête pour explorer les véritables enjeux juridiques, éthiques et de confidentialité.
Ils pourraient devenir la risée de tous plus tard. Face à l'abondance des données nécessaires à l'innovation, les dirigeants doivent s'engager activement dans un dialogue constructif afin d'établir des règles et des normes permettant d'équilibrer les efforts d'innovation avec les principes éthiques relatifs aux droits de propriété intellectuelle et au respect de la vie privée.
Article original : https://www.nytimes.com/2024/04/06/technology/tech-giants-harvest-data-artificial-intelligence.html
Vous souhaitez que votre projet soit présenté aux plus grands noms de la cryptomonnaie ? Présentez-le dans notre prochain rapport sectoriel, où données et impact se rencontrent.

