Les géants de la technologie repoussent les limites pour nourrir l'appétit de données de l'IA

By James Kinoti
Mise à jour : 6 avril 2024 à 12 h 39 UTC

3 minutes de lecture

507313

Contenu

1. L'initiative Whisper d'OpenAI : analyser les conversations YouTube

2. L'explosion des données : un moteur pour des approches non conventionnelles

3. L'impératif des ensembles de données massifs

Partager le lien :

Dans cet article :

Les géants de la technologie ont recours à des méthodes controversées pour collecter des données d'IA.
OpenAI transcrit des vidéos YouTube, et Google et Meta envisagent d'acheter du contenu protégé par le droit d'auteur.
L'utilisation de vastes ensembles de données par l'IA soulève des débats juridiques et éthiques.

Qu’il s’agisse des travaux d’ OpenAI , de Google et de Meta, ou du financement de l’IA dans le secteur industriel par divers moyens, comme la collecte et l’accumulation d’énormes volumes de données numériques de manières parfois créatives, parfois controversées, il est clair que les capacités d’automatisation progressent. Il convient de noter que les efforts déployés, notamment la mise en œuvre des mesures décrites précédemment (prenant en compte les limites légales et les politiques d’entreprise), représentent une quantité considérable de données utilisées pour entraîner les systèmes d’IA.

L'initiative Whisper d'OpenAI : analyser les conversations YouTube

L'histoire de Whisper a commencé l'année dernière. Face à la pénurie criante de textes de qualité en anglais, l'enseignement est fortement perturbé. Whisper, développé par Google, a pris en compte l'immensité des dialogues disponibles sur YouTube et a été conçu comme une application de synthèse vocale. Cet outil d'intelligence artificielle, qui analyse plus d'un million d'heures de vidéos YouTube pour générer de nouveaux textes (en d'autres termes, de nouvelles conversations), a servi à entraîner des modèles d'IA, des plus performants à GPT-4, la dernière version du chatbot ChatGPT.

Bien que certains employés aient soutenu que les séquences Microsoft utilisées par OpenAI plagiaient YouTube de manière systématique, la question de l'éthique du plagiat restait controversée ; de plus, certains admettaient qu'il serait impossible de se conformer précisément aux intentions de YouTube. Par ailleurs, l'acquisition de connaissances, notamment le traitement algorithmique des vidéos pour entracle contenu textuel et alimenter les modèles d'IA, aurait pu être perçue comme une atteinte aux droits d'auteur des créateurs de vidéos, provoquant l'indignation.

Voir aussi : Correction d’un bug suite à une panne réseau (problème de mise à jour majeure de Polygon)

Meta, la société mère de Facebook et Instagram, s'inquiétait également de l'utilisation d'éléments protégés par le droit d'auteur provenant de maisons d'édition comme Simon & Schuster, entre autres. Parallèlement, elle a également discuté de l'acquisition de contenu web général, craignant d'être prise en défaut de droits d'auteur.

L'explosion des données : un moteur pour des approches non conventionnelles

La collecte de données, dans un contexte de forte concurrence, met en évidence le rôle crucial des données et leurdentdans le développement de l'IA. L'intégration du langage naturel dans les IA nécessite des ensembles de données d'entraînement toujours plus importants, notamment ceux du Commonwealth, qui sont aujourd'hui exploités jusqu'à des plateformes comme Wikipédia et Reddit à partir de sources externes. Pour les entreprises technologiques, en particulier celles qui peinent à accéder à des sources de données courantes telles que les bases de données traditionnelles, la création de modèles basés sur l'IA peut constituer une solution alternative particulièrement intéressante.

Les entreprises du secteur technologique affirment que la collecte de données est nécessaire à l'entraînement des IA, alors même que ce processus est contesté devant les tribunaux. Pour leur défense, OpenAI et Microsoft ont obtenu gain de cause dans une affaire d'utilisation illégale de matériel protégé par le droit d'auteur. Elles ont toutefois soutenu que leurs actions relevaient du principe d'utilisation équitable. Ces dernières années, le nombre de demandes déposées auprès du Bureau du droit d'auteur des États-Unis par les titulaires de droits a dépassé les 10 000, ce qui démontre clairement que le droit d'auteur à l'ère de l'IA est inédit et en constante évolution. Par conséquent, les principaux acteurs sont constamment confrontés à des risques de contrefaçon, souvent sous prétexte que les modèles d'IA utilisés ne sont pas conformes aux licences.

Voir aussi : Les traders de cryptomonnaies accueillent le robot de trading Sigmax.io

L'impératif des ensembles de données massifs

Globalement, le travail de Kaipan, et notamment celui de Jared, scientifique de renom, a eu un impact considérable, bien qu'involontaire, sur le développement de l'IA. Le contenu basé sur les données est un élément essentiel du processus d'apprentissage de l'IA, mais celle-ci ne peut fonctionner correctement sans des modèles bien entraînés et performants. Avec l'essor de l'intelligence artificielle, la demande de données pour réussir sur le marché explose, soulevant des questions juridiques, éthiques et de protection de la vie privée pour les entreprises. Par conséquent, les algorithmes d'intelligence artificielle doivent impérativement exploiter ces ensembles de données pour prospérer sur le marché.

Les pratiques de collecte de données des VIP sont profondément modifiées au profit l'intelligence artificielle ; les principes méthodologiques habituels sont bafoués. Que ce soit par le biais de leurs interventions sur YouTube ou par la création de données synthétiques, ces entreprises se positionnent comme des pionnières dans leur quête pour explorer les véritables enjeux juridiques, éthiques et de confidentialité.

Ils pourraient devenir la risée de tous plus tard. Face à l'abondance des données nécessaires à l'innovation, les dirigeants doivent s'engager activement dans un dialogue constructif afin d'établir des règles et des normes permettant d'équilibrer les efforts d'innovation avec les principes éthiques relatifs aux droits de propriété intellectuelle et au respect de la vie privée.

Article original : https://www.nytimes.com/2024/04/06/technology/tech-giants-harvest-data-artificial-intelligence.html

Affinez votre stratégie grâce à un mentorat et des idées quotidiennes – 30 jours d'accès gratuit à notre programme de trading

Partager le lien :

Lire l'avertissement

Avertissement : Les informations fournies ne constituent pas un conseil en investissement. Cryptopolitan.com Cryptopolitan toute responsabilité quant aux investissements réalisés sur la base des informations présentées sur cette page. Nous vous recommandons vivement d’effectuer vos tron dent et/ou de consulter un professionnel qualifié avant toute décision d’investissement.

Articles les plus lus

Restez informé(e) de l'actualité crypto, recevez des mises à jour quotidiennes dans votre boîte mail

Choix de la rédaction

Chargement des articles sélectionnés par la rédaction...

Les géants de la technologie repoussent les limites pour nourrir l'appétit de données de l'IA

Contenu

Dans cet article :

L'initiative Whisper d'OpenAI : analyser les conversations YouTube

L'explosion des données : un moteur pour des approches non conventionnelles

L'impératif des ensembles de données massifs

Partager le lien :

Articles les plus lus

Restez informé(e) de l'actualité crypto, recevez des mises à jour quotidiennes dans votre boîte mail

Choix de la rédaction

Inscrivez-vous et restez au sommet

Les marchés évoluent rapidement.

Nous avançons plus vite.

Entrez. Renseignez-vous.
Prenez de l'avance.

Les géants de la technologie repoussent les limites pour nourrir l'appétit de données de l'IA

Contenu

Dans cet article :

L'initiative Whisper d'OpenAI : analyser les conversations YouTube

L'explosion des données : un moteur pour des approches non conventionnelles

L'impératif des ensembles de données massifs

Partager le lien :

Articles les plus lus

Restez informé(e) de l'actualité crypto, recevez des mises à jour quotidiennes dans votre boîte mail

Choix de la rédaction

Inscrivez-vous et restez au sommet

Suivez-nous

- La newsletter crypto qui vous donne une longueur d'avance -

Les marchés évoluent rapidement.

Nous avançons plus vite.

Entrez. Renseignez-vous. Prenez de l'avance.

Entrez. Renseignez-vous.
Prenez de l'avance.