Les coûts cachés des modèles d'entraînement de l'IA

- Le développement de modèles d'IA est coûteux, se chiffrant en centaines de millions en raison des besoins en calcul et en données.
- Les coûts élevés liés aux données centralisent le développement de l'IA, soulevant des questions éthiques.
- Les groupesdent indépendants travaillent sur des ensembles de données ouverts, et de nouvelles stratégies comme les données génératives sont encore en phase de test.
La conception et la maintenance de modèles d'IA modernes nécessitent des investissements considérables, qui peuvent dépasser plusieurs centaines de millions de dollars. Selon les estimations, ces coûts pourraient atteindre le milliard de dollars prochainement.
Ces dépenses sont principalement dues à la puissance de calcul nécessaire, notamment l'utilisation de cartes graphiques comme les GPU Nvidia, dont le prix unitaire peut atteindre 30 000 dollars, et qui peuvent nécessiter plusieurs milliers de dollars supplémentaires pour atteindre leur plein potentiel. Les chercheurs ont souligné l'importance cruciale de la qualité et de la quantité des données d'entraînement utilisées pour développer de tels modèles.
Les leaders de l'industrie révèlent les coûts faramineux du développement de l'IA
D'après James Betker d'OpenAI, les performances d'un modèle dépendent davantage des données d'entraînement que de sa conception ou de son architecture. Il affirme que les modèles entraînés sur de vastes ensembles de données atteindront les mêmes résultats. Par conséquent, les données sont essentielles au progrès de l'intelligence artificielle.
Dario Amodei, PDG de la société d'intelligence artificielle Anthropic AI, a partagé son analyse des enjeux financiers liés à ces défis dans le podcast In Good Company. Il a indiqué que l'entraînement des modèles actuels, tels que ChatGPT-4, coûterait environ 100 millions de dollars, et que celui des futurs modèles pourrait nécessiter entre 10 et 100 milliards de dollars dans les prochaines années.
Les modèles d'IA générative, notamment ceux créés par les grandes entreprises, sont fondamentalement des modèles statistiques. Ils utilisent donc un grand nombre d'exemples pour prédire les résultats les plus probables. Kyle Lo, de l'Allen Institute for AI (AI2), affirme que le gain de performance est principalement dû aux données, en particulier lorsque l'environnement d'entraînement est cohérent.
La centralisation des données soulève des problèmes d'éthique et d'accessibilité
Le coût élevé de l'acquisition de données de qualité fait du développement de l'IA l'apanage de quelques grandes entreprises des pays développés. Cette concentration des ressources est également source d'inquiétude quant à la disponibilité de la technologie d'IA et aux risques d'utilisation abusive.
OpenAI a dépensé à elle seule des centaines de millions de dollars en licences de données, et Meta a envisagé d'acquérir des éditeurs pour accéder aux données. Le marché des données d'entraînement pour l'IA devrait se développer, et les courtiers en données devraient en tirer profit.
Des problèmes découlent de pratiques d'acquisition de données douteuses. Selon les rapports, de nombreuses entreprises ont collecté d'importants volumes de contenu sans l'autorisation des propriétaires, et certaines exploitent des données provenant de différentes plateformes sans rémunérer les utilisateurs. Comme nous l'avons déjà signalé, OpenAI a utilisé son modèle de transcription audio Whisper pour transcrire plus d'un million d'heures de vidéos YouTube afin d'affiner GPT-4.
Des organisations s'efforcent de créer des ensembles de données d'entraînement en IA en accès libre
Face aux difficultés liées à l'acquisition de données, des effortsdent sont nécessaires pour rendre les jeux de données d'entraînement librement accessibles. Certaines organisations, comme EleutherAI et Hugging Face, créent de vastes ensembles de données mis à la disposition du public pour le développement de l'IA.
Le Wall Street Journal a récemment mis en lumière deux stratégies potentielles pour résoudre les problèmes d'acquisition de données : la génération de données synthétiques et l'apprentissage par curriculum. Les données synthétiques sont créées à l'aide des modèles d'IA eux-mêmes, tandis que l'apprentissage par curriculum vise à fournir aux modèles des données de haute qualité, structurées de manière à ce qu'ils puissent établir des liens même avec peu de données. Cependant, ces deux méthodes sont encore en développement et leur efficacité reste à démontrer.
Il existe un juste milieu entre laisser son argent à la banque et miser sur les cryptomonnaies. Commencez par regarder cette vidéo gratuite sur la finance décentralisée.
Avertissement : Les informations fournies ne constituent pas un conseil en investissement. CryptopolitanCryptopolitan.com toute responsabilité quant aux investissements réalisés sur la base des informations présentées sur cette page. Nous voustrondentdentdentdentdentdentdentdent et/ou de consulter un professionnel qualifié avant toute décision d’investissement.
LES
- Quelles cryptomonnaies peuvent vous faire gagner de l'argent ?
- Comment renforcer la sécurité de votre portefeuille (et lesquels valent vraiment la peine d'être utilisés)
- Stratégies d'investissement peu connues utilisées par les professionnels
- Comment débuter en investissement crypto (quelles plateformes d'échange utiliser, quelles cryptomonnaies acheter, etc.)















