Des preuves ont démontré l'existence de failles importantes dans l'application de l'apprentissage automatique à la recherche scientifique. Ce problème a étédentdans de nombreux articles de recherche couvrant différents domaines, mais une équipe de 19 chercheurs issus de diverses disciplines a publié des lignes directrices sur l'IA concernant l'utilisation responsable de l'apprentissage automatique en science, sous la direction d'Arvind Narayanan et de Sayash Kapoor, tous deux informaticiens à l'Université de Princeton.
Lignes directrices sur l'IA pour la recherche scientifique
Dans leur rapport, les auteurs expliquent que leurs travaux visent à mettre en lumière ce problème de crédibilité susceptible de toucher l'ensemble de l'écosystème de la recherche. Narayanan soutient qu'il n'existe pas de normes universelles pour protéger l'intégrité des méthodes de recherche et que, l'apprentissage automatique étant désormais appliqué dans tous les domaines scientifiques, ce problème pourrait s'avérer plus grave encore que la crise de la reproductibilité observée en psychologie sociale il y a une dizaine d'années. Il qualifie la crise actuelle de crise de la reproductibilité. Comme l'a déclaré Narayanan :
« Lorsqu’on passe des méthodes statistiques traditionnelles aux méthodes d’apprentissage automatique, les risques de se tirer une balle dans le pied sont considérablement plus nombreux. »
Source : AzoAI .
Mais les auteurs issus de la recherche en santé, de l'informatique, des sciences sociales et des matic ont également des nouvelles positives. Ils affirment qu'un ensemble de bonnes pratiques peut contribuer à résoudre le problème actuel. Kapoor, étudiant diplômé en informatique dent qui a coordonné les travaux de recherche ayant permis d'élaborer la liste de contrôle pour le travail scientifique et qui collabore avec Narayanan, a déclaré que le problème est systémique matic que sa solution doit l'être matic .
Le rythme de publication pourrait ralentir, mais la précision augmentera
L'objectif de cette nouvelle liste de contrôle consensuelle est de garantir l'authenticité des recherches utilisant l'apprentissage automatique. L'évolution scientifique repose sur la reproductibilité des résultats et la validationdentdes affirmations. Sans cela, il est impossible de mener de nouvelles recherches scientifiques de manière fiable en s'appuyant sur les travaux antérieurs, et l'ensemble du système perd en crédibilité.
La nouvelle liste de contrôle exige que les chercheurs fournissent des informations détaillées sur l'utilisation des modèles d'apprentissage automatique, car ils sont tenus de fournir les ensembles de données utilisés pour entraîner le modèle, son code, les capacités matérielles, la conception du projet pilote et les objectifs de la recherche, ainsi que toutes les contraintes pesant sur les résultats de l'étude, l'accent étant mis sur la transparence.
Bien qu'il soit également possible que les exigences accrues de ces nouvelles normes ralentissent la publication de nouvelles études de recherche, les chercheurs à l'origine de cette initiative restent convaincus que l'adoption de ces règles contribuera à accélérer le rythme des découvertes et des innovations en général.
L'une des auteures de l'étude, Emily Cantrell, doctorante dent l'université de Princeton, a déclaré que le rythme de la recherche scientifique est important, mais qu'en garantissant la qualité des articles publiés, les travaux futurs pourront s'appuyer sur ces références. Kapoor ajoute que les erreurs sont préjudiciables compte tenu de leur impact collectif et du temps qu'elles représentent, ce qui engendre des coûts supplémentaires puisqu'elles entravent la recherche scientifique et donc l'obtention de financements et d'investissements.

