Plus de cent chercheurs appellent à instaurer des garde-fous autour des jeux de données biologiques à haut risque, afin d’empêcher un usage malveillant de l’IA susceptible de faciliter la création d’agents pathogènes mortels.
Les modèles d’intelligence artificielle (IA) appliqués à la biologie reposent largement sur de vastes volumes de données biologiques, notamment des séquences génétiques et des caractéristiques de pathogènes. Mais ces informations doivent-elles être accessibles à tous, et comment garantir qu’elles ne soient utilisées qu’à des fins légitimes ?
Plus de 100 chercheurs alertent : un accès illimité à certains ensembles de données biologiques pourrait permettre à des systèmes d’IA de contribuer à concevoir ou améliorer des virus dangereux. Ils réclament donc des garde-fous plus stricts pour prévenir les détournements.
Dans une lettre ouverte (source en anglais), des chercheurs issus d’institutions prestigieuses, dont l’université Johns-Hopkins, l’université d’Oxford, l’université Fordham et l’université Stanford, estiment que si l’accès libre aux données scientifiques a accéléré les découvertes, un petit sous-ensemble des nouvelles données biologiques fait peser des risques en matière de biosécurité en cas de mauvaise utilisation.
« Les enjeux de la gouvernance des données biologiques sont considérables, car les modèles d’IA pourraient contribuer à créer des menaces biologiques majeures », écrivent les auteurs.
Les modèles d’IA utilisés en biologie peuvent prédire des mutations, repérer des motifs et générer des variants plus transmissibles de pathogènes à potentiel pandémique.
Les auteurs qualifient cela de « capacité préoccupante », susceptible d’accélérer et de faciliter la création de pathogènes transmissibles pouvant provoquer des pandémies humaines, ou des événements similaires chez les animaux, les plantes ou dans l’environnement.
Les données biologiques devraient en principe rester librement accessibles, soulignent-ils, mais les « données sensibles sur des agents pathogènes » exigent des contrôles de sécurité renforcés.
« Notre priorité est de définir et de réguler les ensembles de données les plus préoccupants avant qu’ils ne soient largement accessibles aux développeurs d’IA », écrivent-ils, en proposant un nouveau cadre pour encadrer l’accès.
« À une époque dominée par des modèles d’IA biologique à poids ouverts développés partout dans le monde, restreindre l’accès aux données sensibles sur les agents pathogènes aux seuls chercheurs légitimes pourrait être l’un des moyens les plus prometteurs de réduire les risques », estime Moritz Hanke, coauteur de la lettre à l’université Johns-Hopkins.
Ce que font les développeurs
À ce jour, aucun cadre universel ne régule ces ensembles de données. Si certains développeurs excluent volontairement les données à haut risque, les chercheurs estiment que des règles claires et cohérentes devraient s’appliquer à tous.
Les développeurs de modèles phares d’IA pour la biologie, comme Evo, mis au point par des chercheurs de l’Arc Institute, de Stanford et de TogetherAI, ou ESM3, de la société EvolutionaryScale, ont retiré certaines séquences virales de leurs données d’entraînement.
En février 2025, l’équipe d’EVO 2 a annoncé avoir exclu de ses jeux de données les agents pathogènes infectant l’être humain et d’autres organismes complexes, en raison de risques éthiques et de sûreté, et afin de « prévenir l’utilisation d’Evo pour le développement d’armes biologiques ».
EVO 2 est un modèle d’IA open source pour la biologie, capable de prédire les effets de mutations de l’ADN, de concevoir de nouveaux génomes et de mettre au jour des motifs dans le code génétique.
« À l’heure actuelle, il n’existe aucune recommandation appuyée par des experts sur les données qui présentent des risques significatifs, ce qui oblige certains développeurs de pointe à se fier à leur propre appréciation et à exclure volontairement des données virales de l’entraînement », a écrit sur LinkedIn Jassi Panu, coauteur de l’étude et de la lettre.
Différents types de données à risque
Les auteurs précisent que le cadre proposé ne s’appliquerait qu’à une petite fraction des ensembles de données biologiques.
Il introduit une échelle à cinq niveaux de données de biosécurité (Biosecurity Data Level, BDL) pour catégoriser les informations relatives aux agents pathogènes, en les classant selon un niveau de « risque » fondé sur leur potentiel à permettre aux systèmes d’IA d’apprendre des motifs viraux généraux et des menaces biologiques pour les animaux comme pour les humains. Elle comprend :
BDL-0 : données de biologie courante. Elles ne devraient faire l’objet d’aucune restriction et peuvent être partagées librement.
BLD-1 : briques virales de base, comme les séquences génétiques. Elles ne nécessitent pas de contrôles de sécurité poussés, mais la connexion et les accès doivent être surveillés.
BLD-2 : données sur les caractéristiques de virus animaux, comme le passage d’une espèce à l’autre ou la capacité de survivre en dehors de l’hôte.
BLD-3 : données sur les caractéristiques de virus humains, telles que la transmissibilité, les symptômes ou la résistance aux vaccins.
BLD-4 : virus humains « améliorés », par exemple des mutations du virus du Covid-19 le rendant plus contagieux. Cette catégorie serait soumise aux restrictions les plus strictes.
Garantir un accès sécurisé
Pour garantir un accès sûr, la lettre appelle au déploiement d’outils techniques spécifiques permettant aux fournisseurs de données de vérifier l’identité des utilisateurs légitimes et de détecter les abus.
Parmi les outils envisagés figurent le filigranage – l’insertion d’identifiants cachés et uniques dans les jeux de données pour tracer facilement d’éventuelles fuites –, la traçabilité de l’origine des données, des journaux d’audit qui enregistrent les accès et les modifications avec des signatures inviolables, ainsi que des biométries comportementales capables de repérer les schémas d’interaction propres à chaque utilisateur.
Les chercheurs estiment qu’il sera crucial de trouver le bon équilibre entre ouverture et restrictions de sécurité nécessaires sur les données à haut risque, à mesure que les systèmes d’IA gagneront en puissance et se diffuseront largement.