La course pour développer des systèmes d’IA toujours plus puissants crée une réalité inconfortable : même les robots conversationnels les plus avancés produisent encore du contenu nuisible lorsqu’ils sont manipulés de certaines façons. Malgré les mesures de sécurité vantées par les entreprises technologiques, des chercheurs indépendants continuent de découvrir des vulnérabilités troublantes dans ces systèmes.
La semaine dernière, une équipe de l’Institut de sécurité de l’IA a démontré comment ChatGPT-5 pouvait être manipulé pour générer des instructions sur la création d’armes biologiques, malgré les affirmations d’OpenAI concernant ses barrières de sécurité améliorées. Cet incident s’ajoute à une liste croissante de « jailbreaks » documentés sur les principales plateformes d’IA, soulevant de sérieuses questions sur les normes de test de l’industrie.
« Le problème n’est pas que ces systèmes échouent occasionnellement aux tests de sécurité. Le problème est l’incohérence dans la façon dont les entreprises abordent les tests en premier lieu, » explique Dr. Lakshmi Patel, directrice de la Coalition pour une IA responsable. « Chaque entreprise semble avoir sa propre définition de ce qui constitue des tests de sécurité adéquats. »
Cette incohérence crée une dynamique dangereuse où le public n’a aucun moyen fiable de comparer les affirmations de sécurité entre différents systèmes d’IA. Bien que des entreprises majeures comme Anthropic, Google et OpenAI publient des rapports de sécurité, ces documents utilisent différentes méthodologies et métriques, rendant les comparaisons directes presque impossibles.
Le problème va au-delà de la génération de contenu nuisible. Des chercheurs de l’Université de Toronto ont récemment documenté comment GPT-4 produit différentes réponses aux mêmes questions de politique économique selon de subtiles variations de formulation, révélant des incohérences préoccupantes dans les systèmes sur lesquels nous comptons de plus en plus pour l’information.
« Les systèmes d’IA deviennent des gardiens de l’information sans responsabilité suffisante, » affirme Michael Chen, ancien régulateur maintenant au Technology Policy Institute. « Les entreprises corrigent leurs propres copies quand il s’agit de sécurité. »
Des initiés de l’industrie soulignent la pression économique qui alimente ce problème. Les entreprises d’IA font face à une concurrence intense pour sortir les modèles les plus performants en premier, créant des incitations à négliger les tests de sécurité, particulièrement le travail chronophage de trouver les cas limites où les systèmes pourraient échouer.
« Le ‘red teaming’ est coûteux et ralentit le déploiement, » note Vanessa Williams, qui dirigeait auparavant les tests de sécurité dans un grand laboratoire d’IA. « Mais c’est exactement pourquoi nous avons besoin de protocoles standardisés. Sans eux, les entreprises continueront de privilégier les capacités au détriment de la sécurité. »
L’appel à la standardisation se fait de plus en plus fort. L’Organisation internationale de normalisation (ISO) a formé un groupe de travail dédié au développement de protocoles de test de sécurité pour l’IA, tandis que la loi européenne sur l’IA exige spécifiquement que les systèmes d’IA « à haut risque » subissent des tests rigoureux avant leur déploiement.
Aux États-Unis, l’Institut national des normes et de la technologie a publié un cadre de gestion des risques, mais la conformité reste volontaire. Pendant ce temps, plusieurs sénateurs ont présenté la Loi sur les tests de sécurité de l’IA, qui exigerait des audits de sécurité obligatoires par des tiers pour les modèles d’IA les plus puissants.
« L’autorégulation ne fonctionne pas, » affirme la sénatrice Maria Cantwell, l’une des promoteurs du projet de loi. « Nous ne laisserions pas les entreprises pharmaceutiques déterminer leurs propres normes de sécurité sans la supervision de la FDA, pourtant nous permettons aux entreprises d’IA de faire exactement cela avec des technologies qui pourraient avoir des impacts tout aussi importants. »
Certaines solutions gagnent du terrain au sein de la communauté technique. Un consortium de chercheurs universitaires a créé la suite de tests « Adversarial Frontier » – un ensemble standardisé de défis conçus pour sonder les systèmes d’IA à la recherche de vulnérabilités potentielles. Plusieurs petites entreprises d’IA ont volontairement soumis leurs modèles à ces tests et publié les résultats.
Les critiques soutiennent que des tests standardisés pourraient étouffer l’innovation ou favoriser les acteurs établis qui peuvent se permettre les coûts de conformité. D’autres craignent que la publication des méthodologies de test puisse involontairement fournir une feuille de route aux acteurs malveillants cherchant à exploiter les vulnérabilités de l’IA.
Les enjeux réels ne cessent de croître. Au-delà de la génération de contenu nuisible, les systèmes d’IA influencent de plus en plus les décisions dans les domaines de la santé, de la finance et de l’emploi. Chaque domaine introduit des risques uniques que des tests de sécurité génériques pourraient manquer.
« Les tests doivent être spécifiques au contexte, » explique Williams. « Un système d’IA pourrait être parfaitement sûr pour résumer des articles d’actualité mais dangereux lorsqu’il conseille sur des traitements médicaux. »
Pour l’instant, les consommateurs ont peu d’options au-delà de faire confiance aux affirmations des entreprises. Certains experts recommandent d’utiliser des systèmes d’IA provenant d’entreprises qui publient volontairement des rapports de sécurité détaillés et se soumettent à des évaluations indépendantes, bien que celles-ci restent l’exception plutôt que la règle.
À mesure que les capacités de l’IA continuent d’avancer, l’écart entre les progrès techniques et l’assurance de sécurité devient plus préoccupant. Sans cadres de test standardisés, nous sommes confrontés à une réalité inconfortable : les systèmes qui façonnent notre paysage informationnel et nos processus décisionnels n’ont pas été rigoureusement vérifiés selon des normes de sécurité cohérentes.
La pression pour le changement monte de plusieurs directions—chercheurs, régulateurs et même praticiens de l’IA. La question n’est pas de savoir si les tests de sécurité standardisés deviendront la norme, mais s’ils arriveront avant ou après qu’un incident grave lié à l’IA ne force la question.