Intelligence Artificielle : Les Chercheurs Dévoilent les pensées cachées de Claude 3

Comment une intelligence artificielle (IA) « pense »-t-elle ? Bien que les IA soient des créations humaines, leur fonctionnement devient de plus en plus mystérieux à mesure qu’elles évoluent. Pour percer ce mystère, les chercheurs d’Anthropic ont exploré le « cerveau » de l’IA Claude 3.
Fascinantes et inquiétantes, les IA s’intègrent dans notre quotidien tout en développant des mécanismes complexes et parfois incompréhensibles. Futura a déjà rapporté les difficultés des scientifiques à comprendre pleinement ces systèmes, souvent comparés à des « boîtes noires » en raison de l’opacité de leurs processus internes.
Exploration du cerveau de Claude 3
Les chercheurs d’Anthropic, la société derrière le chatbot Claude, prétendent avoir déchiffré cette « boîte noire » et modifié les processus internes de l’IA. Dans une publication récente, ils décrivent comment ils ont réussi à cartographier les « chemins de pensée » de leur IA en utilisant une technique appelée « apprentissage par dictionnaire ». Cette méthode leur a permis de faire correspondre les modèles d’« activation neuronale » de l’IA à des concepts familiers aux humains.
Les expériences ont été menées sur des versions réduites de modèles de langage afin de découvrir les schémas de pensée activés par l’IA lorsqu’elle traite certaines idées. Il est apparu que Claude pouvait trier et relier des concepts de manière autonome, parfois de manière inattendue. Par exemple, certains concepts étaient regroupés ou séparés dans l’esprit de Claude de manière similaire à notre cerveau humain.
En construisant un modèle d’apprentissage de taille moyenne basé sur Claude 3, les chercheurs ont pu extraire suffisamment de données pour créer une carte élaborée des concepts utilisés par l’IA. Ils ont découvert que Claude stocke des concepts de manière indépendante du langage ou du type de données. Pour les idées les plus abstraites, Claude pouvait regrouper des concepts éloignés, comme des situations sans issue, d’une manière ressemblant au fonctionnement du cerveau humain.
Manipuler les pensées de l’IA
Avec cette compréhension approfondie, les chercheurs ont pu manipuler certaines caractéristiques de l’IA, en amplifiant ou en supprimant des concepts pour voir comment cela influençait les réponses de Claude. Par exemple, en réduisant l’importance de certains concepts, ils ont observé des changements significatifs dans le comportement de l’IA. L’objectif principal de ces manipulations est d’améliorer la sécurité. En identifiant et en atténuant les concepts nuisibles ou inappropriés, les chercheurs peuvent renforcer la supervision de l’IA et assurer des réponses plus sûres.
Pour l’équipe d’Anthropic, ces découvertes ne sont que le début. Leur étude actuelle se limite à un échantillon de concepts, et une analyse plus large nécessiterait une puissance de calcul immense, bien au-delà de celle des IA actuelles. Il reste donc beaucoup à faire pour garantir que les IA ne deviennent pas nuisibles à l’avenir.
Alexandre Martin