Architecture IA : CNA vs CAA vs SAE comparés

Si je devais décider aujourd'hui où placer le contrôle du comportement d'un modèle dans une architecture d'intégration IA, je ne commencerais pas par l'effet de pilotage le plus important. Je commencerais par le mode de défaillance le plus propre. C'est pourquoi le nouveau travail sur Contrastive Neuron Attribution de Nous Research compte: il suggère que les équipes peuvent piloter le comportement de refus en touchant environ 0,1% des activations MLP, au lieu d'agir sur tout un flux résiduel ou d'entraîner une pile séparée d'autoencodeurs épars. Pour les dirigeants qui planifient des intégrations d'IA en entreprise, cela transforme la discussion de conception d'une nouveauté de recherche en un contrôle opérationnel.

Les premiers résultats, rapportés par le résumé de MarkTechPost et le préprint arXiv, montrent quelque chose d'exceptionnellement pratique: les taux de refus ont chuté de plus de 50% dans la plupart des modèles instruct testés, tandis que la qualité des sorties est restée au-dessus de 0,97 et le MMLU est resté à un point de la ligne de base. J'ai vu suffisamment de couches d'intégration API IA fragiles en production pour savoir que préserver la qualité sous intervention est généralement le vrai goulot d'étranglement, et non trouver un mécanisme de contrôle tape-à-l'œil.

CNA, CAA et SAE en un coup d'œil

Critère	CNA	CAA	Pilotage par SAE
Cible d'intervention	Neurones MLP individuels	Direction du flux résiduel	Caractéristiques latentes apprises
Entraînement supplémentaire requis	Non	Non	Oui
Méthode d'exécution	Crochets d'activation en passe avant	Ajout d'un vecteur de pilotage à l'inférence	Encodage/décodage via caractéristiques SAE entraînées
Spécificité	Élevée, niveau circuit épars	Moyenne, couche entière	Potentiellement élevée, dépend de la qualité du SAE
Risque de dégradation de la qualité	Faible dans les tests rapportés	Élevé à pilotage fort	Moyen à élevé si les caractéristiques sont bruitées
Cas d'usage idéal	Diagnostic comportemental et intervention ciblée	Expériences rapides et pilotage approximatif	Recherche en interprétabilité avec budget
Inconvénient principal	Preuves encore limitées par famille de modèles	Contrôle grossier peut déformer les sorties	Pipeline coûteux et instabilité des caractéristiques

C'est la comparaison qui compte pour une feuille de route d'implémentation IA. CNA n'est pas automatiquement meilleur parce qu'il est plus récent. Il est meilleur quand l'équipe a besoin d'une couche d'intervention précise qui peut survivre aux contrôles qualité en production.

Pourquoi CNA change la décision de pilotage

L'idée centrale de CNA est assez simple pour l'expliquer à une équipe plateforme. On fait passer deux jeux de prompts dans un modèle: un jeu positif qui exhibe le comportement cible, un jeu négatif qui ne l'exhibe pas. Puis on enregistre les activations de projection descendante à travers les couches MLP, on calcule la différence moyenne par neurone, et on conserve le top 0,1% par contraste absolu.

Cela ressemble aux intégrations IA personnalisées existantes pour l'observabilité, mais la différence importante est l'étendue. CNA tente d'identifier les neurones qui effectuent la séparation comportementale. Contrastive Activation Addition calcule plutôt une direction de pilotage large dans le flux résiduel. En pratique, les directions larges sont souvent plus faciles à greffer sur une pile de solutions d'intégration IA, mais elles sont aussi plus difficiles à analyser quand les sorties commencent à se répéter ou dériver.

Le papier de Nous ajoute un autre filtre pratique: il supprime les neurones universels qui apparaissent dans les activations supérieures dans 80% ou plus de prompts divers. Cela compte. Dans un engagement client, nous avons découvert qu'une intervention supposément spécifique à un comportement coupait en fait des neurones de routage communs; le modèle semblait conforme dans un bac à sable et devenait étrange sur les tâches internes quotidiennes. L'étape de filtrage de CNA est une réponse directe à ce type de défaillance.

Ce que les chiffres disent à travers Llama et Qwen

Le résultat principal n'est pas subtil. À travers 16 modèles testés de 1B à 72B paramètres, l'ablation CNA a réduit fortement le comportement de refus sur JBB-Behaviors pour la plupart des variantes instruct.

Quelques points saillants du papier:

Llama-3.1-70B-Instruct: 86% de refus à 18%, une baisse relative de 79,1%
Qwen2.5-7B-Instruct: 87% à 2%, une baisse relative de 97,7%
Qwen2.5-72B-Instruct: 78% à 8%, une baisse relative de 89,7%
Llama-3.2-3B-Instruct: 84% à 47%, une baisse relative de 44,0%

Pour moi, la métrique la plus utile est ce qui n'a pas cassé. Selon le papier, CNA a maintenu la qualité des sorties au-dessus de 0,97 à toutes les forces de pilotage testées, tandis que CAA est tombé en dessous de 0,60 pour six des huit modèles instruct à l'intervention maximale. Sur MMLU, CNA est resté à un point de pourcentage de la ligne de base. C'est le genre de profil que je veux si j'évalue des intégrations d'IA en entreprise qui ont besoin de garde-fous sans saper les performances des tâches principales.

Il y a aussi une seconde vérification via la rubric StrongREJECT, notée par Llama-3.3-70B comme juge. La conformité s'est améliorée en moyenne de 6% pour les modèles Llama et de 31% pour les modèles Qwen après ablation CNA. Cet écart rappelle que l'architecture d'intégration IA dépend encore du comportement par famille de modèles. Si votre pile suppose qu'une intervention fonctionne identiquement à travers les fournisseurs, vous allez avoir des surprises.

Où CNA bat CAA, et où il ne le bat pas

Coût d'entraînement

CAA et CNA évitent toutes deux l'entraînement auxiliaire. Cela seul les rend plus attractives que les flux de travail lourds en SAE pour les équipes de services de conseil en IA qui ont besoin de résultats ce trimestre, et non après un projet d'apprentissage de caractéristiques séparé. Les SAE peuvent être utiles quand vous avez besoin d'une interprétabilité plus riche, mais ils ajoutent de l'infrastructure, des surcoûts de réglage et une autre surface de défaillance.

Précision du contrôle

C'est ici que CNA gagne clairement. CAA pousse toute la représentation de couche dans une direction choisie. CNA cible des neurones individuels avec la plus grande différence contrastive. Si vous avez besoin d'une poussée opérationnelle grossière, CAA peut encore suffire. Si vous avez besoin d'une intervention épars que vous pouvez expliquer, tester et annuler proprement, CNA est le meilleur choix.

Risque pour la qualité des sorties

Le point pratique le plus fort du papier est la conservation de la qualité. CAA a produit des mots répétés et du texte incohérent à des valeurs de pilotage fortes dans plusieurs modèles. J'ai vu ce motif dans des intégrations IA personnalisées où une couche de contrôle semblait acceptable sur un benchmark étroit et s'effondrait ensuite sur des prompts enterprise longs. CNA semble moins fragile jusqu'à présent, mais seulement dans les familles de modèles testées.

Profondeur d'interprétabilité

Les SAE ont encore un argument ici. Ils peuvent exposer des caractéristiques latentes apprises qui peuvent être plus faciles à étiqueter et inspecter pour les équipes de recherche au fil du temps. CNA est plus léger, mais il est basé sur des différences d'activation brutes, et non sur une base de caractéristiques apprise. Donc si l'objectif de votre équipe est l'analyse explicative plutôt que le pilotage opérationnel, les SAE ne sont pas obsolètes.

Ce que les résultats sur modèles de base révèlent pour l'architecture d'intégration IA

La découverte technique la plus intéressante n'est pas la chute de refus. C'est que la structure de discrimination en couche tardive existe déjà dans les modèles de base avant le fine-tuning d'alignement. Nous rapporte que ces neurones de discrimination se regroupent dans les 10% à 25% de couches finales dans les variantes de base et instruct, mais seuls les modèles instruct montrent un changement comportemental causal quand le circuit est ablaté ou amplifié.

Cela signifie que le fine-tuning semble changer la fonction plus que l'emplacement. Le papier rapporte seulement 8% à 29% de chevauchement dans les neurones de circuit appariés base versus instruct. Même région large en couche tardive, différentes assignations de neurones réels.

D'un point de vue intégration API IA, cela compte car cela plaide contre le traitement du comportement de sécurité comme un simple wrapper de politique. Une partie du comportement réside dans un emplacement structurel réutilisable à l'intérieur du modèle. Mais les neurones exacts portant cette fonction peuvent être recâblés par l'alignement. Donc votre architecture d'intégration IA devrait séparer trois couches de contrôle:

Contrôles de prompt et de politique pour les règles métier
Diagnostics internes au modèle pour le traçage comportemental
Intervention d'exécution uniquement après tests de qualité et de capacité

Cette séquence est particulièrement pertinente dans une phase de Directeur IA Fractionnaire, où le travail consiste à décider ce qui relève de la gouvernance et ce qui relève de l'implémentation. Le service le plus proche ici est AI Personalized Learning with Integration à https://encorp.ai/en/services/ai-personalized-learning-paths, car il reflète un problème de conception d'intégration à l'échelle du leadership où le comportement, le flux de travail et les contrôles de modèle doivent être délimités avant le déploiement, même si cet article spécifique est plus large que le cas d'usage éducation.

Mon verdict: quand choisir CNA, CAA ou SAE

Choisissez CNA si vous avez besoin d'un pilotage comportemental ciblé, d'une infrastructure ajoutée faible, et d'un chemin plus propre vers les tests en production. C'est l'option la plus forte ici pour les équipes qui conçoivent des solutions d'intégration IA autour de l'analyse de refus, du débogage comportemental, ou de l'intervention épars.

Choisissez CAA si vous avez besoin d'une expérience rapide, pouvez tolérer un contrôle grossier, et êtes loin des exigences de qualité de niveau production. Il est encore utile comme base de référence bon marché dans une feuille de route d'implémentation IA.

Choisissez SAE si votre objectif principal est une analyse de caractéristiques plus profonde et que votre équipe peut supporter le coût d'entraînement et de maintenance supplémentaire. Ils ont encore du sens dans des intégrations d'IA en entreprise axées sur la recherche où la profondeur d'interprétabilité compte plus que la simplicité de déploiement.

La leçon non évidente de CNA est que le pilotage de modèle devient un choix d'architecture, et non plus juste une astuce de prompt engineering. Si ce résultat se confirme au-delà de Llama et Qwen, plus d'équipes devront décider si le contrôle comportemental appartient à l'extérieur du modèle, à l'intérieur du modèle, ou partagé entre les deux.

Lectures connexes

CNA, CAA et SAE en un coup d'œil

Critère	CNA	CAA	Pilotage par SAE
Cible d'intervention	Neurones MLP individuels	Direction du flux résiduel	Caractéristiques latentes apprises
Entraînement supplémentaire requis	Non	Non	Oui
Méthode d'exécution	Crochets d'activation en passe avant	Ajout d'un vecteur de pilotage à l'inférence	Encodage/décodage via caractéristiques SAE entraînées
Spécificité	Élevée, niveau circuit épars	Moyenne, couche entière	Potentiellement élevée, dépend de la qualité du SAE
Risque de dégradation de la qualité	Faible dans les tests rapportés	Élevé à pilotage fort	Moyen à élevé si les caractéristiques sont bruitées
Cas d'usage idéal	Diagnostic comportemental et intervention ciblée	Expériences rapides et pilotage approximatif	Recherche en interprétabilité avec budget
Inconvénient principal	Preuves encore limitées par famille de modèles	Contrôle grossier peut déformer les sorties	Pipeline coûteux et instabilité des caractéristiques

Pourquoi CNA change la décision de pilotage

Ce que les chiffres disent à travers Llama et Qwen

Quelques points saillants du papier:

Llama-3.1-70B-Instruct: 86% de refus à 18%, une baisse relative de 79,1%
Qwen2.5-7B-Instruct: 87% à 2%, une baisse relative de 97,7%
Qwen2.5-72B-Instruct: 78% à 8%, une baisse relative de 89,7%
Llama-3.2-3B-Instruct: 84% à 47%, une baisse relative de 44,0%