CNA vs CAA vs SAEs: architektura sterowania AI

Gdybym dziś decydował, gdzie umieścić kontrolę zachowań modelu w architekturze integracji AI, nie zacząłbym od największego efektu sterującego. Zacząłbym od najczystszego scenariusza awarii. Dlatego nowe badanie Contrastive Neuron Attribution z Nous Research ma znaczenie: sugeruje, że zespoły mogą sterować zachowaniami odmowy, modyfikując około 0,1% aktywacji MLP, zamiast wpływać na cały strumień resztkowy lub trenować osobny stos rzadkich autoenkoderów. Dla liderów planujących integracje AI w przedsiębiorstwach zmienia to rozmowę projektową z nowinki badawczej na kontrolę operacyjną.

Wczesne wyniki, opisane w podsumowaniu MarkTechPost oraz w preprincie na arXiv, pokazują coś niezwykle praktycznego: wskaźniki odmowy spadły o ponad 50% w większości testowanych modeli instruktażowych, przy zachowaniu jakości wyjściowej powyżej 0,97 i wyników MMLU w granicach jednego punktu od linii bazowej. Widziałem na tyle kruchych warstw integracji API AI w produkcji, by wiedzieć, że zachowanie jakości podczas interwencji to zazwyczaj prawdziwe wąskie gardło, a nie znalezienie efektownego mechanizmu kontroli.

CNA, CAA i SAEs w skrócie

Kryterium	CNA	CAA	Sterowanie oparte na SAE
Cel interwencji	Pojedyncze neurony MLP	Kierunek strumienia resztkowego	Nauczone cechy latentne
Wymagane dodatkowe trenowanie	Nie	Nie	Tak
Metoda wykonawcza	Haki aktywacji w przebiegu w przód	Dodanie wektora sterującego przy inferencji	Kodowanie/dekodowanie przez nauczone cechy SAE
Specyficzność	Wysoka, na poziomie rzadkich obwodów	Średnia, warstwowo-szeroka	Potencjalnie wysoka, zależy od jakości SAE
Ryzyko degradacji jakości	Niskie w raportowanych testach	Wysokie przy silnym sterowaniu	Średnie do wysokie, jeśli cechy są zaszumione
Najlepsze zastosowanie	Diagnostyka zachowań i ukierunkowana interwencja	Szybkie eksperymenty i przybliżone sterowanie	Badania z interpretowalnością przy odpowiednim budżecie
Główna wada	Ograniczone dowody poza rodziną modeli	Gruba kontrola może zniekształcać wyjścia	Kosztowny potok i niestabilność cech

To porównanie ma znaczenie dla mapy drogowej implementacji AI. CNA nie jest automatycznie lepsze, bo jest nowsze. Jest lepsze, gdy zespół potrzebuje precyzyjnej warstwy interwencji, która przetrwa produkcyjne testy jakości.

Dlaczego CNA zmienia decyzję o sterowaniu

Rdzeń idei CNA jest na tyle prosty, by wyjaśnić go zespołowi platformowemu. Przepuszczasz przez model dwa zestawy promptów: jeden pozytywny wykazujący docelowe zachowanie, drugi negatywny, który go nie wykazuje. Następnie rejestrujesz aktywacje rzutowania w dół w warstwach MLP, obliczasz średnią różnicę na neuron i zachowujesz górne 0,1% pod względem bezwzględnego kontrastu.

Brzmi to podobnie do istniejących niestandardowych integracji AI dla obserwowalności, ale kluczowa różnica to zakres. CNA próbuje zidentyfikować neurony dokonujące separacji behawioralnej. Contrastive Activation Addition zamiast tego oblicza szeroki kierunek sterujący w strumieniu resztkowym. W praktyce szerokie kierunki są często łatwiejsze do dołączenia do stosu rozwiązań integracji AI, ale trudniejsze do zrozumienia, gdy wyjścia zaczynają się powtarzać lub dryfować.

Artykuł Nous dodaje kolejny praktyczny filtr: usuwa neurony uniwersalne, które pojawiają się w najwyższych aktywacjach w 80% lub więcej różnorodnych promptów. To ma znaczenie. W jednym projekcie klienckim odkryliśmy, że rzekomo specyficzna behawioralna interwencja w rzeczywistości obcinała powszechne neurony routingu; model wyglądał na zgodny w sandboxie, a potem zachowywał się dziwnie przy codziennych wewnętrznych zadaniach. Krok filtrowania w CNA jest bezpośrednią odpowiedzią na tego rodzaju awarie.

Co mówią liczby dla Llama i Qwen

Główny wynik nie jest subtelny. W 16 testowanych modelach od 1B do 72B parametrów ablacja CNA gwałtownie obniżyła zachowania odmowy na JBB-Behaviors dla większości wariantów instruktażowych.

Kilka wyróżniających się wyników z artykułu:

Llama-3.1-70B-Instruct: 86% odmowy do 18%, spadek względny o 79,1%
Qwen2.5-7B-Instruct: 87% do 2%, spadek względny o 97,7%
Qwen2.5-72B-Instruct: 78% do 8%, spadek względny o 89,7%
Llama-3.2-3B-Instruct: 84% do 47%, spadek względny o 44,0%

Dla mnie bardziej użyteczną metryką jest to, co nie uległo zniszczeniu. Zgodnie z artykułem, CNA utrzymało jakość wyjściową powyżej 0,97 przy wszystkich testowanych siłach sterowania, podczas gdy CAA spadło poniżej 0,60 dla sześciu z ośmiu modeli instruktażowych przy maksymalnej interwencji. Na MMLU CNA pozostało w granicach jednego punktu procentowego od linii bazowej. To profil, który chcę widzieć, gdy oceniam integracje AI w przedsiębiorstwach potrzebujące zabezpieczeń bez niszczenia podstawowej wydajności zadań.

Jest też druga weryfikacja przez rubrykę StrongREJECT, oceniana przez Llama-3.3-70B jako sędziego. Zgodność poprawiła się średnio o 6% dla modeli Llama i 31% dla modeli Qwen po ablacji CNA. To rozproszenie jest przypomnieniem, że architektura integracji AI wciąż zależy od zachowań rodziny modeli. Jeśli twój stos zakłada, że jedna interwencja działa identycznie we wszystkich dostawcach, czeka cię niespodzianka.

Gdzie CNA wygrywa z CAA, a gdzie nie

Koszt trenowania

CAA i CNA omijają trenowanie pomocnicze. Samo to czyni je bardziej atrakcyjnymi niż obciążone SAE przepływy pracy dla zespołów usług doradczych AI, które potrzebują wyników w tym kwartale, a nie po osobnym projekcie uczenia cech. SAE mogą być przydatne, gdy potrzebujesz bogatszej interpretowalności, ale dodają infrastrukturę, narzut związany z dostrajaniem i kolejną powierzchnię awarii.

Precyzja kontroli

Tutaj CNA wyraźnie wygrywa. CAA pcha całą reprezentację warstwy w wybranym kierunku. CNA celuje w pojedyncze neurony o największej różnicy kontrastowej. Jeśli potrzebujesz zgrubnego operacyjnego pchnięcia, CAA może wciąż wystarczyć. Jeśli potrzebujesz rzadkiej interwencji, którą możesz wyjaśnić, przetestować i czysto wycofać, CNA jest lepszym wyborem.

Ryzyko dla jakości wyjściowej

Najmocniejszym praktycznym punktem artykułu jest zachowanie jakości. CAA produkowało powtarzające się słowa i niekoherentny tekst przy silnych wartościach sterowania w kilku modelach. Widziałem ten wzorzec w niestandardowych integracjach AI, gdzie warstwa kontrolna wyglądała akceptowalnie na wąskim benchmarku, a potem załamywała się przy długich promptach korporacyjnych. CNA wydaje się na razie mniej krucha, ale tylko w obrębie testowanych rodzin modeli.

Głębia interpretowalności

SAE wciąż mają tu argument. Mogą ujawniać nauczone cechy latentne, które z czasem mogą być łatwiejsze do etykietowania i inspekcji przez zespoły badawcze. CNA jest lżejsze, ale opiera się na surowych różnicach aktywacji, a nie na nauczonej bazie cech. Więc jeśli celem twojego zespołu jest analiza wyjaśniająca zamiast operacyjnego sterowania, SAE nie są przestarzałe.

Co wyniki dla modeli bazowych ujawniają dla architektury integracji AI

Najciekawszym technicznym odkryciem nie jest spadek odmowy. To fakt, że struktura dyskryminacji w późnych warstwach już istnieje w modelach bazowych przed dopasowującym dostrajaniem. Nous raportuje, że te neurony dyskryminacyjne skupiają się w ostatnich 10% do 25% warstw zarówno w wariantach bazowych, jak i instruktażowych, ale tylko modele instruktażowe wykazują przyczynową zmianę behawioralną, gdy obwód jest ablowany lub wzmocniony.

Oznacza to, że dostrajanie wydaje się zmieniać funkcję bardziej niż lokalizację. Artykuł raportuje tylko 8% do 29% nakładania się w dopasowanych neuronach obwodów bazowych i instruktażowych. Ten sam szeroki region późnych warstw, inne faktyczne przypisania neuronów.

Z perspektywy integracji API AI ma to znaczenie, ponieważ przemawia przeciwko traktowaniu zachowań bezpieczeństwa jako prostego wrappera polityki. Część zachowania żyje w reużywalnym strukturalnym slocie wewnątrz modelu. Ale dokładne neurony niosące tę funkcję mogą być przepięte przez dopasowanie. Więc twoja architektura integracji AI powinna rozdzielić trzy warstwy kontroli:

Kontrole promptów i polityk dla reguł biznesowych
Diagnostyka wewnątrzmodelowa dla śledzenia zachowań
Interwencja wykonawcza dopiero po testowaniu jakości i zdolności

Ta sekwencja jest szczególnie istotna w fazie Fractional AI Director, gdzie zadaniem jest zdecydować, co należy do ładu, a co do implementacji. Najbliższe dopasowanie usługi to AI Personalized Learning with Integration pod adresem https://encorp.ai/en/services/ai-personalized-learning-paths, ponieważ odzwierciedla problem projektowania integracji na etapie przywództwa, gdzie zachowanie, przepływ pracy i kontroli modelu muszą być określone przed wdrożeniem, choć ten konkretny artykuł jest szerszy niż przypadek użycia edukacyjnego.

Moja werdykt: kiedy wybrać CNA, CAA lub SAE

Wybierz CNA, jeśli potrzebujesz ukierunkowanego sterowania zachowaniami, niskiego dodatkowego obciążenia infrastrukturalnego i czystszej ścieżki do testowania produkcyjnego. Jest to najsilniejsza opcja tutaj dla zespołów projektujących rozwiązania integracji AI wokół analizy odmowy, debugowania zachowań lub rzadkiej interwencji.

Wybierz CAA, jeśli potrzebujesz szybkiego eksperymentu, możesz tolerować grubą kontrolę i jesteś daleko od produkcyjnych wymagań jakościowych. Wciąż jest użyteczny jako tani punkt odniesienia w mapie drogowej implementacji AI.

Wybierz SAE, jeśli twoim głównym celem jest głębsza analiza cech, a twój zespół może sobie pozwolić na dodatkowe obciążenie związane z trenowaniem i utrzymaniem. Wciąż mają sens w badawczo zorientowanych integracjach AI w przedsiębiorstwach, gdzie głębia interpretowalności ma większe znaczenie niż prostota wdrożenia.

Nieoczywistą lekcją z CNA jest to, że sterowanie modelem staje się wyborem architektonicznym, a nie tylko sztuczką promptowania. Jeśli ten wynik utrzyma się poza Llama i Qwen, więcej zespołów będzie musiało zdecydować, czy kontrola zachowań należy poza modelem, wewnątrz modelu, czy rozdzielona między oboma.

Powiązane lektury

CNA, CAA i SAEs w skrócie

Kryterium	CNA	CAA	Sterowanie oparte na SAE
Cel interwencji	Pojedyncze neurony MLP	Kierunek strumienia resztkowego	Nauczone cechy latentne
Wymagane dodatkowe trenowanie	Nie	Nie	Tak
Metoda wykonawcza	Haki aktywacji w przebiegu w przód	Dodanie wektora sterującego przy inferencji	Kodowanie/dekodowanie przez nauczone cechy SAE
Specyficzność	Wysoka, na poziomie rzadkich obwodów	Średnia, warstwowo-szeroka	Potencjalnie wysoka, zależy od jakości SAE
Ryzyko degradacji jakości	Niskie w raportowanych testach	Wysokie przy silnym sterowaniu	Średnie do wysokie, jeśli cechy są zaszumione
Najlepsze zastosowanie	Diagnostyka zachowań i ukierunkowana interwencja	Szybkie eksperymenty i przybliżone sterowanie	Badania z interpretowalnością przy odpowiednim budżecie
Główna wada	Ograniczone dowody poza rodziną modeli	Gruba kontrola może zniekształcać wyjścia	Kosztowny potok i niestabilność cech

Architektura integracji AI: CNA vs CAA vs SAEs

CNA, CAA i SAEs w skrócie

Dlaczego CNA zmienia decyzję o sterowaniu

Co mówią liczby dla Llama i Qwen