AI интеграционна архитектура: CNA vs CAA vs SAE

Ако днес трябваше да решавам къде да поставя контрола върху поведението на модела в една AI интеграционна архитектура, не бих започнал с най-силния steering ефект. Бих започнал с най-чистия режим на отказ. Точно затова новата работа на Nous Research за Contrastive Neuron Attribution е важна: тя показва, че екипите могат да управляват поведението при отказ, като засягат около 0.1% от MLP активациите, вместо да въздействат върху целия residual stream или да обучават отделен sparse autoencoder стек. За лидерите, които планират enterprise AI интеграции, това променя разговора от изследователска новост към оперативен контрол.

Първите резултати, публикувани в обобщението на MarkTechPost за статията и предварителната публикация в arXiv, показват нещо необичайно практично: честотата на отказ е спаднала с над 50% при повечето тествани instruct модели, докато качеството на изхода е останало над 0.97, а MMLU е в рамките на една точка от базовото ниво. Виждал съм достатъчно крехки AI API integration слоеве в продукционна среда, за да знам, че запазването на качеството при интервенция обикновено е истинското тясно място, а не намирането на впечатляващ механизъм за контрол.

CNA, CAA и SAEs накратко

Criterion	CNA	CAA	SAE-based steering
Intervention target	Individual MLP neurons	Residual stream direction	Learned latent features
Extra training required	No	No	Yes
Runtime method	Forward-pass activation hooks	Add steering vector at inference	Encode/decode via trained SAE features
Specificity	High, sparse circuit-level	Medium, layer-wide	Potentially high, depends on SAE quality
Quality degradation risk	Low in reported tests	High at strong steering	Medium to high if features are noisy
Best use case	Behavior diagnostics and targeted intervention	Fast experiments and rough steering	Interpretability research with budget
Main drawback	Model-family evidence still limited	Coarse control can distort outputs	Expensive pipeline and feature instability

Това е сравнението, което има значение за една пътна карта за AI внедряване. CNA не е автоматично по-добър само защото е по-нов. По-добър е, когато екипът има нужда от прецизен интервенционен слой, който да издържи на проверки за качество в продукционна среда.

Защо CNA променя решението за steering

Основната идея зад CNA е достатъчно проста, за да се обясни на platform екип. Пускате два набора от prompt-и през модела: един положителен набор, който проявява целевото поведение, и един отрицателен набор, който не го проявява. След това записвате down-projection активациите през MLP слоевете, изчислявате средната разлика за всеки неврон и запазвате топ 0.1% по абсолютен contrast.

Това звучи близо до съществуващите custom AI integrations за observability, но важната разлика е в обхвата. CNA се опитва да идентифицира невроните, които реално извършват поведенческото разделяне. Contrastive Activation Addition вместо това изчислява широка steering посока в residual stream. На практика широките посоки често се добавят по-лесно към един AI integration solutions стек, но и са по-трудни за анализ, когато изходите започнат да се повтарят или да drift-ват.

Статията на Nous добавя още един практичен филтър: премахва универсалните неврони, които се появяват сред водещите активации в 80% или повече от разнообразни prompt-и. Това има значение. В един клиентски проект открихме, че интервенция, която уж беше специфична за поведение, всъщност орязваше общи routing неврони; моделът изглеждаше съвместим в sandbox среда, а после започваше да се държи странно при ежедневни вътрешни задачи. Филтриращата стъпка в CNA е директен отговор на точно такъв тип отказ.

Какво показват числата при Llama и Qwen

Водещият резултат не е двусмислен. При 16 тествани модела с размер от 1B до 72B параметъра, CNA ablation рязко намалява поведението на отказ според JBB-Behaviors за повечето instruct варианти.

Няколко отличаващи се примера от статията:

Llama-3.1-70B-Instruct: 86% отказ до 18%, 79.1% относителен спад
Qwen2.5-7B-Instruct: 87% до 2%, 97.7% относителен спад
Qwen2.5-72B-Instruct: 78% до 8%, 89.7% относителен спад
Llama-3.2-3B-Instruct: 84% до 47%, 44.0% относителен спад

За мен по-полезната метрика е какво не се е счупило. Според статията CNA е запазил качеството на изхода над 0.97 при всички тествани степени на steering, докато CAA е паднал под 0.60 при шест от осем instruct модела при максимална интервенция. По MMLU, CNA остава в рамките на един процентен пункт от базовото ниво. Това е профилът, който търся, ако оценявам enterprise AI интеграции, където са нужни guardrails, без да се срине представянето по основните задачи.

Има и втора проверка чрез StrongREJECT rubric, оценена от Llama-3.3-70B в ролята на съдия. Съответствието се подобрява средно с 6% при моделите Llama и с 31% при моделите Qwen след CNA ablation. Тази разлика е напомняне, че AI интеграционната архитектура все още зависи от поведението на конкретното моделно семейство. Ако стекът ви приема, че една интервенция работи идентично при всички доставчици, ще останете изненадани.

Къде CNA превъзхожда CAA и къде не

Цена на обучението

CAA и CNA и двата избягват допълнително обучение. Само това вече ги прави по-привлекателни от тежките SAE workflows за екипи по AI consulting services, които трябва да покажат резултат това тримесечие, а не след отделен проект за feature learning. SAE могат да бъдат полезни, когато е нужна по-богата интерпретируемост, но добавят инфраструктура, overhead по настройка и още една повърхност за отказ.

Прецизност на контрола

Тук CNA печели ясно. CAA измества цялото представяне на слоя в избрана посока. CNA таргетира отделни неврони с най-голяма контрастна разлика. Ако ви трябва груб оперативен тласък, CAA все още може да е достатъчен. Ако ви трябва оскъдна интервенция, която може да се обясни, тества и върне назад чисто, CNA е по-добрият избор.

Риск за качеството на изхода

Най-силният практичен аргумент в статията е запазването на качеството. CAA е генерирал повтарящи се думи и некохерентен текст при силни steering стойности в няколко модела. Виждал съм този модел и в custom AI integrations, където контролният слой изглежда приемлив на тесен benchmark, а после се срива при дълги enterprise prompt-и. Засега CNA изглежда по-малко крехък, но само в рамките на тестваните моделни семейства.

Дълбочина на интерпретируемостта

SAE все още имат аргумент тук. Те могат да разкрият научени латентни характеристики, които за изследователските екипи може да са по-лесни за етикетиране и инспекция с времето. CNA е по-лек подход, но се базира на сурови разлики в активациите, а не на научена feature основа. Така че ако целта на екипа ви е обяснителен анализ, а не оперативно steering управление, SAE не са остарели.

Какво показват резултатите при базовите модели за AI интеграционната архитектура

Най-интересният технически извод не е спадът на отказите. А това, че структурата за разграничаване в късните слоеве вече съществува в базовите модели още преди alignment fine-tuning. Nous съобщава, че тези discrimination неврони се групират във финалните 10% до 25% от слоевете както при base, така и при instruct варианти, но само instruct моделите показват причинна промяна в поведението, когато схемата бъде ablated или amplified.

Това означава, че fine-tuning вероятно променя повече функцията, отколкото местоположението. Статията отчита само 8% до 29% припокриване в съпоставените base спрямо instruct circuit неврони. Същият широк регион в късните слоеве, но различни реални назначения на невроните.

От гледна точка на AI API integration, това е важно, защото е аргумент срещу идеята поведението по безопасност да се третира просто като policy wrapper. Част от това поведение живее в повторно използваем структурен слот вътре в модела. Но точните неврони, които носят тази функция, могат да бъдат пренаредени от alignment. Затова вашата AI интеграционна архитектура трябва да отделя три слоя на контрол:

Prompt и policy контроли за бизнес правила
Вътрешномоделни diagnostics за проследяване на поведение
Runtime интервенция само след тестове за качество и способности

Тази последователност е особено важна във фаза Fractional AI Director, където задачата е да се реши какво принадлежи към governance и какво към implementation. Най-близкото съответствие като услуга тук е AI Personalized Learning with Integration на адрес https://encorp.ai/bg/services/ai-personalized-learning-paths, защото отразява лидерски етап от дизайна на интеграцията, в който поведение, workflow и контрол върху модела трябва да бъдат обхванати преди rollout, въпреки че тази конкретна статия е по-широка от образователния use case.

Моята оценка: кога да изберете CNA, CAA или SAE

Изберете CNA, ако ви трябва таргетирано управление на поведение, ниска допълнителна инфраструктура и по-чист път към тестове за продукционна среда. Това е най-силният вариант тук за екипи, които проектират AI integration solutions около анализ на откази, debugging на поведение или оскъдна интервенция.

Изберете CAA, ако ви трябва бърз експеримент, можете да понесете груб контрол и сте далеч от изисквания за качество на продукционно ниво. Той все още е полезен като евтина базова линия в една пътна карта за AI внедряване.

Изберете SAEs, ако основната ви цел е по-дълбок анализ на характеристиките и екипът ви може да си позволи допълнителната тежест по обучение и поддръжка. Те все още имат смисъл в enterprise AI интеграции с по-силен изследователски фокус, където дълбочината на интерпретируемостта е по-важна от простотата при внедряване.

Неочевидният урок от CNA е, че steering управлението на модели се превръща в архитектурен избор, а не просто в prompting трик. Ако този резултат се потвърди и извън Llama и Qwen, повече екипи ще трябва да решат дали контролът върху поведението принадлежи извън модела, вътре в модела или е разделен между двете.

CNA, CAA и SAEs накратко

Criterion	CNA	CAA	SAE-based steering
Intervention target	Individual MLP neurons	Residual stream direction	Learned latent features
Extra training required	No	No	Yes
Runtime method	Forward-pass activation hooks	Add steering vector at inference	Encode/decode via trained SAE features
Specificity	High, sparse circuit-level	Medium, layer-wide	Potentially high, depends on SAE quality
Quality degradation risk	Low in reported tests	High at strong steering	Medium to high if features are noisy
Best use case	Behavior diagnostics and targeted intervention	Fast experiments and rough steering	Interpretability research with budget
Main drawback	Model-family evidence still limited	Coarse control can distort outputs	Expensive pipeline and feature instability

Защо CNA променя решението за steering

Какво показват числата при Llama и Qwen

Няколко отличаващи се примера от статията:

Llama-3.1-70B-Instruct: 86% отказ до 18%, 79.1% относителен спад
Qwen2.5-7B-Instruct: 87% до 2%, 97.7% относителен спад
Qwen2.5-72B-Instruct: 78% до 8%, 89.7% относителен спад
Llama-3.2-3B-Instruct: 84% до 47%, 44.0% относителен спад