Αρχιτεκτονική Ενσωμάτωσης AI: CNA vs CAA vs SAEs

Αν έπρεπε να αποφασίσω σήμερα πού να τοποθετήσω τον έλεγχο συμπεριφοράς μοντέλου σε μια αρχιτεκτονική ενσωμάτωσης AI, δεν θα ξεκινούσα από το μεγαλύτερο εφέ καθοδήγησης. Θα ξεκινούσα από το πιο καθαρό μοτίβο αποτυχίας. Γι' αυτό η νέα εργασία Contrastive Neuron Attribution από το Nous Research έχει σημασία: υποδεικνύει ότι οι ομάδες μπορούν να καθοδηγήσουν τη συμπεριφορά άρνησης αγγίζοντας περίπου το 0,1% των ενεργοποιήσεων MLP, αντί να πιέζουν ολόκληρο το residual stream ή να εκπαιδεύουν ένα ξεχωριστό stack sparse autoencoder. Για τους ηγέτες που σχεδιάζουν εταιρικές ενσωματώσεις AI, αυτό αλλάζει τη συζήτηση σχεδιασμού από ερευνητική καινοτομία σε επιχειρησιακό έλεγχο.

Τα πρώτα αποτελέσματα, που αναφέρθηκαν από το συνοπτικό άρθρο του MarkTechPost και το arXiv preprint, δείχνουν κάτι ασυνήθιστα πρακτικό: τα ποσοστά άρνησης μειώθηκαν πάνω από 50% στα περισσότερα instruct μοντέλα που δοκιμάστηκαν, ενώ η ποιότητα εξόδου παρέμεινε πάνω από 0,97 και το MMLU παρέμεινε εντός ενός πόντου από τη βασική γραμμή. Έχω δει αρκετά εύθραυστα στρώματα ενσωμάτωσης AI API σε παραγωγή για να ξέρω ότι η διατήρηση της ποιότητας υπό παρέμβαση είναι συνήθως το πραγματικό σημείο συμφόρησης, όχι η εύρεση ενός εντυπωσιακού μηχανισμού ελέγχου.

CNA, CAA και SAEs με μια ματιά

Κριτήριο	CNA	CAA	Καθοδήγηση βάσει SAE
Στόχος παρέμβασης	Μεμονωμένοι νευρώνες MLP	Κατεύθυνση residual stream	Εκμαθευμένα latent features
Απαιτείται επιπλέον εκπαίδευση	Όχι	Όχι	Ναι
Μέθοδος χρόνου εκτέλεσης	Hooks ενεργοποίησης forward-pass	Προσθήκη διανύσματος καθοδήγησης κατά την inference	Encode/decode μέσω εκπαιδευμένων SAE features
Ειδικότητα	Υψηλή, επίπεδο αραιού κυκλώματος	Μεσαία, ευρεία στρώση	Δυνητικά υψηλή, εξαρτάται από ποιότητα SAE
Κίνδυνος υποβάθμισης ποιότητας	Χαμηλός στις αναφερόμενες δοκιμές	Υψηλός σε ισχυρή καθοδήγηση	Μεσαίος έως υψηλός αν τα features είναι θορυβώδη
Καλύτερη περίπτωση χρήσης	Διαγνωστικά συμπεριφοράς και στοχευμένη παρέμβαση	Γρήγορα πειράματα και αδρή καθοδήγηση	Έρευνα ερμηνευσιμότητας με budget
Κύριο μειονέκτημα	Τα ενδεικτικά στοιχεία οικογένειας μοντέλων είναι ακόμα περιορισμένα	Η αδρή καθοδήγηση μπορεί να παραμορφώσει τις εξόδους	Ακριβό pipeline και αστάθεια features

Αυτή είναι η σύγκριση που έχει σημασία για έναν οδικό χάρτη υλοποίησης AI. Το CNA δεν είναι αυτόματα καλύτερο επειδή είναι νεότερο. Είναι καλύτερο όταν η ομάδα χρειάζεται ένα ακριβές στρώμα παρέμβασης που μπορεί να επιβιώσει από ελέγχους ποιότητας παραγωγής.

Γιατί το CNA αλλάζει την απόφαση καθοδήγησης

Η βασική ιδέα στο CNA είναι αρκετά απλή για να εξηγηθεί σε μια ομάδα πλατφόρμας. Τρέχεις δύο σετ προτροπών μέσα από ένα μοντέλο: ένα θετικό σετ που εκδηλώνει τη στοχευμένη συμπεριφορά, ένα αρνητικό σετ που όχι. Στη συνέχεια καταγράφεις down-projection activations σε όλα τα στρώματα MLP, υπολογίζεις τη μέση διαφορά ανά νευρώνα, και κρατάς το κορυφαίο 0,1% κατά απόλυτη αντίθεση.

Αυτό ακούγεται κοντά σε υπάρχουσες προσαρμοσμένες ενσωματώσεις AI για παρατηρησιμότητα, αλλά η σημαντική διαφορά είναι το εύρος. Το CNA προσπαθεί να εντοπίσει τους νευρώνες που κάνουν τη συμπεριφορική διαχωρισμό. Το Contrastive Activation Addition αντίθετα υπολογίζει μια ευρεία κατεύθυνση καθοδήγησης στο residual stream. Στην πράξη, οι ευρείες κατευθύνσεις είναι συχνά ευκολότερο να προσαρτηθούν σε μια στοίβα λύσεων ενσωμάτωσης AI, αλλά είναι επίσης δυσκολότερο να εξηγηθούν όταν οι έξοδοι αρχίζουν να επαναλαμβάνονται ή να αποκλίνουν.

Το paper του Nous προσθέτει ένα ακόμα πρακτικό φίλτρο: αφαιρεί καθολικούς νευρώνες που εμφανίζονται στις κορυφαίες ενεργοποιήσεις στο 80% ή περισσότερο διαφορετικών προτροπών. Αυτό έχει σημασία. Σε μια συνεργασία με πελάτη, ανακαλύψαμε ότι μια υποτιθέμενη συμπεριφορικά ειδική παρέμβαση στην πραγματικότητα περιόριζε κοινούς νευρώνες δρομολόγησης· το μοντέλο φαινόταν συμβατό σε ένα sandbox και μετά συμπεριφερόταν παράξενα σε καθημερινές εσωτερικές εργασίες. Το βήμα φιλτραρίσματος του CNA είναι μια άμεση απάντηση σε αυτό το είδος αποτυχίας.

Τι λένε τα νούμερα σε Llama και Qwen

Το κύριο αποτέλεσμα δεν είναι διακριτικό. Σε 16 δοκιμασμένα μοντέλα από 1B έως 72B παραμέτρους, η ablation CNA μείωσε απότομα τη συμπεριφορά άρνησης στο JBB-Behaviors για τα περισσότερα instruct variants.

Μερικά ξεχωριστά από το paper:

Llama-3.1-70B-Instruct: 86% άρνηση σε 18%, μείωση 79,1%
Qwen2.5-7B-Instruct: 87% σε 2%, μείωση 97,7%
Qwen2.5-72B-Instruct: 78% σε 8%, μείωση 89,7%
Llama-3.2-3B-Instruct: 84% σε 47%, μείωση 44,0%

Για εμένα, το πιο χρήσιμο metric είναι αυτό που δεν χάλασε. Σύμφωνα με το paper, το CNA διατήρησε την ποιότητα εξόδου πάνω από 0,97 σε όλες τις δοκιμασμένες ισχύς καθοδήγησης, ενώ το CAA έπεσε κάτω από 0,60 σε έξι από οκτώ instruct μοντέλα στη μέγιστη παρέμβαση. Στο MMLU, το CNA παρέμεινε εντός μίας ποσοστιαίας μονάδας από τη βασική γραμμή. Αυτό είναι το προφίλ που θέλω αν αξιολογώ εταιρικές ενσωματώσεις AI που χρειάζονται guardrails χωρίς να καταστρέφουν την απόδοση βασικών εργασιών.

Υπάρχει επίσης ένα δεύτερο check μέσω του StrongREJECT rubric, βαθμολογημένο από το Llama-3.3-70B ως κριτή. Η συμμόρφωση βελτιώθηκε κατά μέσο όρο 6% για τα μοντέλα Llama και 31% για τα μοντέλα Qwen μετά την ablation CNA. Αυτή η διασπορά είναι μια υπενθύμιση ότι η αρχιτεκτονική ενσωμάτωσης AI εξακολουθεί να εξαρτάται από τη συμπεριφορά της οικογένειας μοντέλων. Αν η στοίβα σου υποθέτει ότι μια παρέμβαση λειτουργεί πανομοιότυπα σε όλους τους παρόχους, θα εκπλαγείς.

Πού το CNA υπερτερεί του CAA, και πού όχι

Κόστος εκπαίδευσης

Το CAA και το CNA αποφεύγουν και τα δύο την ενδιάμεση εκπαίδευση. Αυτό και μόνο τα καθιστά πιο ελκυστικά από τα SAE-heavy workflows για ομάδες υπηρεσιών AI consulting που χρειάζονται αποτελέσματα αυτό το τρίμηνο, όχι μετά από ένα ξεχωριστό έργο εκμάθησης features. Τα SAEs μπορεί να είναι χρήσιμα όταν χρειάζεσαι πλουσιότερη ερμηνευσιμότητα, αλλά προσθέτουν υποδομή, overhead συντονισμού, και μια ακόμα επιφάνεια αποτυχίας.

Ακρίβεια ελέγχου

Εδώ το CNA κερδίζει σαφώς. Το CAA πιέζει ολόκληρη την αναπαράσταση στρώσης σε μια επιλεγμένη κατεύθυνση. Το CNA στοχεύει μεμονωμένους νευρώνες με τη μεγαλύτερη αντιθετική διαφορά. Αν χρειάζεσαι μια αδρή επιχειρησιακή ώθηση, το CAA μπορεί ακόμα να αρκεί. Αν χρειάζεσαι μια αραιή παρέμβαση που μπορείς να εξηγήσεις, να δοκιμάσεις, και να αναιρέσεις καθαρά, το CNA είναι η καλύτερη επιλογή.

Κίνδυνος για ποιότητα εξόδου

Το ισχυρότερο πρακτικό σημείο του paper είναι η διατήρηση ποιότητας. Το CAA παρήγαγε επαναλαμβανόμενες λέξεις και ασυνεκτικό κείμενο σε ισχυρές τιμές καθοδήγησης σε διάφορα μοντέλα. Έχω δει αυτό το μοτίβο σε προσαρμοσμένες ενσωματώσεις AI όπου ένα στρώμα ελέγχου φαινόταν αποδεκτό σε ένα στενό benchmark και μετά κατέρρευσε σε εκτεταμένες εταιρικές προτροπές. Το CNA φαίνεται λιγότερο εύθραυστο μέχρι στιγμής, αλλά μόνο εντός των οικογενειών μοντέλων που δοκιμάστηκαν.

Βάθος ερμηνευσιμότητας

Τα SAEs εξακολουθούν να έχουν επιχείρημα εδώ. Μπορούν να εκθέσουν εκμαθευμένα latent features που μπορεί να είναι ευκολότερα για ερευνητικές ομάδες να επισημανθούν και να επιθεωρηθούν με την πάροδο του χρόνου. Το CNA είναι ελαφρύτερο, αλλά βασίζεται σε ακατέργαστες διαφορές ενεργοποίησης, όχι σε μια εκμαθευμένη βάση features. Οπότε αν ο στόχος της ομάδας σου είναι η εξηγηματική ανάλυση παρά η επιχειρησιακή καθοδήγηση, τα SAEs δεν είναι παρωχημένα.

Τι αποκαλύπτουν τα αποτελέσματα base-model για την αρχιτεκτονική ενσωμάτωσης AI

Το πιο ενδιαφέρον τεχνικό εύρημα δεν είναι η μείωση άρνησης. Είναι ότι η δομή διαχωρισμού των τελευταίων στρωμάτων υπάρχει ήδη στα base models πριν το alignment fine-tuning. Το Nous αναφέρει ότι αυτοί οι νευρώνες διαχωρισμού συσσωρεύονται στο τελευταίο 10% έως 25% των στρωμάτων και στα base και στα instruct variants, αλλά μόνο τα instruct μοντέλα δείχνουν αιτιώδη συμπεριφορική αλλαγή όταν το κύκλωμα ablated ή amplified.

Αυτό σημαίνει ότι το fine-tuning φαίνεται να αλλάζει περισσότερο τη λειτουργία παρά την τοποθεσία. Το paper αναφέρει μόνο 8% έως 29% επικάλυψη σε matched base versus instruct circuit νευρώνες. Ίδια ευρεία περιοχή τελευταίων στρωμάτων, διαφορετικοί πραγματικοί νευρώνες.

Από την οπτική ενσωμάτωσης AI API, αυτό έχει σημασία επειδή επιχειρηματολογεί ενάντια στη μεταχείριση της συμπεριφοράς ασφάλειας ως απλού policy wrapper. Μέρος της συμπεριφοράς ζει σε μια επαναχρησιμοποιήσιμη δομική υποδοχή μέσα στο μοντέλο. Αλλά οι ακριβείς νευρώνες που μεταφέρουν αυτή τη λειτουργία μπορούν να αναδιαρθρωθούν από το alignment. Οπότε η αρχιτεκτονική ενσωμάτωσης AI σου πρέπει να χωρίσει τρία στρώματα ελέγχου:

Έλεγχοι προτροπής και πολιτικής για επιχειρησιακούς κανόνες
Διαγνωστικά εσωτερικά του μοντέλου για ιχνηλάτηση συμπεριφοράς
Παρέμβαση χρόνου εκτέλεσης μόνο μετά από δοκιμή ποιότητας και ικανότητας

Αυτή η αλληλουχία είναι ιδιαίτερα σχετική σε μια φάση Fractional AI Director, όπου η δουλειά είναι να αποφασίσεις τι ανήκει στη διακυβέρνηση και τι στην υλοποίηση. Η πλησιέστερη υπηρεσία εδώ είναι το AI Personalized Learning with Integration στο https://encorp.ai/en/services/ai-personalized-learning-paths, επειδή αντανακλά ένα πρόβλημα σχεδιασμού ενσωμάτωσης σε επίπεδο ηγεσίας όπου η συμπεριφορά, η ροή εργασίας και οι έλεγχοι μοντέλου πρέπει να οριοθετηθούν πριν την ανάπτυξη, ακόμα και αν αυτό το συγκεκριμένο άρθρο είναι ευρύτερο από την περίπτωση χρήσης εκπαίδευσης.

Η ετυμηγορία μου: πότε να επιλέξεις CNA, CAA ή SAEs

Επίλεξε CNA αν χρειάζεσαι στοχευμένη καθοδήγηση συμπεριφοράς, χαμηλή προστιθέμενη υποδομή, και καθαρότερο δρόμο προς δοκιμές παραγωγής. Είναι η ισχυρότερη επιλογή εδώ για ομάδες που σχεδιάζουν λύσεις ενσωμάτωσης AI γύρω από ανάλυση άρνησης, debugging συμπεριφοράς, ή αραιή παρέμβαση.

Επίλεξε CAA αν χρειάζεσαι ένα γρήγορο πείραμα, μπορείς να ανεχτείς αδρό έλεγχο, και είσαι μακριά από απαιτήσεις ποιότητας παραγωγής. Είναι ακόμα χρήσιμο ως φθηνή βασική γραμμή σε έναν οδικό χάρτη υλοποίησης AI.

Επίλεξε SAEs αν ο κύριος στόχος σου είναι η βαθύτερη ανάλυση features και η ομάδα σου μπορεί να αντέξει το επιπλέον κόστος εκπαίδευσης και συντήρησης. Εξακολουθούν να έχουν νόημα σε εταιρικές ενσωματώσεις AI με έμφαση στην έρευνα όπου το βάθος ερμηνευσιμότητας έχει μεγαλύτερη σημασία από την απλότητα ανάπτυξης.

Το μη προφανές μάθημα από το CNA είναι ότι η καθοδήγηση μοντέλου γίνεται επιλογή αρχιτεκτονικής, όχι απλώς κόλπο προτροπής. Αν αυτό το αποτέλεσμα διατηρηθεί πέρα από Llama και Qwen, περισσότερες ομάδες θα χρειαστεί να αποφασίσουν αν ο έλεγχος συμπεριφοράς ανήκει εκτός του μοντέλου, εντός του μοντέλου, ή μοιρασμένος και στα δύο.

Σχετικά άρθρα

CNA, CAA και SAEs με μια ματιά

Κριτήριο	CNA	CAA	Καθοδήγηση βάσει SAE
Στόχος παρέμβασης	Μεμονωμένοι νευρώνες MLP	Κατεύθυνση residual stream	Εκμαθευμένα latent features
Απαιτείται επιπλέον εκπαίδευση	Όχι	Όχι	Ναι
Μέθοδος χρόνου εκτέλεσης	Hooks ενεργοποίησης forward-pass	Προσθήκη διανύσματος καθοδήγησης κατά την inference	Encode/decode μέσω εκπαιδευμένων SAE features
Ειδικότητα	Υψηλή, επίπεδο αραιού κυκλώματος	Μεσαία, ευρεία στρώση	Δυνητικά υψηλή, εξαρτάται από ποιότητα SAE
Κίνδυνος υποβάθμισης ποιότητας	Χαμηλός στις αναφερόμενες δοκιμές	Υψηλός σε ισχυρή καθοδήγηση	Μεσαίος έως υψηλός αν τα features είναι θορυβώδη
Καλύτερη περίπτωση χρήσης	Διαγνωστικά συμπεριφοράς και στοχευμένη παρέμβαση	Γρήγορα πειράματα και αδρή καθοδήγηση	Έρευνα ερμηνευσιμότητας με budget
Κύριο μειονέκτημα	Τα ενδεικτικά στοιχεία οικογένειας μοντέλων είναι ακόμα περιορισμένα	Η αδρή καθοδήγηση μπορεί να παραμορφώσει τις εξόδους	Ακριβό pipeline και αστάθεια features

Γιατί το CNA αλλάζει την απόφαση καθοδήγησης

Τι λένε τα νούμερα σε Llama και Qwen

Μερικά ξεχωριστά από το paper:

Llama-3.1-70B-Instruct: 86% άρνηση σε 18%, μείωση 79,1%
Qwen2.5-7B-Instruct: 87% σε 2%, μείωση 97,7%
Qwen2.5-72B-Instruct: 78% σε 8%, μείωση 89,7%
Llama-3.2-3B-Instruct: 84% σε 47%, μείωση 44,0%