Εξατομικευμένες Ενσωματώσεις AI μετά το Parallax Attention
Ερευνητές από το Πανεπιστήμιο Northwestern, το Tilde Research και το Πανεπιστήμιο της Ουάσινγκτον παρουσίασαν το Parallax στις 31 Μαΐου 2026: έναν παραμετροποιημένο σχεδιασμό τοπικής γραμμικής προσοχής που διατηρεί το softmax και προσθέτει έναν κλαδάκι διόρθωσης συνδιακύμανσης με μάθηση. Αυτό έχει σημασία επειδή το μεγαλύτερο μέρος της έρευνας για την αποδοτικότητα της προσοχής προσπάθησε να αντικαταστήσει εντελώς το softmax· το Parallax αντίθετα ρωτά αν καλύτεροι πυρήνες και καλύτερη προεκπαίδευση μπορούν να προέλθουν από τη διατήρηση της υπάρχουσας διαδρομής και την προσθήκη μιας δεύτερης. Σύμφωνα με τη σύνοψη του MarkTechPost για την εργασία και τη συνδεδεμένη εργασία στο arXiv, η πρώιμη απάντηση είναι ναι, αλλά μόνο υπό ένα στενό σύνολο επιλογών υλοποίησης. Αυτό που πραγματικά σημαίνει είναι ότι οι εξατομικευμένες ενσωματώσεις AI γύρω από την αρχιτεκτονική μοντέλων γίνονται όλο και λιγότερο θέμα ανταλλαγής ενός module με ένα άλλο και περισσότερο θέμα προσαρμογής πυρήνων, βελτιστοποιητών και περιορισμών ανάπτυξης μαζί.
Το Parallax διατηρεί το softmax, κάτι που αλλάζει το ερώτημα υλοποίησης
Το Parallax είναι αξιοσημείωτο όχι επειδή εφευρίσκει μια εντελώς νέα οικογένεια προσοχής, αλλά επειδή διατηρεί μια διαδρομή που οι επιχειρήσεις ήδη κατανοούν. Στην εργασία, το νέο στρώμα μπορεί να μειωθεί ακριβώς στην τυπική προσοχή softmax θέτοντας τον μαθημένο πίνακα προβολής σε μηδέν. Αυτό ακούγεται ακαδημαϊκό, αλλά για επιχειρηματικές ενσωματώσεις AI αλλάζει τη διαδρομή μετάβασης: οι ομάδες μπορούν να εκσυγχρονίσουν ένα υπάρχον checkpoint και να κάνουν fine-tuning, αντί να πετάξουν όλη τη στοίβα και να επανεκπαιδεύσουν από την αρχή.
Εδώ είναι που η αρχιτεκτονική ενσωμάτωσης AI γίνεται η πραγματική ιστορία. Πολλές υπηρεσίες υλοποίησης AI εστιάζουν πρώτα στην επιλογή μοντέλου και δεύτερον στην προσαρμογή συστημάτων. Το Parallax αντιστρέφει αυτή τη σειρά. Αν μια ομάδα ήδη βασίζεται σε εργαλεία συμβατά με Transformer, καθιερωμένες υποθέσεις serving και πυρήνες τύπου FlashAttention, το πιο σχετικό ερώτημα δεν είναι αν η τοπική γραμμική προσοχή είναι θεωρητικά καλύτερη. Είναι αν ένας κλαδάκι διόρθωσης με μάθηση μπορεί να προστεθεί χωρίς να σπάσει η περιβάλλουσα διαδρομή εκπαίδευσης και συμπέρασης.
Ακολουθεί μια πρακτική συνέπεια: οι εξατομικευμένες ενσωματώσεις AI για αυτή την κατηγορία αλλαγών αρχιτεκτονικής πρέπει να αξιολογούνται ως επαυξητική αρχιτεκτονική εργασία, όχι ως υιοθέτηση πράσινου πεδίου έρευνας. Αυτό μειώνει ένα εμπόδιο για δοκιμή, αλλά ταυτόχρονα αυστηροποιεί το ποιοτικό όριο για την υποστήριξη πυρήνων, την επιλογή βελτιστοποιητή και την πειθαρχία fine-tuning.
Το ισχυρότερο σήμα σε αυτή την εργασία δεν είναι ότι το softmax ήταν λάθος. Είναι ότι η πρόοδος στην αρχιτεκτονική μπορεί να έρθει από τη διατήρηση της κυρίαρχης διεπαφής ενώ αλλάζει η οικονομία γύρω από αυτή.
Γιατί η αφαίρεση του επιλυτή συζυγών κλίσεων έχει μεγαλύτερη σημασία από τα νέα μαθηματικά
Η πιο σημαντική επιχειρησιακή κίνηση της εργασίας είναι η αφαίρεση του επιλυτή συζυγών κλίσεων ανά ερώτημα του Local Linear Attention. Το ακριβές LLA απαιτεί από το σύστημα να λύνει ένα γραμμικό σύστημα για κάθε ερώτημα. Στην κλίμακα προεκπαίδευσης, αυτό δημιουργεί πίεση I/O, ένα δύσκολο συμβιβασμό κανονικοποίησης-έναντι-εκφραστικότητας και κακή συμβατότητα με εκπαίδευση χαμηλής ακρίβειας. Αυτά δεν είναι παράπλευρα ζητήματα. Είναι ακριβώς οι λόγοι που πολλές υποσχόμενες ερευνητικές ιδέες αποτυγχάνουν σε υπηρεσίες παραγωγικής ανάπτυξης AI.
Το Parallax αντικαθιστά αυτόν τον επιλυτή με έναν μαθημένο προβολέα, γραμμένο ως WR που δρα στην είσοδο του στρώματος. Ουσιαστικά, το μοντέλο μαθαίνει πώς να διερευνά άμεσα τη συνδιακύμανση key-value αντί να υπολογίζει την τοπική γραμμική διόρθωση από την αρχή κατά το χρόνο ερωτήματος. Το όφελος δεν είναι απλώς κομψότητα. Είναι η αναπτυξιμότητα.
Για ομάδες που χτίζουν λύσεις ενσωμάτωσης AI, αυτή είναι η διαφορά μεταξύ ενός μηχανισμού προσοχής που παραμένει παγιδευμένος σε ερευνητικό κώδικα και ενός που μπορεί να αξιολογηθεί μέσα σε μια σύγχρονη στοίβα. Τα καθεστώτα BF16 και παρόμοια χαμηλότερης ακρίβειας δεν είναι προαιρετικά σε μεγάλης κλίμακας εργασία· είναι απαραίτητα για τον έλεγχο κόστους σε τρέχουσες υποδομές GPU. Ένας μέθοδος που παλεύει με αυτούς τους περιορισμούς συνήθως πεθαίνει πριν τα οφέλη ακρίβειάς της μπορέσουν να έχουν σημασία.
Αυτός είναι ο λόγος που η καλύτερη εσωτερική αναφορά εφαρμογής εδώ είναι εξατομικευμένη ενσωμάτωση AI: Το Parallax δεν είναι τόσο μια λειτουργία plug-in όσο μια αλλαγή σε επίπεδο συστημάτων που πρέπει να συνυπάρχει με κώδικα μοντέλου, πυρήνες, λογική serving και στόχους κόστους. Από την οπτική ενός οδικού χάρτη υλοποίησης AI, η αφαίρεση του επιλυτή έχει σημασία επειδή καθιστά την αρχιτεκτονική ευανάγνωστη για το υπόλοιπο της στοίβας.
Πώς το Parallax αλλάζει την ιστορία του υλικού σε GPUs Hopper
Η εργασία υποστηρίζει ότι το Parallax προσθέτει υπολογισμό σκόπιμα ενώ διατηρεί την ίδια δομή ροής key-value που χρησιμοποιείται από το FlashAttention. Αυτή είναι μια λεπτή αλλά σημαντική μετατόπιση. Οι περισσότερες συζητήσεις αποδοτικότητας στην προσοχή εστιάζουν στη μείωση πράξεων. Το Parallax αντίθετα προσπαθεί να κάνει επιπλέον πράξεις φθηνές επαναχρησιμοποιώντας την κίνηση μνήμης που ήδη υπάρχει.
Σύμφωνα με την εργασία, η αριθμητική ένταση διπλασιάζεται περίπου στο καθεστώς όπου η εργασία key-value κυριαρχεί. Στις GPUs NVIDIA Hopper, αυτό έχει σημασία επειδή τα καλύτερα κέρδη απόδοσης προέρχονται όλο και περισσότερο από τη μετακίνηση φορτίων εργασίας προς ένα πιο υπολογιστικά δεσμευμένο καθεστώς παρά προς ένα μνημικά δεσμευμένο. Ο πυρήνας decode CuTeDSL των ερευνητών φέρεται να αντιστοιχούσε ή να ξεπερνούσε το FlashAttention 2 και το FlashAttention 3 σε όλα τα δοκιμασμένα σενάρια σε υλικό H200, με σημειωμένες επιταχύνσεις 1,54x σε υπολογιστικά αντιστοιχισμένο σενάριο και 1,14x σε I/O αντιστοιχισμένο σενάριο.
Για εξατομικευμένες ενσωματώσεις AI, το δευτερογενές αποτέλεσμα είναι μεγαλύτερο από τον πίνακα αναφοράς. Αν ένας νέος μηχανισμός μπορεί να βασιστεί στις ίδιες υποθέσεις streaming με το FlashAttention αντί να απαιτεί ένα ξεχωριστό μοτίβο μνήμης, το κόστος πειραματισμού μειώνεται. Οι ομάδες δεν χρειάζεται να επιλέγουν τόσο συχνά μεταξύ ερευνητικής καινοτομίας και υλικού πραγματισμού.
Η παγίδα είναι ότι αυτό παραμένει εργασία ευαίσθητη σε πυρήνες. Μια ομάδα επιχειρησιακού λογισμικού χωρίς τεχνογνωσία GPU χαμηλού επιπέδου μπορεί να διαβάσει την αναφορά και να υποθέσει ότι η ίδια η αρχιτεκτονική εγγυάται την επιτάχυνση. Δεν το κάνει. Το αποτέλεσμα εξαρτάται από τη δημιουργία κώδικα, τη ρύθμιση πυρήνων και την ακριβή διαδρομή decode. Αυτός είναι ο λόγος που οι υπηρεσίες συμβουλευτικής AI γύρω από την αρχιτεκτονική πρέπει να αντιμετωπίζουν την ωριμότητα πυρήνων ως κριτήριο go/no-go, όχι ως μεταγενέστερη σκέψη.
Τα κέρδη προεκπαίδευσης είναι πραγματικά, αλλά στενότερα από ό,τι υποδεικνύει ο τίτλος
Στην πλευρά ποιότητας, το Parallax δοκιμάστηκε σε κλίμακες 0,6B και 1,7B χρησιμοποιώντας αρχιτεκτονική Qwen-3 στο TorchTitan και εκπαιδεύτηκε στο Ultra-FineWeb με παράθυρο πλαισίου 4096. Οι βασικές γραμμές περιλάμβαναν Transformer softmax attention, Mamba, Gated DeltaNet, MesaNet και Kimi DeltaAttention. Στο MAD-Benchmark, η εργασία αναφέρει κορυφαίο μέσο σκορ 0,716. Στα 1,7B, η μέση κατώτατη ακρίβεια έφτασε το 62,45 έναντι 61,43 για τη βασική γραμμή Transformer.
Αυτά είναι σημαντικά κέρδη, ειδικά επειδή οι συγγραφείς έτρεξαν επίσης ελέγχους με αντιστοίχιση παραμέτρων και υπολογισμών. Αυτό ενισχύει την υπόθεση ότι ο ίδιος ο κλαδάκι διόρθωσης συνεισφέρει κάτι πέρα από την απλή προσθήκη περισσότερων παραμέτρων ή FLOPs. Με άλλα λόγια, η αρχιτεκτονική φαίνεται να κερδίζει μέρος του πλεονεκτήματός της.
Παρ' όλα αυτά, η ιστορία υλοποίησης πρέπει να παραμείνει ισορροπημένη. Αυτά δεν είναι τρέξιμα κλίμακας frontier. Η εργασία σταματά στο 1,7B, χωρίς mixture-of-experts, πολύ μεγάλα παράθυρα πλαισίου ή τα μεγαλύτερα προϋπολογισμά εκπαίδευσης που συχνά εκθέτουν νέες λειτουργίες αποτυχίας. Για υπηρεσίες υλοποίησης AI που αξιολογούν την ετοιμότητα παραγωγής, αυτό έχει σημασία. Ένας μηχανισμός μπορεί να είναι υποσχόμενος σε κλίμακα κάτω των 2B και παρ' όλα αυτά να αποτυγχάνει να δικαιολογήσει τη μετάβαση σε ένα μεγαλύτερο χαρτοφυλάκιο εκπαίδευσης.
Μια συγκριτική οπτική είναι χρήσιμη εδώ. Τα μοντέλα χώρου κατάστασης τύπου Mamba και άλλες εναλλακτικές συχνά ζητούν από τις ομάδες να αποδεχθούν βαθύτερες επανεγγραφές σε αντάλλαγμα για οφέλη αποδοτικότητας ή μεγάλου πλαισίου. Το Parallax παίρνει μια διαφορετική θέση: διατήρησε τη διεπαφή Transformer, διατήρησε το softmax και εισήγαγε έναν κλαδάκι που μπορεί να βελτιώσει τόσο την αξιοποίηση υλικού όσο και την ποιότητα μοντέλου. Αυτό είναι ένα πιο συντηρητικό στοίχημα αρχιτεκτονικής, το οποίο είναι ακριβώς ο λόγος που οι ομάδες επιχειρηματικών ενσωματώσεων AI θα το βρουν ελκυστικό.
Το Muon είναι πιθανώς το bottleneck υιοθέτησης, όχι το ίδιο το Parallax
Η πιο έντονη επιφύλαξη στην εργασία είναι η εξάρτηση από τον βελτιστοποιητή. Υπό το Muon, ο λόγος διόρθωσης-προς-έξοδο του Parallax ανεβαίνει δυνατά σε βαθύτερα στρώματα, και η μαθημένη προβολή φαίνεται να διατηρεί υγιέστερο σταθερό βαθμό. Υπό το AdamW, το πλεονέκτημα συρρικνώνεται ή εξαφανίζεται, και το μοντέλο συχνά μαθαίνει να καταστέλλει τον κλαδάκι διόρθωσης. Το παράρτημα σημειώνει επίσης ότι το πλεονέκτημα διαβρώνεται κατά τη φάση σταθερής αποσύνθεσης βαρών.
Αυτό είναι κάτι παραπάνω από μια υποσημείωση βελτιστοποιητή. Υποδεικνύει ότι η αρχιτεκτονική ενσωμάτωσης AI γίνεται συνεξαρτώμενη από συνταγές εκπαίδευσης με βαθύτερο τρόπο. Ένα συστατικό μοντέλου που λειτουργεί μόνο υπό συγκεκριμένο βελτιστοποιητή μπορεί ακόμα να είναι πολύτιμο, αλλά είναι δυσκολότερο να ενσωματωθεί σε υπηρεσίες ανάπτυξης επιχειρηματικού AI όπου η αναπαραγωγιμότητα, η οικεία ομάδα και η τυποποίηση MLOps έχουν σημασία.
Για ομάδες ημιαγωγών και υλικού GPU, το μήνυμα είναι διαφορετικό. Αν το Parallax συνεχίσει να δείχνει κέρδη μόνο όταν η αρχιτεκτονική και ο βελτιστοποιητής επιλέγονται από κοινού, τότε η μελλοντική εργασία απόδοσης μπορεί να χρειάζεται να αξιολογεί πλήρεις συνταγές εκπαίδευσης, όχι μεμονωμένους πυρήνες. Αυτό αλλάζει τη λογική προμήθειας, το σχεδιασμό πειραματισμού και την απόδοση απόδοσης.
Για ομάδες επιχειρηματικού λογισμικού, το ερώτημα γίνεται απλούστερο: έχουν την όρεξη να αλλάξουν πολιτική βελτιστοποιητή για να πάρουν το αρχιτεκτονικό κέρδος; Αν η απάντηση είναι όχι, το Parallax μπορεί να παραμείνει μια ενδιαφέρουσα ερευνητική κατεύθυνση παρά ένα άμεσο στοιχείο οδικού χάρτη υλοποίησης.
Πού ταιριάζει το Parallax σε έναν οδικό χάρτη παραγωγικού AI
Οι καλύτεροι πρώιμοι υποψήφιοι είναι ομάδες που ήδη εκπαιδεύουν ή προσαρμόζουν προσαρμοσμένα LLMs, είναι ήδη άνετες με υποδομή τύπου FlashAttention και είναι ήδη διατεθειμένες να δοκιμάσουν αλλαγές βελτιστοποιητή παράλληλα με αλλαγές αρχιτεκτονικής. Σε αυτό το πλαίσιο, το Parallax μοιάζει με έναν από τους πιο πιθανούς δρόμους επιχειρηματικών ενσωματώσεων AI επειδή δεν απαιτεί πλήρη αποχώρηση από τη στοίβα Transformer.
Το ασθενέστερο ταίριασμα είναι για ομάδες που αναζητούν λύσεις ενσωμάτωσης AI έτοιμες προς χρήση με ελάχιστη διατάραξη στοίβας εκπαίδευσης. Αν ο βελτιστοποιητής παραμείνει AdamW, αν το εύρος μηχανικής πυρήνων είναι λεπτό, ή αν η κλίμακα μοντέλου είναι πολύ πάνω από το αναφερόμενο εύρος της εργασίας, η εργασία προσφέρει περισσότερο λόγο παρακολούθησης παρά μετάβασης.
Ένας λογικός οδικός χάρτης υλοποίησης AI θα σταδιοποιούσε λοιπόν την εργασία σε τρεις πύλες: επιβεβαίωση μετατροπής checkpoint και συμπεριφοράς fine-tuning, επικύρωση συμπεριφοράς πυρήνα στο στόχο υλικού και μόνο τότε δοκιμή συν-σχεδιασμού βελτιστοποιητή. Αυτή η αλληλουχία μειώνει τον κίνδυνο να συγχέεται ένα τεχνούργημα υλικού με μια βελτίωση μοντέλου, ή αντίστροφα.
Για ομάδες που αξιολογούν αν αυτού του είδους η αλλαγή αρχιτεκτονικής ανήκει σε έναν οδικό χάρτη βραχυπρόθεσμης προτεραιότητας, η Encorp προσφέρει δωρεάν 30λεπτο audit AI Director για να εξετάσει την καταλληλότητα μοντέλου, τον κίνδυνο ενσωμάτωσης και τις προτεραιότητες υλοποίησης: κλείστε το audit.
Συχνές Ερωτήσεις
Μπορεί ένα προεκπαιδευμένο Transformer να υιοθετήσει το Parallax χωρίς πλήρη επανεκπαίδευση;
Ναι. Η εργασία λέει ότι το Parallax μειώνεται ακριβώς στην προσοχή softmax όταν ο νέος πίνακας προβολής είναι μηδέν, οπότε ένα προεκπαιδευμένο checkpoint μπορεί να μετατραπεί προσθέτοντας τον κλαδάκι και κάνοντας fine-tuning αντί για επανεκπαίδευση από την αρχή.
Είναι το Parallax κυρίως παιχνίδι ταχύτητας ή ποιότητας;
Μέχρι στιγμής, φαίνεται να είναι και τα δύο. Η εργασία αναφέρει κέρδη πυρήνα decode σε υλικό H200 και κέρδη ακρίβειας ή perplexity σε κλίμακα 0,6B και 1,7B. Αλλά και τα δύο εξαρτώνται από λεπτομέρειες υλοποίησης, ειδικά την επιλογή βελτιστοποιητή.
Ποιο είναι το κύριο εμπόδιο για υιοθέτηση σε παραγωγή;
Αυτή τη στιγμή, είναι η εξάρτηση από τον βελτιστοποιητή. Τα ισχυρότερα αποτελέσματα έρχονται υπό το Muon, ενώ το AdamW συχνά καταστέλλει τον κλαδάκι διόρθωσης. Μέχρι να κατανοηθεί καλύτερα αυτή η αλληλεπίδραση σε μεγαλύτερη κλίμακα, οι περισσότερες ομάδες πρέπει να αντιμετωπίζουν το Parallax ως υποψήφιο πιλότο παρά ως προεπιλεγμένη διαδρομή μετάβασης.
Martin Kuvandzhiev
CEO and Founder of Encorp.io with expertise in AI and business transformation