KI-Agenten-Entwicklung trifft auf NVIDIAs RTL-Worktrees
NVIDIA Research stellte HORIZON am 4. Juli 2026 als Framework für KI-Agenten-Entwicklung in der Hardware-Entwicklung vor, das RTL-Arbeit als Code-Evolution auf Repository-Ebene behandelt statt als einmalige Generierung. Das ist relevant, weil es das Agenten-Design von plausibler Code-Ausgabe auf ausführbare Akzeptanz verschiebt, wobei Git-Commits als harte Checkpoints fungieren. Laut einer Zusammenfassung des Papers bei MarkTechPost erreichte das System 100%ige Vollständigkeit in den evaluierten RTL-Benchmark-Suites.
NVIDIAs HORIZON macht RTL zu einer git-nativen Agenten-Schleife
Ich lese HORIZON weniger als Modell-Geschichte und mehr als Workflow-Geschichte. Das Forschungsteam von NVIDIA Research behauptet nicht, dass ein größeres Backbone plötzlich Hardware-Design gelöst hätte. Sie sagen, dass die Arbeitseinheit falsch war. Statt einem Modell eine fertige Verilog-Antwort abzuverlangen, platziert HORIZON die Aufgabe in einem isolierten Git-Worktree, bearbeitet Dateien, führt Evaluatoren aus und speichert den Fortschritt nur, wenn das Gate bestanden wird.
Diese Unterscheidung ist in Halbleiter- und EDA-Teams wichtig, weil plausibles RTL günstig, aber bestandenes RTL teuer ist. Ein Modul kann richtig aussehen und trotzdem beim Reset-Verhalten, der Bit-Breiten-Handhabung oder bei Simulator-Edge-Cases scheitern. HORIZON macht das Repository, nicht den Prompt, zur Betriebsoberfläche.
Das Headline-Ergebnis ist stark: 100%ige Vollständigkeit bei ChipBench, RTLLM, Verilog-Eval und CVDP im HORIZON-Paper auf arXiv, wobei das Paper vermerkt, dass ein verbleibender Fehler auf einen Defekt im Benchmark-Harness und nicht auf ein Agenten-Versagen zurückzuführen war. Aber die wichtigere Behauptung ist architektonisch: Ausführbares Feedback ist die Schleife.
Wie die Quellenzusammenfassung es paraphrasiert: „Agentenbasiertes Hardware-Design ist nicht gelöst.“ Diese Vorsicht ist wichtig. Das Paper meldet einen Meilenstein, keine Abschluss.
Wie der Markdown-Harness zum Projekt-Paket wird
Die operatorenseitige Eingabe ist ein strukturierter Markdown-Harness mit vier Teilen: Ziel, Domänen-Leitfaden, Evaluator-Spezifikation und Akzeptanzprädikat. Dieses Design gefällt mir, weil es ein Team zwingt, vor dem Start des Agenten aufzuschreiben, was Erfolg bedeutet.
In der Praxis wird der Harness zum Projekt-Paket, das die Agenten-Richtlinie, den ausführbaren Evaluator, die Akzeptanzregel, das Versionskontroll-Verhalten und die Domänen-Skills enthält. Für RTL kann dieser Evaluator Kompilierung, Simulation, Assertions und Coverage-Extraktion umfassen. Mit anderen Worten: HORIZON generiert nicht nur Code; es generiert Code in einer Umgebung, die ihn ablehnen kann.
Das ist ein nützliches Muster für benutzerdefinierte KI-Agenten jenseits der Hardware. In einem Kundenprojekt war der größte Fehlermodus nicht die Qualität des Modells. Es war das Fehlen einer ausführbaren Bestehensbedingung. Wenn die einzige Metrik „sieht gut aus“ lautet, driftet ein Agent ab. Wenn die Metrik „besteht diesen Test-Harness“ lautet, wird die Schleife handhabbar.
Das Paper auf arXiv macht auch einen wichtigen Implementierungspunkt: Der gleiche Slot, der in RTL für die Simulation genutzt wird, könnte in anderen Domänen Unit-Tests, Theorembeweiser, Profiler oder Synthese-Tools enthalten. Deshalb ist diese Forschung für breitere Enterprise-KI-Integrationen genauso relevant wie für Chip-Teams.
Was Repository-Evolution für Hardware-Teams bedeutet
Hier ist der Teil, den ich von Engineering-Leaders als Erstes übernommen erwarte. Git ist in HORIZON nicht nur Logging. Es ist die Control Plane. Diffs zeigen den vorgeschlagenen Zustandswechsel, Commits markieren akzeptierte Checkpoints und Notes bewahren Evaluator-Evidenz. Das ist operativ sauberer, als einen separaten Speicher auf einen Agenten-Stack zu bolzen und zu hoffen, dass er konsistent bleibt.
Ich habe KI-Workflow-Automatisierungs-Projekte scheitern sehen, weil jeder Lauf partielle Bearbeitungen, nicht nachvollziehbare Wiederholungen und mehrdeutige Testausgaben hinterließ. HORIZONs Schleife ist strenger: Inspektiere gestagte Änderungen, führe den Evaluator aus, commite bei Bestehen, logge bei Fehlschlag. Das macht Rollback, Replay und Audit deutlich einfacher.
Für Hardware-Teams sind die kurzfristigen Anwendungsfälle ziemlich direkt:
- RTL-Generierung aus natürlichsprachigen Spezifikationen
- Code-Vervollständigung innerhalb bestehender Module
- Modul-Modifikation und -Wiederverwendung
- Test-Stimulus-, Checker- und Assertion-Generierung
- Debugging anhand von Simulator-Feedback
Diese decken sich eng mit den Kategorien in CVDP und RTLLM-2.0. Sie decken sich auch damit, wie KI-Automatisierungs-Agenten in echten Engineering-Umgebungen deployt werden: nicht als universelle Copilots, sondern als Arbeiter in begrenzten Schleifen.
Es gibt auch einen ökonomischen Aspekt. Der Bericht sagt, dass die neun CVDP-Kategorien 203,9 Millionen Tokens verbrauchten, oder 97,1% des gesamten Token-Verbrauchs, während etwa 91% aller Tokens Cached-Input waren. Das sagt mir, dass das Kostenproblem verschoben ist. Sobald die Korrektheit hoch ist, hören Teams auf zu diskutieren, ob der Agent die Aufgabe lösen kann, und fragen stattdessen, wie viele Iterationen es braucht, um es günstig zu tun.
Woher die Benchmark-Gewinne kommen – und wo nicht
Die 100%-Zahl braucht Kontext. HORIZONs aggregierte Erst-Iterations-Bestandsrate lag bei 47,8%, nicht bei 100%. Die Endpunktzahl kam durch iterative Reparatur. Das ist ein Feature, keine Schwäche, aber es ändert, wie ich KI-Agenten-Entwicklung intern benchmarken würde.
Wenn ein Team nur Pass@1 trackt, verpasst es, wofür dieses System gebaut ist. HORIZON ist dafür ausgelegt, einen Teil des Debuggings auf spätere Iterationen zu verschieben. Bei einfacheren Suites wie RTLLM-2.0 und Verilog-Eval-v2 erfolgte die Konvergenz innerhalb von zwei Iterationen. Bei schwierigeren Kategorien war der Tail lang. CVDP CID 013 Checker-Generierung startete bei 3,8% und erreichte 100% bei Iteration 19. CID 002 Code-Vervollständigung brauchte 82 Iterationen und 56,0 Millionen Tokens.
Diese Spannweite ist das echte operative Signal. Einige Aufgaben sind fast bereit für Routine-Automatisierung. Andere sind technisch lösbar, aber kostenintensiv genug, dass man zunächst eine bessere KI-Integrationsarchitektur wünschen würde, bevor man im großen Maßstab deployt.
Ich denke auch, dass das Detail des festen Backbones wichtig ist. Das Paper sagt, dass GPT-5.3 während der gesamten Kampagne fest blieb. HORIZON zeichnet Zustandsübergänge mit semi-Markov-Sprache auf, trainiert aber keine neue RL-Richtlinie während des Laufs. Das bedeutet, dass die Leistungsverbesserung aus Schleifen-Design, Evaluationsdisziplin und Repository-Speicher kommt, nicht aus Online-Gewichts-Updates.
Für Enterprise-Teams, die sich KI-Workflow-Automatisierungs-Services ansehen, ist das die übertragbare Lektion. Bessere Schleifen schlagen oft mehr Modell-Tüftelei.
Die Grenzen: Den Harness bestehen ist nicht dasselbe wie Design lösen
Hier finde ich das Paper erfrischend ehrlich. Den sichtbaren Harness bestehen ist nicht dasselbe wie die volle Design-Absicht zu erfüllen. Die Autoren nennen explizit Reward-Hacking- und Over-Solving-Risiken. Wenn der Evaluator nur einen Teil der Spezifikation sieht, kann der Agent für den sichtbaren Test optimieren statt für die echte Anforderung.
Dieses Problem ist nicht einzigartig für RTL. Es zeigt sich in Software-Repos, Support-Automatisierungen und internen Tooling-Agenten ebenfalls. Wenn Ihr Akzeptanzprädikat oberflächlich ist, wird Ihr Erfolgsmetrik oberflächlich sein.
Die andere Einschränkung ist die Durchlaufzeit. HORIZON sieht dort am stärksten aus, wo Feedback relativ schnell ist: kompilieren, simulieren, assert, wiederholen. Das Paper vermerkt, dass PPA-orientierte Schleifen Tage oder Wochen dauern können. In diesem Setting kann die gleiche repository-native Struktur immer noch helfen, aber die Ökonomik und die Scheduling-Logik ändern sich vollständig.
Was sollten Teams als Nächstes beobachten? Erstens, ob Folgearbeiten versteckte Tests, randomisierte Checks und formale Verifikation hinzufügen, um Reward-Hacking zu reduzieren. Zweitens, ob diese repository-nativen Schleifen ihre Disziplin bewahren können, wenn Evaluatoren langsamer, breiter und teurer werden als die heutigen Benchmark-Harnesses.
Verwandte Artikel
Martin Kuvandzhiev
CEO and Founder of Encorp.io with expertise in AI and business transformation