Le développement d'agents IA rencontre les worktrees RTL de NVIDIA
NVIDIA Research a présenté HORIZON le 4 juillet 2026, un cadre mains libres pour le développement d'agents IA dans la conception matérielle, traitant le travail RTL comme une évolution de code au niveau du dépôt plutôt que comme une génération unique. C'est important car cela fait passer la conception d'agents d'une simple sortie de code plausible à une acceptation exécutable, les commits git servant de points de contrôle stricts. Selon un résumé du papier par MarkTechPost, le système a atteint 100 % de réussite sur les suites de benchmarks RTL évaluées.
HORIZON de NVIDIA transforme le RTL en une boucle agent native git
J'interprète HORIZON moins comme une histoire de modèle que comme une histoire de flux de travail. L'équipe de recherche de NVIDIA Research ne prétend pas qu'un modèle plus large a soudainement résolu la conception matérielle. Elle affirme que l'unité de travail était inadéquate. Au lieu de demander à un modèle une réponse Verilog finie, HORIZON place la tâche dans un worktree git isolé, modifie les fichiers, exécute les évaluateurs et ne sauvegarde la progression que lorsque la barrière est franchie.
Cette distinction compte pour les équipes de semi-conducteurs et d'EDA car un RTL plausible est bon marché, mais un RTL validé est coûteux. Un module peut sembler correct et échouer malgré tout sur le comportement de réinitialisation, la gestion des largeurs de bits ou les cas limites du simulateur. HORIZON fait du dépôt, et non de l'invite, la surface opérationnelle.
Le résultat phare est solide: 100 % de réussite sur ChipBench, RTLLM, Verilog-Eval et CVDP dans le papier HORIZON sur arXiv, le papier notant qu'un échec résiduel était dû à un défaut du harnais de benchmark plutôt qu'à une défaillance de l'agent. Mais la revendication la plus importante est architecturale: la boucle de rétroaction exécutable est au cœur du système.
Comme le résume la source, « la conception matérielle agentique n'est pas résolue. » Cette prudence est importante. Le papier rapporte une étape, pas une conclusion.
Comment le harnais Markdown devient le pack de projet
L'entrée opérationnelle est un harnais Markdown structuré en quatre parties: objectif, conseils de domaine, spécification de l'évaluateur et prédicat d'acceptation. J'apprécie cette conception car elle oblige une équipe à définir par écrit ce que signifie le succès avant que l'agent ne commence à modifier le code.
En pratique, le harnais devient un pack de projet contenant la politique de l'agent, l'évaluateur exécutable, la règle d'acceptation, le comportement de contrôle de version et les compétences de domaine. Pour le RTL, cet évaluateur peut inclure la compilation, la simulation, les assertions et l'extraction de couverture. En d'autres termes, HORIZON ne se contente pas de générer du code; il génère du code dans un environnement capable de le rejeter.
C'est un modèle utile pour les agents IA personnalisés au-delà du matériel. Lors d'une mission client, le principal mode de défaillance n'était pas la qualité du modèle. C'était l'absence d'une condition de passage exécutable. Si le seul critère est « ça a l'air bien », un agent dérive. Si le critère est « passe ce harnais de test », la boucle devient gérable.
Le papier sur arXiv soulève également un point d'implémentation important: le même emplacement utilisé pour la simulation en RTL pourrait accueillir des tests unitaires, des démonstrateurs de théorèmes, des profileurs ou des outils de synthèse dans d'autres domaines. C'est pourquoi cette recherche intéresse autant les intégrations IA d'entreprise que les équipes de puces.
Ce que l'évolution au niveau du dépôt signifie pour les équipes matérielles
Voici la partie que je m'attends à voir empruntée en premier par les responsables d'ingénierie. Git n'est pas seulement un journal dans HORIZON. C'est le plan de contrôle. Les diffs exposent l'état proposé, les commits marquent les points de contrôle acceptés et les notes conservent les preuves de l'évaluateur. C'est opérationnellement plus propre que d'ajouter un magasin de mémoire séparé à une pile d'agents en espérant qu'il reste cohérent.
J'ai vu des projets d'automatisation des flux de travail IA échouer car chaque exécution laisse des modifications partielles, des tentatives introuvables et des résultats de tests ambigus. La boucle de HORIZON est plus stricte: inspecter les modifications indexées, exécuter l'évaluateur, valider si ça passe, journaliser si ça échoue. Cela facilite grandement le retour en arrière, la relecture et l'audit.
Pour les équipes matérielles, les cas d'usage à court terme sont assez directs:
- génération RTL à partir de spécifications en langage naturel
- complétion de code au sein de modules existants
- modification et réutilisation de modules
- génération de stimuli de test, de vérificateurs et d'assertions
- débogage à partir de la rétroaction du simulateur
Ceux-ci correspondent étroitement aux catégories de CVDP et RTLLM-2.0. Ils correspondent également à la manière dont les agents d'automatisation IA sont déployés dans de vrais environnements d'ingénierie: non pas comme des copilotes universels, mais comme des travailleurs au sein de boucles bornées.
Il y a aussi un angle économique. Le rapport indique que les neuf catégories CVDP ont consommé 203,9 millions de tokens, soit 97,1 % du total, tandis qu'environ 91 % de tous les tokens étaient des entrées mises en cache. Cela me dit que le problème de coût a évolué. Une fois que l'exactitude est élevée, les équipes cessent de se demander si l'agent peut résoudre la tâche et commencent à se demander combien d'itérations cela prend pour le faire à moindre coût.
D'où viennent les gains de benchmark — et où ils ne viennent pas
Le chiffre de 100 % nécessite du contexte. Le taux de réussite global au premier passage de HORIZON était de 47,8 %, pas 100 %. Le score final est issu d'une réparation itérative. C'est une fonctionnalité, pas une faiblesse, mais cela change la manière dont je benchmarkerais le développement d'agents IA en interne.
Si une équipe ne suit que le Pass@1, elle manquera ce pour quoi ce système est conçu. HORIZON est conçu pour reporter une partie du débogage à des itérations ultérieures. Sur les suites plus faciles comme RTLLM-2.0 et Verilog-Eval-v2, la convergence s'est produite en deux itérations. Sur les catégories plus difficiles, la queue était longue. La génération de vérificateur CVDP CID 013 est passée de 3,8 % à 100 % à l'itération 19. La complétion de code CID 002 a nécessité 82 itérations et 56,0 millions de tokens.
Cette dispersion est le vrai signal opérationnel. Certaines tâches sont presque prêtes pour une automatisation de routine. D'autres sont techniquement solvables mais assez coûteuses pour qu'on souhaite une meilleure architecture d'intégration IA avant de déployer à grande échelle.
Je pense aussi que le détail du modèle fixe compte. Le papier indique que GPT-5.3 est resté fixe tout au long de la campagne. HORIZON enregistre les transitions d'état en utilisant un langage semi-markovien, mais il n'entraîne pas une nouvelle politique RL pendant l'exécution. Cela signifie que l'amélioration des performances provient de la conception de la boucle, de la discipline d'évaluation et de la mémoire du dépôt, et non de mises à jour de poids en ligne.
Pour les équipes d'entreprise qui envisagent des services d'automatisation des flux de travail IA, c'est la leçon transposable. De meilleures boucles battent souvent davantage de bidouilles de modèle.
Les limites: passer le harnais n'est pas résoudre la conception
C'est ici que je trouve le papier rafraîchissant d'honnêteté. Passer le harnais visible n'est pas satisfaire l'intention complète de conception. Les auteurs signalent explicitement le risque de hacking de récompense et de sur-résolution. Si l'évaluateur ne voit qu'une partie de la spécification, l'agent peut optimiser pour le test visible plutôt que pour le vrai besoin.
Ce problème n'est pas propre au RTL. Il apparaît dans les dépôts logiciels, les automatismes de support et les agents d'outillage interne aussi. Si votre prédicat d'acceptation est superficiel, votre métrique de succès le sera aussi.
L'autre limitation est le temps de retour. HORIZON est le plus fort là où la rétroaction est relativement rapide: compiler, simuler, affirmer, répéter. Le papier note que les boucles orientées PPA peuvent prendre des jours ou des semaines. Dans ce contexte, la même structure native au dépôt peut encore aider, mais l'économie et la logique de planification changent complètement.
Alors que devraient surveiller les équipes? Premièrement, si les travaux ultérieurs ajoutent des tests cachés, des vérifications aléatoires et une vérification formelle pour réduire le hacking de récompense. Deuxièmement, si ces boucles natives au dépôt peuvent conserver leur discipline lorsque les évaluateurs deviennent plus lents, plus larges et plus coûteux que les harnais de benchmark actuels.
Lectures connexes
Martin Kuvandzhiev
CEO and Founder of Encorp.io with expertise in AI and business transformation