Le brief IA #73

Pentagon deal : Anthropic dit non, OpenAI dit "je signe".

mars 06, 2026

Anthropic

Memory.md

Anthropic dote Claude Code d'une mémoire persistante. Le système écrit automatiquement un fichier MEMORY.md qui stocke commandes de build, patterns de code et préférences utilisateur d'une session à l'autre. Fini le contexte perdu à chaque redémarrage. Deux mécanismes coexistent : les fichiers CLAUDE.md rédigés par le développeur, et l'auto-mémoire que l'IA alimente seule.

Mode vocal sur claude code

Anthropic intègre la voix dans Claude Code, son outil CLI pour développeurs. Un /voice dans le terminal, la barre espace enfoncée, et on dicte ses instructions au lieu de les taper. Le déploiement est progressif. Inclus sans surcoût sur les plans Pro, Max, Team et Enterprise.

Anthropic x Pentagone

Dario Amodei refuse de retirer les protections de Claude contre la surveillance de masse et les armes autonomes, malgré un ultimatum du Pentagone. Le Department of War menace de désigner Anthropic comme « risque pour la chaîne d’approvisionnement » (réservé aux adversaires des États-Unis). Trump a ordonné aux agences fédérales de couper Anthropic, les négociations ont finalement repris mais aucun accord n’a encore été conclu et l’issue reste incertaine (compte tenu de leur accord avec OpenAI, voir plus bas).

OpenAI

OpenAI x Pentagone

Anthropic a dit non, mais OpenAI a conclu un accord avec le Département de la Défense américain pour déployer ses modèles sur des réseaux classifiés. Le contrat autorise « tous usages légaux », mais impose un déploiement cloud uniquement, un safety stack contrôlé par OpenAI et des ingénieurs habilités sur place. L'accord arrive quelques heures après la mise au ban d'Anthropic, qui refusait de retirer ses garde-fous contractuels sur la surveillance et les armes autonomes. Sous la pression, OpenAI a dû amender le texte pour interdire explicitement la surveillance domestique.

OpenAI lève 110 milliards de dollars

OpenAI boucle un tour de table de 110 milliards de dollars auprès d'Amazon (50 Md$), Nvidia (30 Md$) et SoftBank (30 Md$), pour une valorisation de 730 milliards. Du jamais-vu : c'est presque trois fois le précédent record, détenu par... OpenAI (40 Md$ en mars 2025). Détail notable, 35 milliards d'Amazon sont conditionnés à l'atteinte de l'AGI ou à une IPO d'ici fin 2026 (bon courage !). Microsoft, historiquement premier soutien financier, n'a pas participé. La course à l'infrastructure IA atteint des montants qui donnent le vertige.

Google

Nano Banana 2

Google remplace Nano Banana Pro par Nano Banana 2 comme modèle d'image par défaut dans Gemini. La promesse : la qualité de Pro à la vitesse de Flash, avec un prix API autour de 0,07 $ par image en 1024px. Le modèle grimpe en tête des leaderboards text-to-image et supporte la 4K, ce qui le place face à GPT Image 1.5 d'OpenAI pour moitié moins cher à résolution équivalente. Le déploiement couvre Gemini, Search, Google Ads et l'outil vidéo Flow.

Gemini 3.1 Flash-Lite

Google débarque sur le segment des modèles ultra-low-cost avec Gemini 3.1 Flash-Lite, facturé à 0,25 $ par million de tokens en entrée. C'est le même tarif que GPT-5 mini d'OpenAI, mais avec un output 25 % moins cher (1,50 $ contre 2,00 $). Côté vitesse, Google revendique un temps de réponse 2,5 fois plus rapide que son Gemini 2.5 Flash, un chiffre confirmé par Artificial Analysis. Le modèle propose des niveaux de raisonnement configurables selon la complexité de la tâche.

NotebookLM x vidéos

Google ajoute les « Cinematic Video Overviews » à NotebookLM : l'outil peut désormais générer des vidéos animées à partir de vos notes, bien au-delà des simples diaporamas narrés proposés jusqu'ici. La feature s'appuie sur Gemini 3 et Veo 3 pour créer narration, style visuel et animations. Bémol notable : il faut être abonné Google AI Ultra (environ 250 $/mois) et le tout reste limité à l'anglais avec un plafond de 20 vidéos par jour.

Nous Research

Hermes Agent

Nous Research publie Hermes Agent, un agent autonome open source (MIT) qui s'installe sur votre serveur et conserve une mémoire persistante entre les sessions. Le principe : quand il résout un problème complexe, il génère automatiquement un « skill document » réutilisable pour la prochaine fois. L'agent se connecte à Telegram, Discord, Slack ou WhatsApp depuis un unique processus, et embarque plus de 40 outils intégrés. Face à Claude Code (terminal) ou Devin (cloud autonome), Nous Research mise sur l'auto-hébergement et l'apprentissage continu. Un positionnement malin pour les équipes qui veulent garder la main sur leurs données.

Perplexity

Perplexity Computer

Perplexity a présenté Computer, une plateforme agentique qui orchestre près de 20 modèles issus d'OpenAI, Anthropic, Google et xAI pour exécuter des workflows complexes. Le principe : confier un objectif, laisser le système décomposer les tâches et déléguer chaque sous-tâche au modèle le plus adapté. À 200 $/mois (abonnement Max), Perplexity se positionne face à Claude Cowork et OpenAI Operator avec un argument clair : ne pas dépendre d'un seul fournisseur. Le pari est ambitieux, reste à voir si l'orchestration multi-modèles justifie le tarif premium.

☢️ Les IA choisissent l'escalade nucléaire dans 95 % des simulations de guerre

🤖 Jack Dorsey licencie 40 % de Block au nom de l'IA en lien : l'IA va-t-elle vraiment détruire l'emploi ?

📢 Plusieurs centaines de manifestants anti-IA dans les rues de Londres

🧑‍💼 Gartner douche les espoirs de l'IA low-cost en service client

Is Boosting Still All You Need for Tabular Data?

Il y a une petite musique que l’on entend depuis plusieurs années : pour du tabulaire, XGBoost et LightGBM suffisent, inutile de sortir l'artillerie lourde du deep learning (et je suis d’accord). Michael Clark revient sur cette question après le raz-de-marée LLM et la réponse n'est peut-être plus aussi tranchée.

Le tournant, c'est TabArena : un leaderboard standardisé qui mesure la capacité de divers modèles sur des données tabulaires.

TabArena is a living benchmarking system that makes benchmarking tabular machine learning models a reliable experience. TabArena implements best practices to ensure methods are represented at their peak potential, including cross-validated ensembles, strong hyperparameter search spaces contributed by the method authors, early stopping, model refitting, parallel bagging, memory usage estimation, and more.

Des modèles comme RealMLP, TabPFN-v2.5 et TabICL-v2 battent désormais le boosting sur une majorité de datasets. Les foundation models tabulaires (TabPFN, TabICL) impressionnent sur des jeux de données de taille modeste. En revanche, dès qu'on dépasse les 150k lignes, le gradient boosting reprend son trône, avec un temps d'inférence avantageux.

L'article montre aussi que l'outillage a rattrapé son retard. pytabkit offre une API scikit-learn-like avec des hyperparamètres « tuned defaults » prêts à l'emploi, et AutoGluon intègre maintenant les meilleurs modèles DL tabulaires. En quelques lignes de code, on peut comparer RealMLP à XGBoost sur ses propres données.

Le verdict : le boosting reste le point de départ. Mais pour qui cherche le dernier pourcentage de performance sur des datasets de taille raisonnable, le DL tabulaire est devenu une option crédible, à condition d'accepter le surcoût computationnel.

Querying 3 billion vectors

Calculer le produit scalaire entre 1 000 requêtes et 3 milliards de vecteurs d'embeddings ça n’est pas la même histoire. L’auteur du billet, Vicki Boykis, s'est lancée dans l'exercice.

L'approche naïve (double boucle Python, dot product unitaire) met déjà 2 secondes pour 3 000 vecteurs. En vectorisant l'opération avec NumPy, on passe à 0.01 seconde, soit un facteur 200x. Ajoutez une conversion en float32, et on descend encore. Mais à l'échelle de 3 milliards de vecteurs en dimension 768, le problème n'est plus le compute : c'est la mémoire. Le produit complet pèserait 8.6 To en RAM. Il faut alors passer au batching, au memory-mapping, voire réécrire en Rust ou utiliser des librairies spécialisées comme SimSIMD.

La conclusion est classique mais important à garder en tête : le plus dur n'est jamais (ou presque) l'implémentation technique, c'est de cadrer correctement le besoin.

Give your agentic chatbots a fast and reliable long-term memory

Il existe plusieurs moyen de faire persister la mémoire d’un agent.

Google, au travers d’un article, présente une architecture dite « polyglotte » qui segmente la mémoire en trois températures. Du chaud au froid : Memorystore for Redis pour le contexte immédiat (sub-milliseconde via des RPUSH incrémentaux, pas de cycle read-modify-write), Cloud Bigtable comme système of record mid-term avec un schéma de clés qui permet des range scans efficaces sur l'historique récent, et BigQuery en archivage long-terme pour l'analytique. Cloud Storage complète le dispositif pour les artefacts multimédia, avec un système de pointeurs URI et de signed URLs.

L'approche hybride sync/async est ce qui rend le tout viable à l'échelle : l'écriture synchrone dans Redis garantit la réactivité, pendant qu'un pipeline Pub/Sub + Dataflow propage de manière asynchrone vers Bigtable puis BigQuery.

Rien de fondamentalement nouveau dans les briques individuelles, mais l'assemblage est propre, bien documenté, et j’ai appris des choses. Pour les équipes déjà sur GCP qui cherchent un patron d'architecture mémoire au-delà du simple cache de session, c'est une référence solide.

Monty

L'équipe Pydantic présente Monty, un interpréteur Python minimal écrit en Rust, conçu spécifiquement pour l'exécution de code produit par des agents.

gws cli

gws est un outil en ligne de commande qui donne accès à l’ensemble des API Workspace : Drive, Gmail, Calendar, Sheets et le reste. La particularité : les commandes se génèrent dynamiquement depuis le Discovery Service de Google, donc chaque nouvelle API est disponible sans mise à jour. Le projet intègre un serveur MCP et plus de 100 skills pour agents IA, avec des sorties JSON structurées. Précision importante : ce n’est pas un produit Google officiel, mais un projet open source du repo googleworkspace. 4 900 stars GitHub en trois jours, le besoin était visiblement là.

DeerFlow

ByteDance présente DeerFlow 2.0, un framework open source (MIT) qui se positionne comme un « super agent harness » capable de coordonner sous-agents, mémoire persistante et sandboxes d'exécution.

Ruflo

Ruflo (anciennement Claude Flow) propose de transformer Claude Code en plateforme multi-agents coordonnée, avec plus de 60 agents spécialisés qui collaborent via des topologies de type swarm.

Agentic Code Reasoning

Can LLM agents explore codebases and reason about code semantics without executing the code? We study this capability, which we call agentic code reasoning, and introduce semi-formal reasoning: a structured prompting methodology that requires agents to construct explicit premises, trace execution paths, and derive formal conclusions. Unlike unstructured chain-of-thought, semi-formal reasoning acts as a certificate: the agent cannot skip cases or make unsupported claims. We evaluate across three tasks (patch equivalence verification, fault localization, and code question answering) and show that semi-formal reasoning consistently improves accuracy on all of them. For patch equivalence, accuracy improves from 78% to 88% on curated examples and reaches 93% on real-world agent-generated patches, approaching the reliability needed for execution-free RL reward signals. For code question answering on RubberDuckBench Mohammad et al. (2026), semi-formal reasoning achieves 87% accuracy. For fault localization on Defects4J Just et al. (2014), semi-formal reasoning improves Top-5 accuracy by 5 percentage points over standard reasoning. These results demonstrate that structured agentic reasoning enables meaningful semantic code analysis without execution, opening practical applications in RL training pipelines, code review, and static program analysis.

The Human Framework

Discussion à propos de ce post

Tout à fait prêt. Qu'avez-vous pour moi ?