l'article original n'est pas vraiment clair (en + d'avoir des problèmes sur la taille du contexte + l'aspect one-shot)... mais soit, on est à la recherche de performances "super-human". De là à dire que les LLMs (et les coding agents) sont nuls en Brainfuck hummmm
Posts by Mathieu Acher
ah parce que c'est facile d'écrire le truc qui écrit le code ? vraiment interdit ? je conviens que c'est moins difficile, mais la frontière est parfois floue : j'imagine que tu crées tes propres abstractions et/ou que tu génères une partie du code idiomatique...
Bonjour à tous.tes
Nous avons l'indicible douleur de vous faire part du décès de Séverine Erhel, survenu ce lundi 13 avril 2026 à Rennes.
(information diffusée à la demande / avec l'autorisation de la famille)
Après l'UNESCO, l'exposition "Source Code" à la Cité des sciences et de l'industrie jusqu'au 25 mars. Avec notamment ma contribution "The Constant" (La Constante). Plus d'information ici: www.cite-sciences.fr/fr/au-progra... www.sourcecode-exhibition.softwareheritage.org/fr/la-consta...
Blog post: blog.mathieuacher.com/TeXCCChessEn...
Github: github.com/acherm/agent...
Overleaf: overleaf.com/docs?snip_ur...
I have co-dev other engines in Rust, C++, COBOL, Rocq, Lean, and Brainfuck. And others!
I will present each of them in the next days blog.mathieuacher.com/FromScratchC...
I asked a coding agent to build a chess engine from scratch in… LaTeX. Incredible: ~2100 lines of TeX, negamax (depth ~3), ~1280 Elo. A real software tour de force: board/state in macros+registers, logic via expansions. Never been done before Overleaf+github+blog⤵️ #TeXCCChess
"Ce livre est au bon niveau de détail et d’abstraction, loin de la médiocrité des ignorants et fainéants qui pullulent dans l’espace médiatique. C’est un livre par ailleurs très bien écrit"
Passionnante recension du livre de M. Phi par @macher.bsky.social ⤵️
blog.mathieuacher.com/LaParoleAuxM...
🦜 vs 🐟 sur l’échiquier : ChatGPT ou Stockfish, qui gagne et pourquoi ?
Mon exposé à la Fête de la Science @INSA_Rennes disponible sur Youtube, avec quelques excellentes questions d'élèves:
youtu.be/TtGiT-tWdmE
C'est ludique mais technique, accessible aux curieux/connaisseurs.
#ChessEveryWhere
Perroquet (ChatGPT) vs Poisson (Stockfish)
Qui gagne ? Tester l’intelligence artificielle par les échecs.
Retrouvez moi au Village des sciences à l'INSA Rennes le jeudi 9 octobre
Plus d'information ici: www.fetedelascience.fr/perroquet-ch...
I presented "Teaching Reproducibility and Embracing Variability: From Floating-Point Experiments to Replicating Research" at ACM REP conference 2025 .
Blog post with links to preprint, slides, and raw transcript: blog.mathieuacher.com/TeachingRepr...
Blog post: blog.mathieuacher.com/GPTReasoning...
Code: github.com/acherm/gptch...
with deeper insights, such as:
* o3 can sometimes synthesize code to play chess, but fails
* o3-high seems a special beast, but it is an unreliable model (illegal move may occur after 10 moves) and 15$ for a game!
The latest generation of reasoning LLMs perform worse at #Chess compared to previous models. o3 & o4‑mini vs weak Stockfish: illegal moves in 88% & 94% of 67 games. o3 breaks rules in 4 moves; both resigned while winning. Worse than GPT‑3.5‑turbo‑instruct (1750 Elo)
#KubeDiagrams just crossed 1K stars on Github. It allows generating Kubernetes architecture diagrams from Kubernetes yaml files (among others). Developed by Philippe Merle from
Inria Spirals team
.
Un élément nouveau de la vidéo #Devoxx concerne ce comportement étrange de gpt-3.5-turbo-instruct. A voir s'il est possible de reproduire ;) Assez lié à une autre série d'expériences où j'ai montré comment gagner en 4 ou 7 coups de manière systématique blog.mathieuacher.com/ChessWinning... 3/3
Les deux vidéos sur Youtube:
- #Devoxx www.youtube.com/watch?v=bO96...
- la vidéo originale www.youtube.com/watch?v=6D1X... qui est plus longue et a le temps de (notamment) expliquer mes expériences
blog.mathieuacher.com/GPTsChessElo... 2/3
Les LLM rêvent-ils de cavaliers électriques ? - Thibaut Giraud @monsieurphi.bsky.social at @devoxx.fr
Une variante de l'excellent "ChatGPT rêve-t-il de cavaliers électriques ?" avec quelques éléments nouveaux.
Quelques pointeurs pour approfondir le sujet #echecs+LLM dans le thread 1/3
Nous continuons avec Monsieur Phi “les LLM rêvent-ils de cavaliers électriques ?”
Interesting comment on my blog post about Stockfish and our study disq.us/p/32uips9
President Macron Highlights Software Heritage at the Sorbonne: A Call for Europe to Embrace its Role in a Global Mission www.linkedin.com/pulse/presid...
Highly related to CodeCommons codecommons.org that aims to provide open, responsible, and transparent AI on top of Software Heritage. Let's go!
Real position coming from an online real game in #Chess960 I just played. Is it a draw? -0.3 according to Stockfish, but no clear plan. Chess engines are notoriously bad at resolving/assessing fortress-like position. But is it such a case? What do you think? #ChessEveryWhere
Just watched a great interview with Fields medalist Hugo Duminil-Copin by @scienceetonnante.com. At some point, there's a discussion on the role of AI in discovery. Hugo sees AI as a partner -- amplifying our approximations, filling gaps, sparking ideas. Blog post+transcript below 1/2🧵
Nice talk of Pierre L'Ecuyer about (parallel) random number generation for the 50th anniversary of
@irisa-lab.bsky.social lab last week. Slides are here: www-labs.iro.umontreal.ca/~lecuyer/myf...
I like the simple examples given throughout the talk that give an intuition of the complexity problems. The kinds of issues mentioned are not necessarily new, but are very well articulated.
Why Can't We Make Simple Software? Great talk by Peter van Hardenberg about complexity in software engineering (robustness and generalization to inputs, the effects of scale, leaky abstractions, variability and combinatorial explosion, dependencies hell, etc)
www.youtube.com/watch?v=czzA...
Comment favoriser la mixité dans les métiers du numérique ?
Excellente intervention de Mélissa Cottin, directrice de l'association ESTIMnumérique
youtu.be/w5vzyoH7JM0
Final thoughts?
✅ Reproducibility matters—always verify results.
✅ Replicability matters even more.
✅ Depth sensitivity and domain specificities are critical in SE.
✅ MT needs refinement.
Study:
hal.science/hal-04943474v2
(published at IST journal)
Blog post: blog.mathieuacher.com/Reproducibil...
A call to refine, not dismiss.
MT is powerful & could work well for LLM-based chess engines. But for Stockfish, MRs must account for depth & move ordering.