GeistHaus
log in · sign up

Claude 3.7 Sonnet and Claude Code

anthropic.com

Today, we’re announcing Claude 3.7 Sonnet, our most intelligent model to date and the first hybrid reasoning model generally available on the market.

49 pages link to this URL
2025: The year in LLMs

This is the third in my annual series reviewing everything that happened in the LLM space over the past 12 months. For previous years see Stuff we figured out about …

1 inbound link article en ai 2024openai 419generative-ai 1791llms 1757anthropic 282gemini 185ai-agents 111pelican-riding-a-bicycle 113vibe-coding 91coding-agents 202ai-in-china 95conformance-suites 10
2025: The year in LLMs

This is the third in my annual series reviewing everything that happened in the LLM space over the past 12 months. For previous years see Stuff we figured out about …

1 inbound link article en ai 2024openai 419generative-ai 1791llms 1757anthropic 282gemini 185ai-agents 111pelican-riding-a-bicycle 113vibe-coding 91coding-agents 202ai-in-china 95conformance-suites 10
Réflexions sur l'impact de l'IA générative sur les applications logiciels

Ce sont des notes personnelles sur la manière dont l’IA générative impacte les applications logicielles. Ce post est traduit de l’anglais et fait suite à ce post précédent, en anglais aussi. Ce que l’IA générative peut faire en août 2025 1. Prendre des fichiers multimodaux en entrée Jusqu’à l’année dernière, la plupart des applis d’IA générative étaient limitées quant aux types de fichiers qu’elles pouvaient lire. Gemini ne pouvait même pas lire les PDF si je me souviens bien. Cette barrière est tombée. La plupart des applis acceptent désormais txt, csv, pdf, docx, xlsx, pptx, tout xml ou json. Plus important encore, toutes les grandes applis d’IA générative sont désormais multimodales : elles acceptent du texte mais aussi des images en entrée et peuvent en faire des analyses de contenu très détaillées. J’ai testé avec Le Chat de Mistral (version gratuite), Gemini, Claude (version gratuite) et ChatGPT : toutes ont pu décrire une capture d’écran de mon ordinateur avec un grand niveau de précision. L’analyse sonore est arrivée aussi. On peut réaliser une analyse détaillée d’un fichier .wav, par exemple (en août 2025, seul ChatGPT possède cette capacité). Et la vidéo ? Pour l’instant, seul ChatGPT peut traiter des vidéos : sur la vidéo que j’ai testée, il extrait un échantillon d’images puis tente d’en déduire un sens. 2. Réaliser des analyses avancées, à la volée ChatGPT peut désormais lancer un mini environnement informatique pour traiter vos requêtes à la volée : il peut exécuter n’importe quel code Python disponible librement en bibliothèque packagée sur le web. 3. Raisonner La capacité de raisonnement est ce qui a fait le succès de l’IA générative : l’effet saisissant des LLMs est qu’ils (semblent) raisonner comme le ferait un humain. À vous d’apprécier si cet humain correspond à « un stagiaire », « un étudiant » ou « un niveau doctorat », mais cela reste assez proche de ce qu’un humain ferait. Le raisonnement a pris une nouvelle tournure depuis l’automne 2024 (Op

Hidden Technical Debt of AI Systems: Agent Harness

The agent is the model plus the harness. The runtime is where the harness lives. As models get better, the structure we put around them turns from scaffoldin...

0 inbound links article en blogs AI EngineeringAgent SystemsCompound AI SystemsMLOpsGenerative AILLMReinforcement Learning
Language models transmit behavioural traits through hidden signals in data - Nature

During model distillation, large language models can subtly transmit traits unrelated to the training data.

1 inbound link article en Computer scienceSoftware Computer scienceSoftwareScienceHumanities and Social Sciencesmultidisciplinary CC BY 4.0
Designing agentic loops

Coding agents like Anthropic’s Claude Code and OpenAI’s Codex CLI represent a genuine step change in how useful LLMs can be for producing working code. These agents can now directly …

7 inbound links article en definitions 53ai 2023generative-ai 1790llms 1756ai-assisted-programming 383ai-agents 111coding-agents 202async-coding-agents 17
What skills does SWE-bench Verified evaluate?

We take a deep dive into SWE-bench Verified, a prominent agentic coding benchmark. While one of the best public tests of AI coding agents, it is limited by its focus on simple bug fixes in familiar open-source repositories.

2 inbound links article en Capabilities
Claude Code

This is an Agentic Coding Tool that reasons and writes code.

0 inbound links article en
Designing agentic loops

Coding agents like Anthropic’s Claude Code and OpenAI’s Codex CLI represent a genuine step change in how useful LLMs can be for producing working code. These agents can now directly …

1 inbound link article en definitions 53ai 2023generative-ai 1790llms 1756ai-assisted-programming 383ai-agents 111coding-agents 202async-coding-agents 17
The Zen of Claude Code

The Zen of Claude Code: How Simplicity Beat Complexity in AI Agents It's amazing how quickly the world of AI agents has changed, especially in the last co...

0 inbound links article en
Connect Claude to your own apps

Group 1 I’ve always wanted my own assistant, like JARVIS from Iron Man. Every year we get closer to JARVIS being possible, but we’re not there yet. Let me...

0 inbound links article en
Claude Code is impressive

My workflow with generative AI has been changing quite rapidly over the past two weeks. DeepSeek's release really sped up innovation and release cycle among its competitors. I may draft a longer note

0 inbound links article en aianthropicclaude
2025 year in review

One step closer to the irreducible loss of the data

0 inbound links en jekylljekyll-themeacademic-websiteportfolio-website
Claude Code is My Computer | Peter Steinberger

I run Claude Code with --dangerously-skip-permissions flag, giving it full system access. Let me show you a new way of approaching computers.

9 inbound links BlogPosting en AI AIClaudeComputingDevelopmentProductivityClaude-CodeDevOpsAutomation CC BY 4.0
2025: The year in LLMs

This is the third in my annual series reviewing everything that happened in the LLM space over the past 12 months. For previous years see Stuff we figured out about …

25 inbound links article en ai 2014openai 418generative-ai 1785llms 1751anthropic 282gemini 185ai-agents 110pelican-riding-a-bicycle 113vibe-coding 90coding-agents 200ai-in-china 95conformance-suites 10