Dai coding agent agli agenti veri e propri

Nell’articolo precedente avevo accennato a una delle aggiunte più recenti al mio stack: un agent. Da lì la faccenda mi si è un po’ allargata tra le mani, perché il salto dai coding agent agli agenti veri e propri è più grande di quanto sembri. Le modalità di interazione restano più o meno le stesse, ma cambia radicalmente l’opacità. Quando usi Claude Code, vedi ogni comando che gira. Quando parli con un agent via Telegram o WhatsApp, ti stai fidando ciecamente del modello: dei suoi tool, delle skill che si è costruito, dei meccanismi interni di memoria che gli permettono di eseguire comandi, creare nuove skill, connettersi a server remoti, persino riavviarsi da solo.

Un agent, in fondo, è il punto in cui un modello incontra un computer — letteralmente ha un computer tutto suo. Nel mio caso ho preferito dargliene uno diverso: un container piazzato nel mio stack, raggiungibile H24 via Telegram.

Perché Hermes

Non è stato il primo software di questo tipo che ho provato. Qualche mese fa avevo testato per curiosità OpenClaw, il progetto di Peter Steinberger che per primo ha portato questi harness alla ribalta. L’esperienza è stata scottante: un software pesante, macchinoso, pieno di feature poco utili, con uno store di skill dove chiunque può pubblicare qualcosa — piuttosto pericoloso quando si tratta di dare le proprie password a un agent, perché una skill malevola può farle finire dove non dovrebbero.

Hermes, di Nous Research, è la scelta opposta. All’inizio l’avevo snobbato proprio perché sembrava un clone di OpenClaw, ma la filosofia è completamente diversa. Non appena lo installi è una tavola bianca: ha qualche skill di base, i suoi meccanismi di memoria, la possibilità di collegare dei tool, ma la vera magia arriva con l’uso. Man mano che parli con l’agent, che la memoria si aggiorna, che l’agent stesso crea in autonomia le skill di cui ha bisogno — spesso senza che gliele chieda esplicitamente — il sistema diventa via via più utile, più personale, cucito sulle tue abitudini.

Come gestisce la memoria

A differenza di un coding agent, la gestione della memoria di Hermes è molto più articolata, ed è basata su file. I principali sono tre: il soul (l’anima, cioè il carattere dell’agent), lo user (chi sono io) e la long term memory. Esistono probabilmente anche altri meccanismi più brevi, delle “memorie software” un po’ superate ora che i modelli hanno contesti così ampi.

La differenza sostanziale rispetto a scrivere in un CLAUDE.md è che l’aggiornamento è autonomo. Non sono io a dire all’agent di aggiornare la memoria: è lui, attraverso i suoi meccanismi interni, a farlo da solo, e soprattutto a curarla, tenendola pulita nel tempo. Con l’accumularsi delle interazioni, questo diventa sempre più prezioso: l’agent sa sempre meglio come vorrei che si comportasse.

Un caso d’uso concreto: l’inventario di casa

Uno degli utilizzi che mi trovo a sfruttare più spesso è la gestione dell’inventario delle cose che ho in casa. Dico all’agent che sono tornato dalla spesa e cosa ho comprato, lui scarica il file Excel dell’inventario da Nextcloud, lo aggiorna con degli script Python che si è scritto da solo — di cui io non ho la più pallida idea di cosa contengano — e lo ricarica.

La configurazione di questo comportamento è stata banale: gli ho detto cosa volevo ottenere, gli ho passato i secret per connettersi a Nextcloud, e basta. Ovviamente questo significa anche che l’agent ha ora accesso a tutti gli altri file sul mio cloud, non solo a quel foglio Excel — un dettaglio da tenere a mente quando si abilita questo genere di integrazioni.

La digressione sul system prompt

Uno dei problemi principali quando si interagisce con questi modelli attraverso un harness è il peso del system prompt: gli strumenti su cui gira il modello iniettano nella richiesta informazioni su tool, skill, file di contesto del progetto, eventuali MCP collegati. Basta poco per farlo esplodere.

L’ho toccato con mano passando da OpenCode a Pi Agent. Il system prompt di OpenCode è pesante, vicino ai 20.000 token alla prima chiamata — poi certo, ci sono i cache hit e quindi il costo reale è mitigato, ma la situazione poteva essere molto migliore. E lo è stata con Pi, che ha un prompt molto più snello, circa 5.000 token, e di conseguenza risultava anche più reattivo.

Il connubio perfetto è arrivato con DeepSeek v4, in particolare nella variante Flash: velocissimo ed economico. Ho consumato una quantità di token che non pensavo di raggiungere in vita mia, spendendo relativamente poco — parliamo di 10-15 euro totali sull’API di DeepSeek, contro i 200-300 euro che mi sarebbero costati sull’API di Anthropic per lo stesso volume. Ed è la stessa filosofia snella che ho ritrovato in Hermes rispetto a OpenClaw.

Gli agenti non sono ancora autonomi

Nonostante tutto, la favola dell’agente completamente autonomo resta per ora una favola. Questi oggetti vanno invocati: o sei tu a scrivere, oppure c’è un cronjob che gli manda un messaggio a un orario prestabilito. Non si svegliano da soli e non vengono a cercarti di propria iniziativa — l’input, la scintilla, va sempre data da qualcuno, anche se indirettamente attraverso un’automazione deterministica.

Detto questo, dato che questi modelli stanno migliorando parecchio nel tool calling e nel computer use, è lecito aspettarsi ulteriori passi avanti. I modelli di frontiera oggi sono già in grado di controllare un browser, ma con meccanismi ancora abbastanza farraginosi — coordinate approssimative su uno schermo, invece di un’interazione più naturale. Credo che nel prossimo futuro l’interazione uomo-macchina si sposterà sempre di più verso il conversazionale: accenderemo il computer, un agent ci chiederà cosa vogliamo fare, e faremo tutto parlando o scrivendo. Da quando è uscito Claude Code, a gennaio dell’anno scorso, il salto che ho visto è stato enorme — davvero quell’esponenziale di cui parla spesso Dario Amodei.

Lo stato dei modelli, tra Mythos, Fable e il divario europeo

Chiudo con una fotografia dello stato attuale. I modelli continuano a saturare quasi tutti i benchmark, e più crescono di scala più emergono capacità nuove — proprio come è successo con il linguaggio naturale a partire da GPT-3. Sul fronte Anthropic è arrivata la nuova classe Mythos: Mythos 5 per le aziende e la sua controparte consumer, Fable 5, disponibile per chi ha un abbonamento. Fable è stata resa di nuovo disponibile proprio in questi giorni, dopo essere stata temporaneamente bloccata per via delle restrizioni all’export imposte dal governo americano — un tema su cui varrebbe la pena tornare in un articolo a parte.

Sul fronte cinese e americano la corsa continua senza sosta. Noi europei restiamo comodamente al palo, e Mistral ne è l’esempio più lampante: secondo i dati di Artificial Analysis, il costo per task del loro modello di punta, Mistral Medium 3.5, risulta più alto di quello di modelli enormemente più grandi come GPT-5.5. Un paradosso su cui vale la pena riflettere.

Di questi temi — bolla dei mercati, agenti che entrano nella robotica, i prossimi rilasci intermedi in arrivo — ci sarebbe da parlare per ore. Ma questo articolo era dedicato agli agent, e quindi alla prossima.

~Joe