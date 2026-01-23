Nella corsa all’integrazione dell’intelligenza artificiale nel mondo del lavoro, un nuovo studio rivela limiti tutt’altro che trascurabili. Il benchmark APEX‑Agents, sviluppato da Mercor, testa l’abilità degli agenti IA di svolgere compiti professionali complessi e prolungati in ambiti come il diritto, la consulenza manageriale e l’investment banking, emettendo un verdetto chiaro: al momento, la loro autonomia è ancora molto lontana dagli standard operativi umani.

Il quadro è stato presentato da TechCrunch il 22 gennaio 2026 e successivamente approfondito sul repository ArXiv: APEX‑Agents misura l’accuratezza “one‑shot” (Pass@1) di diversi modelli agentici all’interno di ambienti di lavoro realistici, in cui strumenti, file e contesti vengono simulati fedelmente per ricreare scenari professionali.

I migliori modelli non superano il 24% di risposte corrette in condizioni operative reali, un risultato che sottolinea un gap strutturale nella capacità di ragionamento multi‑dominio, ancora cruciale per il knowledge work.

Benchmark APEX‑Agents: i dettagli

APEX‑Agents è stato concepito per replicare task credibili, tratti dal mondo reale, con prompt, rubriche di valutazione, output corretti e file necessari messi a disposizione nella collezione open source. L’obiettivo è testare se un agente può navigare tra ambienti reali — ad esempio Slack, Google Drive, sistemi interni — e svolgere attività coerenti in ambiti professionali rigorosi. Il fondamento è l’AI Productivity Index for Agents, con otto agenti in gara sui 480 task disponibili, misurando la loro accuratezza in ambienti veri.

Il team responsabile, guidato da Brendan Foody, ha depositato la versione completa sul server ArXiv il 20 gennaio 2026, pubblicando anche Archipelago, l’infrastruttura per test e valutazione automatizzata dei modelli agentici.

Tra gli agenti testati, Gemini 3 Flash si distingue con il 24% di accuratezza, seguito da GPT‑5.2 con il 23%, mentre altri modelli come Claude Opus 4.5, Gemini 3 Pro e GPT‑5 si attestano intorno al 18%.

Le ragioni delle performance sotto soglia

I modelli incontrano difficoltà sistematiche principalmente nel processo di aggregazione e ragionamento su informazioni distribuite: il compito professionale non si esaurisce in un’unica fonte, ma richiede navigazione, contestualizzazione e sintesi tra strumenti, documenti e policy.

Foody sottolinea che anche un professionista può essere confuso, se gli elementi non sono presentati in maniera coerente e centralizzata.

Questo testimonia che la prontezza operativa dell’AI non è questione solo di conoscenza enciclopedica, ma di capacità di orchestrazione reale, dialogo con strumenti e ragionamento a livello di flusso di lavoro. Il benchmark quindi evidenzia che, al momento, gli agenti funzionano più come stagisti incerti che come operatori affidabili.

Il confronto con altri benchmark

APEX‑Agents non è il primo tentativo di valutare gli agenti IA in contesto lavorativo. Alcuni benchmark precedenti come WorkBench (2024) e UpBench (fine 2025) hanno dimostrato analoghe fragilità:

- WorkBench analizzava 690 attività riconducibili a funzioni comuni come email o pianificazione su ambienti sandbox e osservava performance tra il 3% e il 43%, con GPT‑4 al vertice; tuttavia, anche questo contesto artificiale mostrava errori macroscopici dovuti a misunderstanding o esecuzioni errate.

- UpBench, radicato in dati di lavoro reale da piattaforme freelance, utilizza rubriche dettagliate redatte da esperti umani per valutare agenti in compiti dinamici e centrati sull’economia reale: in questo setting, i modelli evidenziano un’azione più reattiva che collaborativa, confermando la difficoltà nell’adeguarsi a contesti in continuo mutamento.

Rispetto a quegli esperimenti, APEX‑Agents porta il livello di complessità un passo avanti, enfatizzando la durata e la natura cross‑strumento dei task, collocando l’asticella più in alto per misurare un’effettiva readiness operativa.

Le implicazioni per il futuro dell'AI

L’esito del benchmark sottolinea un’inversione di rotta rispetto all’entusiasmo dilagante che circonda le applicazioni agentiche nell’AI.

Il salto qualitativo non è garantito solo dall’evoluzione della capacità generativa, ma richiede soluzioni strutturate che includano:

1. Integrazione robusta con ambienti digitali — gli agenti devono accedere, analizzare e operare in sistemi reali come software aziendali, repository e tool di comunicazione.

2. Ragionamento multi‑passo e contestualizzato — serve il salto da risposte singole a sequenze coerenti, in grado di rispettare policy, contesti e vincoli.

3. Interfacce umane e valutazione continua — come UpBench insegna, l’intelligenza artificiale deve integrarsi in workflow dove la supervisione e il feedback umano restano centrali, non solo come backup.

In questo senso, APEX‑Agents può essere visto come un campanello d’allarme, ma anche come un catalizzatore per indirizzare risorse, ricerca e sviluppo verso quel che serve per passare da semplici esperimenti a soluzioni operative veramente affidabili.

Il benchmark, è già pubblico e aperto: «ora è una sfida aperta per i laboratori che credono di poter fare meglio» e l’andamento dei prossimi mesi sarà determinativo nel capire se, effettivamente, gli agenti potranno evolvere da stagisti avanzati a collaboratori professionali affidabili.

In sintesi, APEX‑Agents reitera che la domanda giusta non è «quando l’AI supererà gli umani?» quanto piuttosto «come possiamo progettare agenti che lavorano bene con gli umani, entro limiti precisi, nei contesti reali?».