La valutazione dei modelli di intelligenza artificiale ha visto negli ultimi anni un'evoluzione significativa, con sviluppatori e aziende impegnati a esaminare diverse dimensioni, dalla sicurezza al rispetto delle normative, fino all'allineamento del comportamento. È emersa, tuttavia, una specifica esigenza: assicurare che i sistemi di AI si comportino come previsto per i prodotti o servizi a cui sono destinati. Per semplificare questo processo cruciale, Microsoft ha introdotto ASSERT, uno strumento open-source progettato per facilitare la valutazione del comportamento specifico delle applicazioni AI.

ASSERT: Test Adattivi per l'AI

ASSERT, acronimo di Adaptive Spec‑driven Scoring for Evaluation and Regression Testing, consente di trasformare descrizioni in linguaggio naturale di obiettivi o comportamenti attesi in test strutturati e valutati. Questo framework verifica che i sistemi di intelligenza artificiale aderiscano ai comportamenti desiderati, generando scenari problema e casi di test per confrontare i risultati. Microsoft sottolinea che ASSERT è in grado di registrare i percorsi intrapresi dal sistema AI, incluse azioni intermedie e chiamate a strumenti, permettendo agli sviluppatori di identificare con precisione i punti di fallimento e di apportare miglioramenti mirati.

La flessibilità di ASSERT permette agli sviluppatori di personalizzare ulteriormente le valutazioni fornendo contesto di sistema, strumenti e vincoli specifici.

Ad esempio, un agente AI per la ricerca documentale potrebbe essere configurato per non inviare email al di fuori dell'azienda, limitare l'accesso a informazioni riservate ai dirigenti di alto livello e fornire riassunti concisi e contestualizzati. Queste regole sono poi utilizzate da ASSERT per generare casi di test che verificano il rispetto continuo di tali direttive.

Collaborazioni Strategiche per la Sicurezza AI

Parallelamente allo sviluppo di ASSERT, Microsoft ha stretto importanti collaborazioni con il Center for AI Standards and Innovation (CAISI) negli Stati Uniti e l'AI Security Institute (AISI) nel Regno Unito. Questi partenariati mirano a rafforzare i metodi di test e valutazione dell'AI, integrando l'esperienza tecnica e operativa di Microsoft con la competenza governativa in materia di sicurezza nazionale.

Natasha Crampton, Chief Responsible AI Officer di Microsoft, ha evidenziato l'importanza di un approccio collaborativo per anticipare e gestire i rischi legati alla sicurezza nazionale e pubblica.

Attraverso queste collaborazioni, Microsoft intende migliorare le metodologie di valutazione dell'AI, condividendo framework, dataset e approcci per affrontare i rischi di sicurezza e robustezza nei sistemi di intelligenza artificiale avanzati.

L'Importanza della Valutazione Continua

ASSERT e le alleanze strategiche con enti come CAISI e AISI si inseriscono in un più ampio sforzo per costruire istituzioni e metodologie condivise per un testing AI efficace. Questo impegno si estende alla collaborazione internazionale per promuovere priorità comuni nei metodi di valutazione attraverso l'International Network for AI Measurement, Evaluation and Science, e include il contributo a MLCommons con l'espansione di AILuminate.

Con l'avanzamento delle capacità dell'AI, cresce anche il rigore dei test e delle misure di sicurezza a supporto. Applicando direttamente gli apprendimenti derivanti da queste collaborazioni ai propri sistemi di intelligenza artificiale, Microsoft si impegna a tradurre i progressi della scienza della valutazione in prodotti più sicuri e affidabili per i propri clienti. ASSERT rappresenta un passo significativo verso test specifici applicabili durante l'intero ciclo di vita del sistema AI, migliorando la fiducia e la trasparenza nei processi di valutazione dell'AI.