Il 2 aprile 2026, Microsoft AI ha ufficialmente annunciato il lancio di tre nuovi modelli fondazionali proprietari: MAI-Transcribe-1, MAI-Voice-1 e MAI-Image-2. Questa mossa rappresenta un passaggio strategico significativo verso una maggiore autonomia nello sviluppo dell'intelligenza artificiale, posizionando l'azienda in una risposta diretta ai suoi principali rivali nel settore, inclusi OpenAI e Google. I modelli sono ora disponibili su Microsoft Foundry, con MAI-Transcribe-1 e MAI-Voice-1 accessibili anche tramite MAI Playground. Essi coprono tre modalità chiave dell'AI: la trascrizione audio, la sintesi vocale e la generazione video, funzionalità essenziali per applicazioni come Teams, Copilot e Bing.

Questa importante evoluzione è frutto del lavoro del team MAI Superintelligence, guidato da Mustafa Suleyman e istituito alla fine del 2025, che ha adottato l'approccio "Humanist AI", focalizzato sulla centralità dell'utente e sulle sue esigenze reali.

Dettagli tecnici e capacità distintive

Il modello MAI-Transcribe-1 si distingue per il supporto alla trascrizione in ben 25 lingue e per essere due volte e mezzo più veloce rispetto alla precedente offerta Azure Fast. Le sue prestazioni sono ulteriormente evidenziate dal raggiungimento del più basso Word Error Rate sul benchmark FLEURS, superando concorrenti di rilievo come Whisper-large-v3 e Gemini 3.1 Flash. Per quanto riguarda l'audio, MAI-Voice-1 è in grado di generare 60 secondi di audio in appena un secondo, offrendo agli utenti la possibilità di creare voci personalizzate.

Infine, MAI-Image-2, il modello dedicato alla generazione video, ha già superato i test su piattaforme come Bing e PowerPoint, posizionandosi nella top 3 di Arena.ai per le sue capacità.

Prezzi e accessibilità per gli sviluppatori

Per quanto riguarda l'accessibilità economica, il modello MAI-Transcribe-1 è proposto a un costo di $0,36 all'ora. Il servizio MAI-Voice-1, invece, ha un prezzo fissato a $22 per ogni milione di caratteri generati. Infine, per MAI-Image-2, i costi sono strutturati in $5 per milione di token di testo in input e $33 per milione di token di output di immagini. Microsoft ha sottolineato che queste tariffe sono tra le più competitive disponibili sul mercato tra i principali hyperscaler, rendendo i modelli accessibili a un'ampia platea di sviluppatori e aziende.

Strategia aziendale e l'evoluzione della partnership

Il lancio di questi nuovi modelli è anche il risultato di una rinegoziazione contrattuale avvenuta con OpenAI alla fine del 2025. Questo accordo ha consentito a Microsoft di intraprendere un percorso di sviluppo superintelligente indipendente, pur preservando la solida partnership e i diritti di licenza con OpenAI fino al 2032. Parallelamente, il colosso tecnologico prosegue i suoi ingenti investimenti in OpenAI, che superano i 13 miliardi di dollari, e continua a integrare i modelli di OpenAI all'interno dei propri prodotti, dimostrando un approccio strategico bilanciato tra autonomia e collaborazione.

Efficienza operativa e l'approccio dei team di sviluppo

Un aspetto particolarmente degno di nota è l'efficienza e la snellezza dei team di sviluppo. Ogni singolo modello è stato infatti realizzato da un gruppo di meno di dieci ingegneri, impiegando circa il 50% delle risorse GPU generalmente utilizzate dai concorrenti. Questo approccio "lean" sottolinea una strategia aziendale che privilegia una progettazione architetturale avanzata e l'ottimizzazione dei dataset, piuttosto che ricorrere a ingenti investimenti in risorse umane o infrastrutture massive.

In sintesi, con il lancio di questi modelli, Microsoft consolida e rafforza la propria posizione all'interno dell'ecosistema AI multimodale. L'azienda punta con decisione sul controllo tecnologico, sull'efficienza operativa e sull'accessibilità delle sue soluzioni.

L'evoluzione verso un vero e proprio stack AI proprietario non solo amplifica le opportunità di integrazione nativa all'interno dei suoi prodotti e servizi, ma mantiene anche la fondamentale collaborazione con OpenAI come un elemento di continuità strategica e innovazione.