La startup Gimlet Labs ha ottenuto 80 milioni di dollari in un round di Serie A, guidato da Menlo Ventures, per risolvere il collo di bottiglia dell’inferenza AI. L’azienda introduce una “multi-silicon inference cloud”, una piattaforma software che distribuisce dinamicamente i carichi di lavoro AI su hardware diversificato: CPU tradizionali, GPU ottimizzate per l’AI e sistemi ad alta memoria.
Questa soluzione mira a rendere i carichi di lavoro AI dieci volte più efficienti, accelerando l’inferenza da tre a dieci volte a parità di costi e consumo energetico.
Il software di Gimlet Labs agisce come un livello di orchestrazione intelligente, suddividendo i modelli AI per sfruttare il chip più adatto a ciascuna parte, consentendo l’esecuzione su architetture miste.
Gimlet Labs collabora con partner strategici come NVIDIA, AMD, Intel, ARM, Cerebras e d-Matrix. Il prodotto è disponibile come software o tramite l’API Gimlet Cloud, rivolto principalmente a grandi laboratori di modelli AI e data center. Lanciata nell’ottobre 2025 con ricavi a otto cifre, la startup ha raddoppiato la sua base clienti in quattro mesi, includendo un primario produttore di modelli AI e un grande provider di cloud.
I cofondatori – Zain Asgar, Michelle Nguyen, Omid Azizi e Natalie Serrino – hanno lavorato insieme in Pixie, startup acquisita da New Relic nel 2020.
Con un totale di 92 milioni di dollari raccolti e 30 dipendenti, Gimlet Labs vanta investitori come Bill Coughran, Nick McKeown, Raghu Raghuram e Lip-Bu Tan (CEO di Intel). Precedenti round sono stati supportati da Factory, Eclipse Ventures, Prosperity7 e Triatomic.
Gimlet Labs: il “chip matchmaker” dell’AI
Gimlet Labs si configura come uno strato di orchestrazione che frammenta le attività AI e le indirizza ai chip più efficienti, un ruolo paragonabile a quello di VMware per i server virtualizzati. Questo approccio risponde all’esigenza di ottimizzare l’utilizzo dei centri di calcolo e di gestire i costi crescenti dell’infrastruttura AI. Il supporto del CEO di Intel, Lip-Bu Tan, evidenzia la posizione strategica della startup nel mercato dell’infrastruttura software-driven, complementare all’hardware concorrente.
Orchestrazione olistica per l’inferenza AI
L’azienda adotta un approccio olistico, supportando workflow agentici complessi con più passaggi: inferenza (compute-bound), decoding (memory-bound) e tool calls (network-bound). Il framework “multi-silicon fleet” garantisce orchestrazione in tempo reale su hardware eterogeneo, incluse GPU vecchie e nuove, aumentando la penetrazione nel parco installato dei data center. La collaborazione con numerosi vendor conferma la flessibilità nella gestione del calcolo AI.
Dinamiche di settore e impatto
Il modello di Gimlet Labs risponde alla crescente domanda di inferenza per modelli multimodali e agentici, e alla prevista crescita delle spese per l’infrastruttura dei data center, stimate fino a 7 trilioni di dollari entro il 2030.
Gimlet interviene su un’infrastruttura sottoutilizzata (15-30% di utilizzo medio), trasformando sprechi in opportunità di efficienza.
La “multi-silicon inference cloud” come standard futuro
L’approccio multi-silicon affronta la frammentazione in atto nell’hardware AI, dove nessun chip gestisce tutte le operazioni con efficienza. Il software di Gimlet permette ai data center di modernizzare gli ambienti, riducendo i costi energetici e ottimizzando la resa per watt e per dollaro. Questo paradigma potrebbe ridefinire la divisione tra hardware e software nell’AI, valorizzando l’orchestrazione intelligente e la compatibilità cross-chip.
Gimlet Labs abilita l’interoperabilità hardware, cruciale per ambienti multi-cloud e ibridi edge-cloud, sfruttando risorse eterogenee.
La piattaforma potrebbe evolvere verso strumenti autonomi e agent-oriented, ridefinendo il “runtime” dell’AI. In sintesi, Gimlet Labs incarna una tendenza chiave nell’infrastruttura AI: la democratizzazione dell’efficienza tramite orchestrazione software tra silici eterogenei. Il successo potrebbe renderla un layer fondamentale nelle architetture AI enterprise e hyperscaler.