Microsoft ha presentato Phi-4, l'ultima iterazione della sua serie Phi di modelli di intelligenza artificiale generativa (AI). L'architettura semplificata incorpora progressi nella risoluzione dei problemi matic .
Secondo i rapporti, il nuovo modello, che vanta 14 miliardi di parametri, mira a competere con altri modelli AI compatti come GPT-4o Mini, Gemini 2.0 Flash e Claude 3.5 Haiku.
Secondo il blog , Phi-4 è disponibile con accesso limitato tramite la piattaforma Azure AI Foundry di Microsoft ed è limitato a scopi di ricerca in base a un contratto di licenza di ricerca Microsoft.
Phi-4: prestazioni migliorate nel ragionamento matic
Microsoft ha posizionato Phi-4 come leader nella risoluzione di problemi matic , citando sostanziali miglioramenti delle prestazioni sia rispetto ai suoi predecessori che a modelli comparabili. L'azienda è dent sulle capacità del modello AI dopo che, secondo quanto riferito, Phi-4 ha ottenuto il massimo dei voti in diversi benchmark standardizzati.
Nel test GPQA, ha ottenuto un punteggio di 56,1, superando il 40,9 di GPT-4o e il 49,1 di Llama-3. Sul benchmark MATH, Phi-4 ha raggiunto 80,4, riflettendo le sue capacità avanzate nell'affrontare problemi matic complessi. Eccelleva anche nella codifica dei benchmark, ottenendo un punteggio di 82,6 su HumanEval.
Inoltre, Phi-4 ha dimostrato la sua abilità in scenari del mondo reale, ottenendo punteggi elevati nei problemi ottenuti dalla matic Association of America's American matic Competitions (AMC-10/12). Questi risultati indicano potenziali applicazioni nella ricerca scientifica, nell’ingegneria e nella modellizzazione finanziaria, campi in cui l’accuratezza matic e il ragionamento sono fondamentali.
Mentre modelli più grandi come GPT-4o di OpenAI e Gemini Ultra di Google funzionano con centinaia di miliardi o addirittura trilioni di parametri, Phi-4 dimostra che architetture più piccole e snelle possono ottenere prestazioni superiori in attività specializzate.
Microsoft attribuisce i progressi di Phi-4 all'integrazione di dati sintetici di alta qualità insieme a set di dati di contenuti generati dall'uomo, nonché ai miglioramenti non divulgati apportati durante la post-formazione. Questi sforzi riflettono una tendenza più ampia nel settore dell’intelligenza artificiale , dove i team di ricerca si concentrano sempre più sulle innovazioni nell’utilizzo dei dati sintetici e sull’ottimizzazione post-formazione.
Il CEO di Scale AI, Alexandr Wang, ha recentemente sottolineato questo cambiamento, sottolineando che il settore si è scontrato con un “muro di dati pre-formazione”, aggiungendo che le aziende ora correranno verso lo sviluppo di modelli di IA più efficienti.
Il calcolo conta, ma lo sono anche i dati, e abbiamo raggiunto un data wall pre-addestramento.
—Alexandr Wang (@alexandr_wang) 12 dicembre 2024
Preparati al boom dei dati post-allenamento. Le aziende faranno a gara per avere i migliori dati di frontiera: ragionamento multimodale, basato sugli agenti, complesso e altro ancora.
Segui i dati, trova i vincitori.
7/8
IA responsabile e funzionalità di sicurezza
Microsoft continua a enfatizzare lo sviluppo responsabile delle soluzioni AI, incorporando solide misure di sicurezza in Phi-4 e nei suoi predecessori. Attraverso Azure AI Foundry, gli utenti ottengono l'accesso a strumenti progettati per valutare e mitigare i rischi durante il ciclo di vita dello sviluppo dell'intelligenza artificiale.
Questi strumenti includono protezioni tempestive, che salvaguardano da input inappropriati o dannosi, rilevamento di materiale protetto per dent contenuti sensibili negli output e rilevamento di fondatezza per garantire che gli output siano fattivamente accurati e pertinenti.
Inoltre, ci sono funzionalità integrate nel toolkit Content Safety di Azure AI, che consentono agli sviluppatori di applicare filtri e monitorare le applicazioni per qualità, sicurezza e integrità dei dati. Gli avvisi in tempo reale forniscono interventi tempestivi per affrontare problemi quali suggerimenti contraddittori e deviazioni dei contenuti.
Azure AI Foundry supporta ulteriormente le valutazioni dei modelli iterativi con metriche integrate e personalizzate, offrendo agli sviluppatori la flessibilità di ottimizzare le applicazioni AI per prestazioni ottimali.
Ottieni un lavoro Web3 ben pagato in 90 giorni: la tabella di marcia definitiva