Mentre le aziende stanno investendo denaro in modelli linguistici di grandi dimensioni (LLM), alcuni esperti del settore dell’intelligenza artificiale ritengono che i modelli linguistici di piccole dimensioni (SLM) diventeranno la prossima grande novità.
Ciò avviene mentre l’attività nel settore continua a crescere con l’avvicinarsi delle festività natalizie con le aziende tecnologiche che investono maggiori finanziamenti per sviluppare la loro tecnologia.
Il futuro è nei piccoli modelli linguistici
Aziende come xAI gestite dal multimiliardario Elon Musk sono riuscite a raccogliere altri 5 miliardi di dollari da Andreessen Horowitz, Qatar Investment Authority, Sequoia e Valor Equity Partners, mentre Amazon ha investito altri 4 miliardi di dollari in Anthropic, un rivale di OpenAI .
Mentre queste grandi tecnologie e altri stanno investendo miliardi di dollari concentrandosi sullo sviluppo di grandi LLM per gestire molti compiti diversi, la realtà dell’intelligenza artificiale è che non esiste una soluzione unica adatta a tutti poiché sono necessari modelli specifici per attività per le aziende.
Secondo Matt Garman, amministratore delegato di AWS, in un comunicato sull'espansione della partnership e degli investimenti, c'è già una risposta schiacciante da parte dei clienti AWS che stanno sviluppando un'intelligenza artificiale generativa basata su Anthropic.
Gli LLM per la maggior parte delle aziende rappresentano ancora la scelta numero uno per alcuni progetti, ma per altri questa scelta può essere costosa in termini di costi, energia e risorse informatiche.
Steven McMillan, presidente dent amministratore delegato di Teradata, che ha offerto un percorso alternativo per alcune aziende, ha altri punti di vista. È sicuro che il futuro sia negli SLM.
“Guardando al futuro, riteniamo che i modelli linguistici di piccole e medie dimensioni e gli ambienti controllati come i LLM specifici del dominio forniranno soluzioni molto migliori”.
~ McMillan
Gli SLM producono output personalizzati su tipi specifici di dati poiché i modelli linguistici sono specificatamente addestrati per realizzarli. Poiché i dati generati dagli SLM sono conservati internamente, i modelli linguistici vengono quindi addestrati su dati potenzialmente sensibili.
Dato che i LLM consumano energia, le piccole versioni linguistiche sono addestrate per adattare sia l'elaborazione che l'uso di energia alle effettive esigenze del progetto. Con tali aggiustamenti, significa che gli SLM sono efficienti a un costo inferiore rispetto agli attuali modelli di grandi dimensioni.
Per gli utenti che desiderano utilizzare l'intelligenza artificiale per conoscenze specifiche, esiste l'opzione di LLM poiché non offrono un'ampia conoscenza. È addestrato a comprendere a fondo solo una categoria di informazioni e a rispondere in modo più accurato, ad esempio un CMO rispetto a un CFO, in quel dominio.
Perché gli SLM sono un'opzione preferita
Secondo l’Association of Data Scientists (ADaSci) lo sviluppo completo di un SLM con 7 miliardi di parametri per un milione di utenti richiederebbe solo 55,1 MWh (Megawattora).
ADaSci ha scoperto che l'addestramento GPT-3 con 175 miliardi di parametri ha consumato circa 1.287 MWh di elettricità e la potenza non viene inclusa quando verrà ufficialmente utilizzata dal pubblico. Pertanto, un SLM utilizza circa il 5% dell'energia consumata durante l'addestramento di un LLM.
I modelli di grandi dimensioni vengono solitamente eseguiti su computer cloud perché utilizzano una potenza di calcolo maggiore di quella mai disponibile su un singolo dispositivo. Ciò si traduce in complicazioni per le aziende poiché perdono il controllo sulle proprie informazioni mentre si spostano nel cloud e rallentano le risposte mentre viaggiano su Internet.
Guardando al futuro, l’adozione dell’intelligenza artificiale da parte delle aziende non sarà unica per tutti, poiché l’efficienza e la selezione dello strumento migliore e meno costoso per completare le attività saranno al centro dell’attenzione, il che significa scegliere il modello della giusta dimensione per ciascun progetto.
Ciò verrà fatto per tutti i modelli, che si tratti di un LLM generico o di LLM più piccoli e specifici del dominio, a seconda del modello che fornirà risultati migliori, richiederà meno risorse e ridurrà la necessità di migrare i dati nel cloud .
Per la fase successiva, l’intelligenza artificiale sarà vitale per le decisioni aziendali poiché il pubblico ha grande fiducia nelle risposte generate dall’intelligenza artificiale.
“Quando si pensa all’addestramento dei modelli di intelligenza artificiale, questi devono essere costruiti sulla base di ottimi dati”.
~ McMillan
"Questo è ciò di cui ci occupiamo, fornire quel set di dati affidabile e quindi fornire le capacità e le capacità di analisi in modo che i clienti, e i loro clienti, possano fidarsi dei risultati", ha aggiunto McMillan.
Poiché l'efficienza e l'accuratezza sono molto richieste nel mondo, i LLM più piccoli e specifici per settore offrono un'altra opzione per fornire risultati su cui le aziende e il pubblico in generale possono fare affidamento.
Chiave Difference Wire aiuta i marchi crittografici a sfondare e dominare i titoli velocemente