La startup di intelligenza artificiale cinese (AI), DeepSeek, ha svelato un nuovo metodo di ragionamento mentre il mercato continua ad anticipare il rilascio del suo modello di nuova generazione. Secondo i rapporti, la società ha appena introdotto un nuovo approccio che aiuterà le capacità di ragionamento dei modelli di grandi dimensioni (LLMS), poiché il pubblico attende il rilascio del suo nuovo modello.
Secondo i rapporti, un documento pubblicato recentemente ha rivelato che l'impresa è stata raggiunta attraverso una collaborazione tra ricercatori della Tsinghua University e la startup dell'IA. Secondo il documento, DeepSeek è stato in grado di sviluppare una tecnica che combina metodi denominati modellazione di ricompensa generativa (GRM) e messa a punto autoproibile. Il doppio approccio consentirà a LLM di fornire risultati migliori e più veloci alle domande generali.
DeepSeek rivela il nuovo metodo di ragionamento AI
Secondo i ricercatori, i modelli DeepSeek-Grm risultanti sono stati in grado di sovraperformare i metodi esistenti, ottenendo una performance competitiva con i modelli di ricompensatron. La modellazione della ricompensa è un processo che aiuta un LLM a determinare le preferenze umane. I ricercatori hanno affermato che la startup AI intende rendere gli open source dei modelli GRM, ma la società deve ancora fornire una sequenza temporale per lo sviluppo.
Il documento di ricerca accademica pubblicata sta arrivando dopo le speculazioni sulla potenziale prossima mossa dell'avvio dopo enjavuto una attenzione globale che ha raccolto dal suo modello di fondazione Deepseek V3 e dal suo modello di ragionamento R1. All'epoca, il modello R1, che è stato rilasciato all'inizio di quest'anno, ha ottenuto importanza dopo che è stato scoperto che si è comportato meglio di alcuni modelli più vecchi, incluso il primo modello CHATGPT di Openai.
Il rilascio del modello R1 ha anche catturato la Silicon Valley, considerando il fatto che il modello era open source ed è stato completato con una frazione dei costi utilizzati in altri modelli AI. Mentre l'attenzione sembra rallentare, ci sono stati alcuni notevoli progressi tra le aziende rivali nel settore dell'IA, dimostrando che la rivalità nel settore è una per secoli.
Tuttavia, un rapporto di Reuters il mese scorso ha menzionato che DeepSeek-2, il successore della R1 celebrata a livello globale potrebbe essere in lavorazione. Secondo il rapporto, la società potrebbe cercare di rilasciarlo verso la fine di questo mese, poiché sembra capitalizzare sul suo profilo crescente nel settore dell'IA. DeepSeek, d'altra parte, è rimasto a basse a strati attorno al modello R2, mantenendo il silenzio sui canali pubblici ufficiali, con un account di servizio clienti che negano le voci con i clienti aziendali, secondo i rapporti.
Lo sviluppo sul modello V3 continua
Deepseek, con sede a Hangzhou, è stata fondata nel 2023 dall'imprenditore Liang Wenfeng ed è stato sotto i riflettori globali per le giuste ragioni negli ultimi mesi. Tuttavia, la società ha rifiutato di fare comunicazioni pubbliche, decidendo di focalizzare tutto il suo tempo e l'energia sulla ricerca e lo sviluppo. Mentre resta da vedere ciò che l'azienda ha per l'industria dell'intelligenza artificiale, è stata sicuramente cucinata, grazie alle voci.
Il mese scorso, la società ha annunciato uno sviluppo su cui ha lavorato, mostrando il suo modello V3 aggiornato chiamato Deepseek-V3-0324 al mondo. Secondo l'azienda, il modello aggiornato ha offerto "funzionalità di ragionamento migliorate, sviluppo web front-end ottimizzato e competenza di scrittura cinese aggiornata". A febbraio, la società ha superato cinque dei suoi repository di codice, consentendo agli sviluppatori di rivedere e contribuire al suo sviluppo software. La startup ha menzionato che avrebbe fatto "progressi sinceri con la piena trasparenza".
Nello stesso mese, Liang ha pubblicato uno studio tecnico sull'attenzione sparsa nativa, un metodo utilizzato per migliorare l'efficienza degli LLM nell'elaborazione di grandi quantità di dati. Il 40enne Liang è anche il fondatore della società madre di Deepseek, High-Flyer, l'hedge fund che ha fornito l'abilità finanziaria per finanziare i progressi tecnici della startup AI. Alla fine di febbraio, l'imprenditore faceva parte di un simposio che ha riunito imprenditori tecnologici, con il presenza cinese dent Jinping che li ospitava. La dent ha salutato la startup come segno della resilienza del paese di fronte alle mosse degli Stati Uniti per contenere i progressi dell'intelligenza artificiale della Cina.
Chiave Difference Wire : i progetti di criptovalute per lo strumento segreto utilizzano per ottenere una copertura mediatica garantita