Se rumorea que DeepSeek V4 superará a ChatGPT y Claude en codificación de contexto largo, enfocada en tareas de codificación de alto nivel. Fuentes internas afirman que el panorama de la IA en Silicon Valley debería preocuparse si las pruebas internas dan indicios de su rendimiento esperado tras el lanzamiento a mediados de febrero.
Según se informa, la empresa emergente china de inteligencia artificial DeepSeek planea lanzar DeepSeek V4, su último modelo de lenguaje de gran tamaño, el 17 de febrero. Personas familiarizadas con el asunto afirman que el modelo está llamado a eclipsar a los modelos de lenguaje de gran tamaño existentes, como ChatGPT de OpenAI y Claude de Anthropic, a la hora de procesar instrucciones y tareas de código con contexto extenso.
Los desarrolladores expresan una gran expectativa por el lanzamiento de DeepSeek V4
Hasta el momento de redactar este artículo, la empresa china no ha revelado públicamente ninguna información sobre el inminente lanzamiento ni ha confirmado los rumores. Desarrolladores de diversas redes sociales han expresado gran expectación ante el lanzamiento. Yuchen Jin, desarrollador de IA y cofundador de Hyperbolic Labs, escribió en X que «se rumorea que DeepSeek V4 se lanzará pronto, con una codificación mástronque la de Claude y GPT».
El subreddit r/DeepSeek también se llenó de comentarios, y un usuario explicó que su obsesión con el inminente modelo V4 de DeepSeek no era normal. El usuario afirmó que consulta con frecuencia las noticias, los posibles rumores e incluso lee la documentación en la página web de DS para buscar cualquier cambio o indicio de una actualización.
Los lanzamientos anteriores de DeepSeek han tenido un impacto significativo en los mercados globales. La startup china de IA lanzó su modelo de razonamiento R1 en enero de 2025, lo que provocó una caída de un billón de dólares en sus acciones. Este lanzamiento igualó al modelo 01 de OpenAI en las pruebas de rendimiento matemático y de razonamiento, a pesar de haber costado considerablemente menos que lo que la startup estadounidense de IA invirtió en su modelo 01.
Según se informa, la empresa china invirtió solo 6 millones de dólares en el lanzamiento del modelo. Mientras tanto, sus competidores globales gastan casi 70 veces más para obtener el mismo rendimiento. Su modelo V3 también obtuvo una puntuación del 90,2 % en la prueba de rendimiento MATH-500, frente al 78,3 % de Claude. La actualización más reciente de DeepSeek a la V3 (V3.2 Speciale) mejoró aún más su productividad.
El atractivo de su modelo V4 ha evolucionado a partir del énfasis de la V3 en el razonamiento puro, las demostraciones formales y la matemática lógica. Se espera que la nueva versión sea un modelo híbrido que combine tareas de razonamiento y no razonamiento. El modelo busca captar el mercado de desarrolladores, cubriendo una brecha existente que exige alta precisión y generación de código de contexto extenso.
Claude Opus 4.5 actualmente domina el benchmark SWE, con una precisión del 80,9 %. El V4 necesita superar esta cifra para superar a Claude Opus 4.5. Basándose en éxitos anteriores, el nuevo modelo podría superar este umbral y dominar el benchmark.
DeepSeek es pionero en mHC para la formación de LLM
El éxito de DeepSeek ha dejado a muchos profesionales perplejos. ¿Cómo pudo una empresa tan pequeña alcanzar tales logros? El secreto podría estar profundamente arraigado en su artículo de investigación publicado el 1 de enero. La compañíadentun nuevo método de entrenamiento que permite a los desarrolladores escalar fácilmente grandes modelos de lenguaje. Liang Wenfeng, fundador y director ejecutivo de DeepSeek, escribió en la investigación que la compañía está utilizando hiperconexiones con restricciones de variedad (mHC) para entrenar sus modelos de IA.
El ejecutivo propuso usar mHC para abordar los problemas que surgen al entrenar modelos lingüísticos extensos. Según Wenfeng, mHC es una versión mejorada de Hyper-Connections (HC), un framework que otros desarrolladores de IA utilizan para entrenar sus modelos lingüísticos extensos. Explicó que HC y otras arquitecturas de IA tradicionales fuerzan todos los datos a través de un único canal estrecho. Al mismo tiempo, mHC amplía esa ruta a múltiples canales, facilitando la transferencia de datos e información sin provocar un colapso del entrenamiento.
Lian Jye Su, analista jefe de Omdia, felicitó al CEO Wenfeng por publicar su investigación. Su destacó que la decisión de DeepSeek de publicar sus métodos de entrenamiento genera una renovada confianza en el sector de la IA en China. DeepSeek ha dominado el mundo en desarrollo. Microsoft publicó un informe el jueves que muestra que DeepSeek controla el 89% del mercado de IA en China y ha estado ganando terreno en los países en desarrollo.

