ÚLTIMAS NOTICIAS
SELECCIONADO PARA TI
SEMANALMENTE
MANTÉNGASE EN LA CIMA

Los mejores análisis sobre criptomonedas directamente en tu bandeja de entrada.

DeepSeek de China presenta un modelo de IA de última generación para competir con GPT-5. ¿Pero es lo suficientemente bueno?

PorJai HamidJai Hamid
3 minutos de lectura
DeepSeek de China presenta un modelo de IA de última generación, diseñado para competir con GPT-5. ¿Pero es lo suficientemente bueno?
  • DeepSeek lanzó el lunes su nuevo modelo V3.2-Exp con el foco puesto en la velocidad, la reducción de costos y el manejo de grandes cantidades de datos.
  • El modelo introduce DeepSeek Sparse Attention, que omite datos irrelevantes para mejorar la eficiencia y reducir los costos a la mitad.
  • Los expertos advierten que la escasa atención podría eliminar información importante y reducir la confiabilidad a pesar de sus beneficios.

DeepSeek, la joven promesa tecnológica china, ha lanzado un nuevo modelo experimental, V3.2-Exp, como parte de su intento por desafiar el dominio estadounidense en IA. El lanzamiento se produjo el lunes y se hizo público por primera vez a través de una publicación en Hugging Face, un popular foro de IA.

DeepSeek afirma que esta última versión se basa en su modelo actual, V3.1-Terminus, pero contronénfasis en la velocidad, el costo y el manejo de la memoria.

Según Adina Yakefu, líder de la comunidad china de Hugging Face, el modelo presenta algo llamado DeepSeek Sparse Attention o DSA, que, según ella, "hace que la IA sea mejor en el manejo de documentos y conversaciones largas", al tiempo que reduce los costos operativos a la mitad.

Si recuerdan ,hace aproximadamente un año, DeepSeek causó revuelo al lanzar su primer modelo, R1, sin previo aviso. Ese modelo demostró que era posible entrenar un modelo de lenguaje complejo con menos chips y mucha menos potencia de cálculo. Nadie esperaba que un equipo chino lo lograra con esas limitaciones. Con la versión 3.2-Exp, el objetivo sigue siendo el mismo: menos hardware, mayor rendimiento.

Agrega atención dispersa de DeepSeek y reduce el costo de ejecución de la IA

El análisis de sensibilidad dinámica (DSA) es la característica principal de este modelo. Modifica la forma en que la IA selecciona la información que debe analizar. En lugar de escanearlo todo, DeepSeek entrena al modelo para que se centre únicamente en lo que parece útil para la tarea. Adina explicó que el beneficio es doble: mayor eficiencia y reducción de costes.

Al omitir datos irrelevantes, el modelo avanza más rápido y requiere menos energía. Añadió que el modelo se diseñó pensando en la colaboración de código abierto.

Nick Patience, quien lidera la investigación de IA en The Futurum Group, declaró a CNBC que el modelo tiene el potencial de abrir potentes herramientas de IA a los desarrolladores que no pueden permitirse usar modelos más costosos. "Debería hacer que el modelo sea más rápido y rentable de usar sin una disminución notable del rendimiento", afirmó Nick. Pero eso no significa que no existan riesgos.

La forma en que DeepSeek utiliza la atención dispersa es similar a cómo las aerolíneas eligen sus rutas de vuelo. Puede haber cientos de maneras de ir de un lugar a otro, pero solo unas pocas tienen sentido. El modelo filtra el ruido y se centra en lo que importa, o al menos en lo que cree que importa.

Pero esto genera inquietudes. Ekaterina Almasque, cofundadora de BlankPage Capital, lo explicó de forma sencilla: «Básicamente, se eliminan las cosas que se consideran poco importantes». Sin embargo, el problema, según ella, es que no hay garantía de que este modelo esté eliminando lo correcto .

Ekaterina, quien ha respaldado empresas como Dataiku, Darktracy Graphcore, advirtió que tomar atajos podría causar problemas más adelante. "Los modelos de atención dispersa han perdido muchos matices", dijo. "Y entonces la verdadera pregunta es: ¿contaban con el mecanismo adecuado para excluir datos no importantes, o existe un mecanismo que excluya datos realmente importantes, y entonces el resultado será mucho menos relevante?"

Se conecta a chips chinos y publica código abierto

A pesar de estas preocupaciones, DeepSeek insiste en que la versión 3.2-Exp funciona igual de bien que la versión 3.1-Terminus. El modelo también puede ejecutarse directamente en chips chinos como Ascend y Cambricon, sin necesidad de configuraciones adicionales. Esto es fundamental en el esfuerzo general de China por desarrollar IA con hardware propio y reducir la dependencia de tecnología extranjera. «DeepSeek funciona con estos chips sin necesidad de configuración adicional», afirmó Adina.

La compañía también hizo públicos el código completo y las herramientas del modelo. Esto significa que cualquiera puede descargar, ejecutar, modificar o desarrollar sobre la versión V3.2-Exp. Esta medida se alinea con la estrategia de código abierto de DeepSeek, pero plantea otro problema: las patentes. Dado que el modelo es abierto y su idea central, la escasa atención, existe desde 2015, DeepSeek no puede restringirlo legalmente.

"El enfoque no es nada nuevo", dijo Ekaterina. Para ella, lo único defendible de esta tecnología es cómo DeepSeek decide qué conservar y qué ignorar.

Ahí es donde reside la verdadera competencia ahora. No solo en crear modelos más inteligentes, sino en hacerlos más rápidos, económicos y eficientes, sin afectar los resultados. Incluso DeepSeek calificó esta versión como "un paso intermedio hacia nuestra arquitectura de próxima generación", lo que sugiere que ya están trabajando en algo más grande.

Nick afirmó que el modelo demuestra que la eficiencia ahora es tan importante como la potencia bruta. Y Adina cree que la empresa tiene una visión a largo plazo. "DeepSeek está apostando a largo plazo para que la comunidad se mantenga comprometida con su progreso", afirmó. "La gente siempre optará por lo económico, fiable y eficaz"

Si estás leyendo esto, ya llevas ventaja. Mantente al día con nuestro boletín informativo.

Comparte este artículo
MÁS… NOTICIAS
INTENSIVO CRIPTOMONEDAS
CURSO