DeepSeek, la joven promesa tecnológica china, ha lanzado un nuevo modelo experimental, V3.2-Exp, como parte de su intento por desafiar el dominio estadounidense en IA. El lanzamiento se produjo el lunes y se hizo público por primera vez a través de una publicación en Hugging Face, un popular foro de IA.
DeepSeek afirma que esta última versión se basa en su modelo actual, V3.1-Terminus, pero contronénfasis en la velocidad, el costo y el manejo de la memoria.
Según Adina Yakefu, líder de la comunidad china de Hugging Face, el modelo presenta algo llamado DeepSeek Sparse Attention o DSA, que, según ella, "hace que la IA sea mejor en el manejo de documentos y conversaciones largas", al tiempo que reduce los costos operativos a la mitad.
Si recuerdan , hace aproximadamente un año, DeepSeek lanzó su primer modelo, R1, y lo revolucionó todo sin previo aviso. Ese modelo demostró que era posible entrenar un modelo de lenguaje extenso utilizando menos chips y mucha menos potencia de procesamiento. Nadie esperaba que un equipo chino lo lograra con esas limitaciones. Con V3.2-Exp, el objetivo no ha cambiado: menos hardware, mayor rendimiento.
Agrega atención dispersa de DeepSeek y reduce el costo de ejecución de la IA
DSA es la característica principal de este modelo. Cambia la forma en que la IA selecciona la información que analizar. En lugar de escanearlo todo, DeepSeek entrena el modelo para que se centre únicamente en lo que parece útil para la tarea. Adina explicó que el beneficio es doble: eficiencia y reducción de costos.
Al omitir datos irrelevantes, el modelo avanza más rápido y requiere menos energía. Añadió que el modelo se diseñó pensando en la colaboración de código abierto.
Nick Patience, quien lidera la investigación de IA en The Futurum Group, declaró a CNBC que el modelo tiene el potencial de abrir potentes herramientas de IA a los desarrolladores que no pueden permitirse usar modelos más costosos. "Debería hacer que el modelo sea más rápido y rentable de usar sin una disminución notable del rendimiento", afirmó Nick. Pero eso no significa que no existan riesgos.
La forma en que DeepSeek utiliza la atención dispersa es similar a cómo las aerolíneas eligen rutas de vuelo. Puede haber cientos de maneras de ir de un lugar a otro, pero solo unas pocas tienen sentido. El modelo filtra el ruido y se centra en lo que importa, o al menos en lo que cree que importa.
Pero esto conlleva preocupaciones. Ekaterina Almasque, cofundadora de BlankPage Capital, lo explicó de forma sencilla: «Básicamente, se eliminan las cosas que se consideran irrelevantes». Pero el problema, explicó, es que no hay garantía de que el modelo esté eliminando las correctas .
Ekaterina, quien ha respaldado empresas como Dataiku, Darktracy Graphcore, advirtió que tomar atajos podría causar problemas más adelante. "Los modelos de atención dispersa han perdido muchos matices", dijo. "Y entonces la verdadera pregunta es: ¿contaban con el mecanismo adecuado para excluir datos no importantes, o existe un mecanismo que excluya datos realmente importantes, y entonces el resultado será mucho menos relevante?"
Se conecta a chips chinos y publica código abierto
A pesar de estas preocupaciones, DeepSeek insiste en que la versión 3.2-Exp funciona tan bien como la versión 3.1-Terminus. El modelo también puede ejecutarse directamente en chips chinos como Ascend y Cambricon, sin necesidad de configuraciones adicionales. Esto es clave en el esfuerzo general de China por desarrollar IA con hardware nacional y reducir la dependencia de tecnología extranjera. "Desde el primer momento", afirmó Adina, DeepSeek funciona con estos chips.
La compañía también hizo públicos el código completo y las herramientas del modelo. Esto significa que cualquiera puede descargar, ejecutar, modificar o desarrollar sobre la versión V3.2-Exp. Esta medida se alinea con la estrategia de código abierto de DeepSeek, pero plantea otro problema: las patentes. Dado que el modelo es abierto y su idea central, la escasa atención, existe desde 2015, DeepSeek no puede restringirlo legalmente.
"El enfoque no es nada nuevo", dijo Ekaterina. Para ella, lo único defendible de esta tecnología es cómo DeepSeek decide qué conservar y qué ignorar.
Ahí es donde reside la verdadera competencia ahora. No solo en crear modelos más inteligentes, sino en hacerlos más rápidos, económicos y eficientes, sin afectar los resultados. Incluso DeepSeek calificó esta versión como "un paso intermedio hacia nuestra arquitectura de próxima generación", lo que sugiere que ya están trabajando en algo más grande.
Nick afirmó que el modelo demuestra que la eficiencia ahora es tan importante como la potencia bruta. Y Adina cree que la empresa tiene una visión a largo plazo. "DeepSeek está apostando a largo plazo para que la comunidad se mantenga comprometida con su progreso", afirmó. "La gente siempre optará por lo económico, fiable y eficaz"
Foto de 