En el cambiante panorama de la inteligencia artificial, ha surgido un actor relativamente nuevo, causando revuelo en el mundo tecnológico. Mixtral 8x7B, desarrollado por la empresa francesa de inteligencia artificial Mistral AI, está llamando la atención con su enfoque único y sus impresionantes capacidades. Este artículo analiza en profundidad qué distingue a Mixtral 8x7B y por qué está causando furor en la comunidad de la IA.
Mixtral 8x7B: Un cambio de juego
Mientras el mundo tecnológico estaba cautivado por la actualización Gemini de Google para Bard, Mixtral 8x7B entró discretamente en escena. Su principal diferencia es el uso de una Mezcla de Expertos (MoE) para generar respuestas de tipo humano. Este enfoque difiere significativamente de modelos como ChatGPT y Google Bard. Cabe destacar que Mixtral 8x7B cuenta con un formidable modelo de 46.7 mil millones de parámetros, pero consume solo una fracción de los recursos de hardware.
El rendimiento de Mixtral 8x7B no debe subestimarse. Iguala o incluso supera condental reconocido modelo GPT-3.5 de ChatGPT y al modelo Llama 2 70B de Meta. Este modelo de código abierto cuenta con licencia Apache 2.0, lo que permite a cualquier persona acceder a él y usarlo. No se limita a un solo idioma, ya que funciona sin problemas en inglés, francés, italiano, alemán y español. Además, tiene la capacidad de generar código.
Conozca a Mistral AI: el cerebro detrás de la revolución de la IA
Mistral AI, la mente detrás de Mixtral, es una empresa francesa de inteligencia artificial fundada por investigadores con experiencia previa tanto en Meta como en Google. Este año, Mistral AI causó sensación al conseguir cerca de 450 millones de euros de financiación. El lanzamiento de Mixtral 8x7B, su último modelo, fue poco convencional, con un enlace a un imán de Torrent anodino compartido en Twitter .
imán:?xt=urn:btih:5546272da9065eddeb6fcd7ffddeef5b75be79a7&dn=mixtral-8x7b-32kseqlen&tr=udp%3A%2F% https://t.co/uV4WVdtpwZ %3A6969%2Fannounce&tr=http%3A%2F%https://t.co/g0m9cEUz0T%3A80%2Fannounce
— Mistral AI (@MistralAI) 8 de diciembre de 2023
LANZAMIENTO a6bbd9affe0c2725c1b7410d66833e24
La ventaja del MoE
Mixtral emplea una arquitectura MoE para procesar los tokens entrantes y distribuirlos a varios expertos dentro del sistema. Cada experto es esencialmente una red neuronal, y Mixtral 8x7B cuenta con ocho. Esta arquitectura permite MoE jerárquicos, donde un experto puede ser a su vez otro MoE. Cuando se envía una solicitud a Mixtral 8x7B, una red de enrutadores selecciona al experto más eficaz para procesar cada token. Curiosamente, se eligen dos expertos por token y sus resultados se combinan.
Los MoE tienen sus fortalezas y debilidades. Destacan en eficiencia computacional durante el preentrenamiento, pero pueden ser víctimas de sobreajuste durante el ajuste fino. El sobreajuste, en este contexto, se refiere a modelos que dependen demasiado de sus datos de entrenamiento y los reproducen textualmente en las respuestas. Como aspecto positivo, los MoE ofrecen tiempos de inferencia más rápidos, ya que solo se utiliza un subconjunto de expertos durante la inferencia.
Sin embargo, aún requieren suficiente RAM para albergar un modelo de 47 mil millones de parámetros. Estos 47 mil millones de parámetros difieren de los 56 mil millones esperados, ya que muchos de ellos se comparten entre los MoE y no todos los 7 mil millones de parámetros de cada experto se multiplican por ocho.
Fácil de usar y accesible
Una de las características destacadas de Mixtral 8x7B es su facilidad de uso. Es totalmente personalizable y cualquier persona con un ordenador potente puede implementarlo. Los usuarios pueden ejecutarlo localmente con LM Studio, lo que garantiza un control óptimo del comportamiento del modelo. Además, se pueden habilitar barandillas de seguridad para proteger contra contenido potencialmente dañino, aunque no están activadas por defecto. Esto garantiza una experiencia de IA segura y responsable.
Para quienes prefieren no ejecutar Mixtral localmente o no cuentan con los requisitos de hardware necesarios, está disponible en Hugging Face. La implementación de Hugging Face incluye barandillas predeterminadas, lo que ofrece una experiencia similar a ChatGPT 3.5 en cuanto a rendimiento y la variedad de consultas que puede gestionar. Mixtral 8x7B no se especializa en un dominio específico; es un modelo de lenguaje amplio, versátil y completo.
El futuro de la IA generativa
A medida que la tecnología continúa avanzando, 2023 ha sido testigo de un auge en los modelos de IA generativa. Se espera que el panorama evolucione aún más durante el próximo año, con la posibilidad de lanzar más modelos y mejoras continuas. Con los rumores que circulan sobre OpenAI y la posible llegada de la Inteligencia Artificial General, el mundo de la IA se prepara para desarrollos aún más emocionantes en el futuro cercano. Mixtral está llamado a formar parte de ese futuro.

