No cenário da inteligência artificial em rápida evolução, um novo participante surgiu, causando alvoroço no mundo da tecnologia. O Mixtral 8x7B, desenvolvido pela empresa francesa de inteligência artificial Mistral AI, está chamando a atenção com sua abordagem única e capacidades impressionantes. Este artigo explora o que torna o Mixtral 8x7B especial e por que ele está gerando tanto burburinho na comunidade de IA.
Mixtral 8x7B: Um divisor de águas
Enquanto o mundo da tecnologia estava fascinado pela atualização Gemini do Google para o Bard, o Mixtral 8x7B entrou silenciosamente na disputa. O que o diferencia é o uso de uma Mistura de Especialistas (MoE) para gerar respostas semelhantes às humanas. Essa abordagem difere significativamente de modelos como o ChatGPT e o Google Bard. Notavelmente, o Mixtral 8x7B possui um modelo formidável com 46,7 bilhões de parâmetros, mas exige apenas uma fração dos recursos de hardware.
O desempenho do Mixtral 8x7B não deve ser subestimado. Ele iguala ou até mesmo superadento renomado modelo GPT-3.5 do ChatGPT e o modelo Llama 270B da Meta. Este modelo de código aberto é licenciado sob a Apache 2.0, permitindo que qualquer pessoa o acesse e utilize. Ele não se limita a um único idioma, pois funciona perfeitamente em inglês, francês, italiano, alemão e espanhol. Além disso, possui a capacidade de gerar código.
Conheça a Mistral AI – A mente por trás da revolução da IA
A Mistral AI, empresa por trás do Mixtral, é uma empresa francesa de IA fundada por pesquisadores com experiência anterior na Meta e no Google. Este ano, a Mistral AI causou impacto ao garantir cerca de 450 milhões de euros em financiamento. O lançamento do Mixtral 8x7B, seu modelo mais recente, foi bem atípico, com um link magnético de torrent discreto compartilhado no Twitter .
ímã:?xt=urna:btih:5546272da9065eddeb6fcd7ffddeef5b75be79a7&dn=mixtral-8x7b-32kseqlen&tr=udp%3A%2F% https://t.co/uV4WVdtpwZ %3A6969%2Fannounce&tr=http%3A%2F%https://t.co/g0m9cEUz0T%3A80%2Fannounce
— Mistral AI (@MistralAI) 8 de dezembro de 2023
RELEASE a6bbd9affe0c2725c1b7410d66833e24
A vantagem do Ministério da Educação
O Mixtral utiliza uma arquitetura MoE para processar os tokens recebidos, distribuindo-os para diversos especialistas dentro do sistema. Cada especialista é essencialmente uma rede neural, e o Mixtral 8x7B possui oito delas. Essa arquitetura permite MoEs hierárquicas, onde um especialista pode ser, ele próprio, outro MoE. Quando uma solicitação é enviada ao Mixtral 8x7B, uma rede de roteamento seleciona o especialista mais eficaz para processar cada token. Curiosamente, dois especialistas são escolhidos por token, e suas saídas são combinadas.
Os Modelos de Especialistas (MoEs) têm seus pontos fortes e fracos. Eles se destacam em termos de eficiência computacional durante o pré-treinamento, mas podem sofrer de sobreajuste (overfitting) durante o ajuste fino. Sobreajuste, neste contexto, refere-se a modelos que dependem excessivamente de seus dados de treinamento e os reproduzem literalmente nas respostas. Por outro lado, os MoEs oferecem tempos de inferência mais rápidos, já que apenas um subconjunto de especialistas é utilizado durante a inferência.
No entanto, ainda exigem RAM suficiente para acomodar um modelo com 47 bilhões de parâmetros. Os 47 bilhões de parâmetros diferem dos 56 bilhões esperados, pois muitos parâmetros são compartilhados entre os Ministérios da Educação, e nem todos os 7 bilhões de parâmetros em cada especialista são multiplicados por oito.
Fácil de usar e acessível
Uma das características notáveis do Mixtral 8x7B é a sua facilidade de uso. Ele é totalmente configurável pelo usuário e pode ser implementado por qualquer pessoa com um computador suficientemente potente. Os usuários podem executá-lo localmente usando o LM Studio, garantindo controle ideal sobre o comportamento do modelo. Além disso, mecanismos de proteção podem ser ativados para evitar conteúdo potencialmente prejudicial, embora não estejam ativados por padrão. Isso garante uma experiência de IA segura e responsável.
Para aqueles que preferem não executar o Mixtral localmente ou não possuem os requisitos de hardware, ele está disponível no Hugging Face. A implementação do Hugging Face vem com configurações padrão, oferecendo uma experiência similar ao ChatGPT 3.5 em termos de desempenho e variedade de consultas que pode processar. O Mixtral 8x7B não se especializa em um domínio específico; em vez disso, é um modelo de linguagem amplo, versátil e abrangente.
O futuro da IA generativa
Com o avanço contínuo da tecnologia, 2023 testemunhou um aumento expressivo nos modelos de IA generativa. A expectativa é que o cenário evolua ainda mais no próximo ano, com a possibilidade de lançamento de mais modelos e melhorias contínuas. Com rumores circulando sobre a OpenAI e o potencial advento da Inteligência Artificial Geral, o mundo da IA está prestes a vivenciar desenvolvimentos ainda mais empolgantes em um futuro próximo. A Mixtral está preparada para fazer parte desse futuro.

