В стремительно развивающемся мире искусственного интеллекта появился относительно новый игрок, вызвавший переполох в мире технологий. Mixtral 8x7B, разработанный французской компанией Mistral AI, специализирующейся на искусственном интеллекте, привлекает внимание своим уникальным подходом и впечатляющими возможностями. В этой статье мы рассмотрим, что делает Mixtral 8x7B таким выдающимся и почему он вызывает такой ажиотаж в сообществе ИИ.
Mixtral 8x7B: революционный вариант
Пока мир технологий был захвачен обновлением Google Gemini для Bard, Mixtral 8x7B незаметно включился в борьбу. Его отличительной чертой является использование алгоритма «Смесь экспертов» (MoE) для генерации ответов, максимально приближенных к человеческим. Этот подход существенно отличается от таких моделей, как ChatGPT и Google Bard. Примечательно, что Mixtral 8x7B может похвастаться впечатляющей моделью с 46,7 миллиардами параметров, при этом потребляя лишь малую часть аппаратных ресурсов.
Производительность Mixtral 8x7B нельзя недооценивать. Онаdentсоответствует или даже превосходит знаменитые модели ChatGPT GPT-3.5 и Llama 2 70B от Meta. Эта модель с открытым исходным кодом лицензирована Apache 2.0, что позволяет любому получить к ней доступ и использовать её. Она не ограничена одним языком, поскольку без проблем работает на английском, французском, итальянском, немецком и испанском языках. Более того, она обладает возможностью генерации кода.
Знакомьтесь с Mistral AI — интеллектом, стоящим за революцией ИИ
Mistral AI, создатель Mixtral, — французская компания, занимающаяся разработкой искусственного интеллекта, основанная исследователями с опытом работы в Meta и Google. В этом году Mistral AI произвела фурор, получив около 450 миллионов евро финансирования. Выпуск Mixtral 8x7B, их последней модели, был далёк от традиционного: в Твиттере .
магнит:?xt=urn:btih:5546272da9065eddeb6fcd7ffddeef5b75be79a7&dn=mixtral-8x7b-32kseqlen&tr=udp%3A%2F% https://t.co/uV4WVdtpwZ %3A6969%2Fannounce&tr=http%3A%2F%https://t.co/g0m9cEUz0T%3A80%2Fannounce
— Mistral AI (@MistralAI) 8 декабря 2023 г
РЕЛИЗ a6bbd9affe0c2725c1b7410d66833e24
Преимущество Министерства образования
Mixtral использует архитектуру MoE для обработки входящих токенов, распределяя их между различными экспертами в системе. Каждый эксперт, по сути, представляет собой нейронную сеть, а в Mixtral 8x7B их восемь. Эта архитектура допускает иерархические MoE, где эксперт может сам быть другим MoE. При отправке запроса в Mixtral 8x7B сеть маршрутизаторов выбирает наиболее эффективного эксперта для обработки каждого токена. Примечательно, что для каждого токена выбираются два эксперта, и их результаты объединяются.
У MoE есть свои сильные и слабые стороны. Они превосходны с точки зрения вычислительной эффективности на этапе предобучения, но могут стать жертвой переобучения во время тонкой настройки. Переобучение в данном контексте означает, что модели слишком сильно полагаются на свои тренировочные данные и дословно воспроизводят их в ответах. С другой стороны, MoE обеспечивают более быстрое время вывода, поскольку в процессе вывода используется только подмножество экспертов.
Однако им по-прежнему требуется достаточный объём оперативной памяти для размещения модели с 47 миллиардами параметров. Эти 47 миллиардов параметров отличаются от ожидаемых 56 миллиардов, поскольку многие параметры являются общими для всех модулей, и не все 7 миллиардов параметров в каждом эксперте умножаются на восемь.
Удобный и доступный
Одна из примечательных особенностей Mixtral 8x7B — его удобство использования. Он полностью настраивается пользователем и доступен для развёртывания любому, у кого достаточно мощный компьютер. Пользователи могут запустить его локально с помощью LM Studio, обеспечивая оптимальный контроль над поведением модели. Кроме того, можно включить защитные барьеры для защиты от потенциально опасного контента, хотя по умолчанию они не активированы. Это обеспечивает безопасное и ответственное использование ИИ.
Для тех, кто предпочитает не запускать Mixtral локально или не имеет соответствующих аппаратных требований, он доступен на Hugging Face. Реализация Hugging Face имеет стандартные ограничения, обеспечивая схожий с ChatGPT 3.5 уровень производительности и широкий спектр обрабатываемых запросов. Mixtral 8x7B не специализируется на какой-то конкретной области; это, скорее, универсальная и комплексная большая языковая модель.
Будущее генеративного ИИ
По мере развития технологий в 2023 году наблюдается всплеск популярности генеративных моделей ИИ. Ожидается, что в следующем году ситуация продолжит развиваться, возможно появление новых моделей и их постоянное совершенствование. Учитывая слухи об OpenAI и потенциальном появлении искусственного интеллекта общего назначения, мир ИИ ожидает ещё более захватывающее развитие в ближайшем будущем. Mixtral станет частью этого будущего.

