Антропический сравнивал свою последнюю модель искусственного интеллекта, Claude 3.7 Sonnet, на classic игре Pokémon Red на Game Boy Nintendo. Модель показала значительно лучше по сравнению с предыдущими версиями и сумела завершить 12 вех в игре.
В недавнем сообщении в блоге Anpropic раскрыл подробности своих недавних тестов. Компания опубликовала график, показывающий внутриигровые «вехи» на оси Y и «количество действий» на оси X. Он сравнил производительность 3,7 сонета с 3,5 сонетом (новым), 3,5 сонетом и 3,0 сонетом. Среди этих моделей 3,7 заметно выполнялись лучше, так как он выполнял более 35 тыс. Действий для достижения в общей сложности 12 вех. Он был успешным против 3 лидеров спортзала в игре и выиграл соответствующие значки. Для сравнения, более ранняя модель Anpropic, 3,0 Sonnet, могла предпринять всего несколько тысяч действий и не могла пересечь начальные этапы игры.

Что касается недавних тестов на игровой процесс, Антропик отметил: «Покемон-это интересный способ оценить возможности Claude 3.7 Sonnet, но мы ожидаем, что эти возможности окажут реальное влияние далеко за пределы игры».
Одна уникальная особенность Sonnet Claude 3.7 заключается в том, что он участвует в «расширенном мышлении». Так же, как Deepseek's R1 и O3-Mini от Openai, Claude 3.7 Сонет способен рассуждать с помощью проблем, которые являются более сложными. Это делает это, занимая больше времени и взамен, используя больше вычислительной мощности.
Пока не ясно, сколько вычислительной мощности Claude 3.7 потребляется для достижения вышеупомянутых вех. Кроме того, Антропик не дал понять, сколько времени модель потратила на всплеск, последний лидер спортзала в игре.
Можно с уверенностью предположить, что тестирование Pokémon Red-не что иное, как беззаботный способ отображения возможностей новой модели. Это просто показывает, что новая модель способна расширенным рассуждениям и может занять больше времени (если это необходимо), чтобы решить более сложные проблемы. В конце концов, исследователи часто начинали тестировать возможности своих моделей, заставляя их играть в видеоигры, такие как Street Fighter , шахматы и многое другое.
Claude 3.7 Sonnet может думать, пока пользователь хочет
По -видимому, Claude 3.7 Сонет способен думать, пока пользователь хочет. Это рекламируется как «гибридная модель рассуждения искусственного интеллекта», потому что она дает ответы в реальном времени вместе с продуманными ответами. Пользователь зависит от того, включает ли свои способности рассуждения, что приводит к тому, что Claude 3.7 Sonnet тратит более или меньше времени на проблему.
Кажется, что цель здесь - улучшить пользовательский опыт, упрощая варианты. У большинства чат -ботов сегодня есть сборщик модели, который довольно сбивает с толку среднего пользователя. Эти модели обычно имеют ряд настроек и различаются по возможностям. Например, у CHATGPT Openai также есть широкий спектр предложений.
Фактически, Сэм Альтман недавно упомянул в обновленной дорожной карте , что долгосрочная цель Openai-объединить предложения Chatgpt, чтобы пользователи могли искать решения своих проблем на ходу. В этом смысле CHATGPT может также использовать ориентированный на агента подход.
Claude 3.7 Сонет дороже, чем DeepSeek R1 и O3-Mini
В понедельник Anpropic недавно развернул Claude 3.7 Sonnet для разработчиков и пользователей. Тем не менее, функции рассуждений модели доступны только для тех, кто выбирает планы Premium Chatbot. Пока это стоит всего 3 доллара США за миллион входных токенов и 15 долларов США за миллион токенов. Это означает, что пользователь может ввести 750 000 слов за 3 доллара. Следовательно, это дороже, чем R1 от DeepSeek и O3-Mini от CHATGPT. Тем не менее, эти две модели не являются гибридами, такими как Sonnet Claude 3.7, они очень строго «модели рассуждений».
Модели рассуждений, как правило, работают медленнее и занимают больше времени, чтобы ответить на вопрос. Некоторые примеры включают в себя XAI GROK 3 (подумайте), Flash Gundi's Gemini 2.0, R1 от DeepSeek и, конечно же, модель O3-Mini от CHATGPT.
По словам Дайан Пенн, лидерство продукта и исследований в Anthropic, компания хочет, чтобы Клод смог решить, как долго она будет думать о проблеме вместо того, чтобы пользователи должны явно выбирать настройки. посте в блоге заявил «Антропик» : «Подобно тому, как у людей нет двух отдельных мозгов для вопросов, на которые можно ответить немедленно, по сравнению с теми, которые требуют мысли».
Однако, в отличие от Xai's Grok 3, который пытается быть менее ограничительным и более открытым для дискуссий, Claude 3.7 Сонет откажется отвечать на определенные вопросы. Фактически, в начале этого месяца бета -версия Grok 3 зашла так далеко, что предположила наказание Ad*ATH для Трампа, якобы «ужасная и плохая неудача», которая с тех пор была исправлена, как подтверждено руководителем инженерии XAI Игором Бабускином.

Однако по сравнению с предыдущими моделями он реже отказывается и способен проводить различия между доброкачественными подсказками и вредными подсказками. Согласно Антропику, ненужные отказы были уменьшены на 45% по сравнению с предыдущей моделью, Claude 3,5 Sonnet.
Криптополитическая академия: Хотите вырастить свои деньги в 2025 году? Узнайте, как сделать это с DeFi в нашем предстоящем веб -классе. Сохраните свое место