Компания Anthropic провела тестирование своей новейшей модели искусственного интеллекта Claude 3.7 Sonnet с помощью игры Pokémon Red

- Компания Anthropic провела тестирование своей новейшей модели Claude 3.7 Sonnet с помощью игры Pokémon Red на Nintendo Game Boy.
- Модель смогла достичь 12 внутриигровых этапов и выполнила более 35 тысяч действий.
- Клод 3.7. Соннет может «думать» столько, сколько пожелает пользователь, в зависимости от сложности проблемы.
Компания Anthropic провела тестирование своей новейшей модели ИИ, Claude 3.7 Sonnet, на classic игре Pokémon Red для Nintendo Game Boy. Модель показала значительно лучшие результаты по сравнению с предыдущими версиями и смогла выполнить 12 заданий в игре.
В недавнем сообщении в блогекомпания Anthropic раскрыла подробности своих последних тестов. Компания опубликовала график, на котором по оси Y отображаются «Вехи» в игре, а по оси X — «Количество действий». Она сравнила производительность Sonnet 3.7 с Sonnet 3.5 (новая версия), Sonnet 3.5 и Sonnet 3.0. Среди этих моделей Sonnet 3.7 показала заметно лучшие результаты, выполнив более 35 000 действий для достижения 12 вех. Она успешно справилась с 3 лидерами спортзалов в игре и получила соответствующие значки. Для сравнения, более ранняя модель Anthropic, Sonnet 3.0, смогла выполнить лишь несколько тысяч действий и не смогла пройти начальные этапы игры.

Комментируя недавние тесты игрового процесса, компания Anthropic отметила: «Pokémon — это забавный способ оценить возможности Claude 3.7 Sonnet, но мы ожидаем, что эти возможности окажут реальное влияние далеко за пределами игрового процесса»
Одна из уникальных особенностей Claude 3.7 Sonnet заключается в том, что он задействует «расширенное мышление». Подобно DeepSeek R1 и o3-mini от OpenAI, Claude 3.7 Sonnet способен рассуждать над более сложными задачами. Он делает это, затрачивая больше времени и, соответственно, используя больше вычислительной мощности.
Пока неясно, сколько вычислительной мощности потребовалось Claude 3.7 для достижения вышеупомянутых результатов. Также Anthropic не уточнила, сколько времени потребовалось модели для достижения Surge, последнего лидера спортзала в игре.
Можно с уверенностью предположить, что тестирование Pokémon Red — это всего лишь шутливый способ продемонстрировать возможности новой модели. Оно просто показывает, что новая модель способна к расширенному рассуждению и может потребовать больше времени (при необходимости) для решения более сложных задач. В конце концов, исследователи часто начинают тестирование возможностей своих моделей, предлагая им поиграть в видеоигры, такие как Street Fighter, шахматы и другие.
Клод 3.7. Сонет может думать столько, сколько пожелает пользователь
По всей видимости, Claude 3.7 Sonnet способен думать столько, сколько пожелает пользователь. Его позиционируют как «гибридную модель логического мышления на основе ИИ», поскольку он предоставляет ответы в реальном времени наряду с продуманными решениями. Пользователь сам решает, включать ли его логические способности, в результате чего Claude 3.7 Sonnet будет тратить на решение задачи больше или меньше времени.
Похоже, цель здесь — улучшить пользовательский опыт за счет упрощения опций. Большинство современных чат-ботов имеют довольно запутанный для обычного пользователя интерфейс выбора модели. Эти модели обычно имеют множество настроек и различаются по своим возможностям. Например, ChatGPT от OpenAI также предлагает широкий спектр функций.
Фактически, Сэм Альтман недавно упомянул в обновленной дорожной карте , что долгосрочная цель OpenAI — объединить предложения ChatGPT, чтобы пользователи могли искать решения своих проблем на ходу. В этом смысле ChatGPT также может использовать подход, ориентированный на агентов.
Claude 3.7 Sonnet дороже, чем DeepSeek R1 и o3-mini
В понедельник компания Anthropic представила разработчикам и пользователям модель Claude 3.7 Sonnet. Однако функции логического мышления этой модели доступны только тем, кто выбрал премиальные тарифные планы для чат-ботов. На данный момент её стоимость составляет всего 3 доллара за миллион входных токенов и 15 долларов за миллион выходных токенов. Это означает, что пользователь может ввести 750 000 слов за 3 доллара. Следовательно, она дороже, чем R1 от DeepSeek и o3-mini от ChatGPT. Однако эти две модели не являются гибридами, как Claude 3.7 Sonnet, они представляют собой строго «модели логического мышления»
Как правило, модели логического мышления работают медленнее и требуют больше времени для ответа на вопрос. В качестве примеров можно привести Grok 3 (Think) от xAi, Gemini 2.0 Flash Thinking от Google, R1 от DeepSeek и, конечно же, модель o3-mini от ChatGPT.
По словам Дайан Пенн, руководителя отдела разработки продуктов и исследований в Anthropic, компания хочет, чтобы Claude мог сам решать, сколько времени ему потребуется для обдумывания проблемы, вместо того, чтобы пользователям приходилось явно выбирать эти настройки. В связи с этим Anthropic заявила в своем блоге: «Подобно тому, как у людей нет двух отдельных мозгов для вопросов, на которые можно ответить немедленно, и для тех, которые требуют обдумывания».
Однако, в отличие от Grok 3 от xAI, который стремится быть менее ограничительным и более открытым для обсуждений, Claude 3.7 Sonnet откажется отвечать на некоторые вопросы. В частности, в начале этого месяца бета-версия Grok 3 даже предложила применить к Трампу условный приговор, якобы «ужасный и плохой провал», который впоследствии был исправлен, что подтвердил руководитель отдела разработки xAI Игорь Бабушкин.

Однако, по сравнению с предыдущими моделями, она реже отказывается и способна различать безобидные и вредные подсказки. По данным компании Anthropic, количество необоснованных отказов сократилось на 45% по сравнению с предыдущей моделью, Claude 3.5 Sonnet.
Самые умные криптоаналитики уже читают нашу рассылку. Хотите присоединиться? Вступайте в их ряды.
Предупреждение. Предоставленная информация не является торговой рекомендацией. Cryptopolitanнастоятельно не несет ответственности за любые инвестиции, сделанные на основе информации, представленной на этой странице. Мыtrondentdentdentdentdentdentdentdent и/или проконсультироваться с квалифицированным специалистом, прежде чем принимать какие-либо инвестиционные решения.
КУРС
- Какие криптовалюты могут принести вам деньги?
- Как повысить безопасность своего кошелька (и какие из них действительно стоит использовать)
- Малоизвестные инвестиционные стратегии, используемые профессионалами
- Как начать инвестировать в криптовалюту (какие биржи использовать, какую криптовалюту лучше купить и т.д.)














