قامت شركة Anthropic Ponnergance بتعيين أحدث طرازات AI ، Claude 3.7 Sonnet ، على لعبة Pokémon Red classic على Nintendo's Game Boy. كان أداء النموذج أفضل بكثير مقارنة بالإصدارات السابقة وتمكن من إكمال 12 معالمًا في اللعبة.
في منشور مدونة ، كشفت الأنثروبور عن تفاصيل اختباراتها الأخيرة. نشرت الشركة رسم بياني ، يوضح "المعالم" في اللعبة على المحور ص و "عدد الإجراءات" على المحور السيني. لقد قارن أداء 3.7 Sonnet مع 3.5 Sonnet (جديد) ، 3.5 السوناتة ، و 3.0 السوناتة. من بين هذه النماذج ، كان أداء 3.7 أداءً أفضل بشكل واضح ، حيث أجرى أكثر من 35 ألف إجراء لتحقيق ما مجموعه 12 معالم. لقد كان ناجحًا ضد 3 قادة صالة رياضية في اللعبة وفاز في الشارات المعنية. للمقارنة ، لا يمكن أن يتخذ النموذج السابق للأنثروبور ، 3.0 Sonnet ، سوى بضعة آلاف من الإجراءات ولم يتمكن من عبور مراحل بدء اللعبة.

فيما يتعلق باختبارات اللعب الأخيرة ، لاحظت الأنثروبور ، "Pokémon هي وسيلة ممتعة لتقدير قدرات Claude 3.7 Sonnet ، لكننا نتوقع أن يكون لهذه القدرات تأثير حقيقي إلى ما هو أبعد من لعب الألعاب."
تتمثل إحدى الميزات الفريدة لـ Claude 3.7 Sonnet في أنها تشارك في "التفكير الموسع". تمامًا مثل Deepseek's R1 و O3-Mini بواسطة Openai ، فإن Claude 3.7 Sonnet قادر على التفكير من خلال المشكلات الأكثر صعوبة. يفعل هذا من خلال قضاء المزيد من الوقت ، وفي المقابل ، باستخدام المزيد من قوة الحوسبة.
ليس من الواضح بعد مقدار قوة الحوسبة Claude 3.7 المستهلكة لتحقيق المعالم المذكورة أعلاه. أيضًا ، لم يوضح الأنثروبور مقدار الوقت الذي استغرقه النموذج للوصول إلى الطفرة ، وهو آخر قائد صالة رياضية في اللعبة.
من الآمن افتراض أن اختبار Pokémon Red ليس أكثر من طريقة خفيفة لعرض إمكانات الطراز الجديد. إنه يوضح فقط أن النموذج الجديد قادر على التفكير الممتد وقد يستغرق المزيد من الوقت (إذا لزم الأمر) لحل مشاكل أكثر تعقيدًا. بعد كل شيء ، بدأ الباحثون في كثير من الأحيان في اختبار إمكانيات طرزهم من خلال جعلهم يلعبون ألعاب الفيديو مثل Street Fighter و Chess والمزيد.
يمكن أن يفكر كلود 3.7 Sonnet طالما يريد المستخدم
على ما يبدو ، كلود 3.7 سونيت قادر على التفكير طالما يريد المستخدم. يتم وصفه بأنه "نموذج التفكير الهجين AI" لأنه يعطي إجابات في الوقت الفعلي إلى جانب الاستجابات المدروسة. الأمر متروك للمستخدم ما إذا كان سيتم تشغيل قدراته المنطقية ، مما يؤدي إلى إنفاق Claude 3.7 Sonnet أكثر أو أقل من الوقت على المشكلة.
يبدو أن الهدف هنا هو تحسين تجربة المستخدم من خلال تبسيط الخيارات. تحتوي معظم chatbots اليوم على منتقي النماذج المربكة للمستخدم العادي. عادة ما يكون لهذه النماذج مجموعة من الإعدادات وتختلف في القدرات. على سبيل المثال ، لدى Openai's ChatGpt مجموعة واسعة من العروض أيضًا.
خريطة الطريق المحدثة لشركته أن الهدف طويل الأجل لـ Openai هو توحيد عروض ChatGpt حتى يتمكن المستخدمون من البحث عن حلول لمشاكلهم أثناء التنقل. وبهذا المعنى ، قد تتخذ ChatGPT أيضًا نهجًا يركز على الوكيل.
كلود 3.7 Sonnet أغلى من Deepseek R1 و O3-Mini
قامت الأنثروبور مؤخرًا بطرح كلود 3.7 Sonnet للمطورين والمستخدمين يوم الاثنين. ومع ذلك ، فإن ميزات التفكير النموذجية متاحة فقط لأولئك الذين يختارون خطط chatbot المتميزة. حتى الآن ، لا يكلف سوى 3 دولارات لكل مليون رموز إدخال و 15 دولارًا لكل مليون رموز إخراج. هذا يعني أنه يمكن للمستخدم إدخال 750،000 كلمة مقابل 3 دولارات. وبالتالي ، فهو أغلى من R1 بواسطة Deepseek و O3-Mini بواسطة ChatGPT. ومع ذلك ، فإن هذين النموذجين ليسا هجينة مثل كلود 3.7 سونيت ، وهما "نماذج التفكير" بدقة للغاية.
تعمل نماذج التفكير عمومًا أبطأ وتستغرق المزيد من الوقت للإجابة على سؤال. بعض الأمثلة تشمل Xai's Grok 3 (Think) ، و Gemini 2.0 Flash Thinking ، R1 من Deepseek ، وبالطبع ، طراز O3-Mini من ChatGpt.
وفقًا لـ Dianne Penn ، تقدم المنتج والبحث في الأنثروبور ، تريد الشركة أن يكون كلود قادرًا على تحديد المدة التي سيفكر فيها مشكلة بدلاً من أن يتعين على المستخدمين اختيار الإعدادات بشكل صريح. فيما يتعلق بهذا ، ذكرت الأنثروبور في منشور مدونتها ، "على غرار كيف ليس لدى البشر أدمغة منفصلة للأسئلة التي يمكن الإجابة عليها فورًا مقابل تلك التي تتطلب التفكير".
ومع ذلك ، على عكس Xai's Grok 3 ، الذي يحاول أن يكون أقل تقييدًا وأكثر انفتاحًا على المناقشات ، سيرفض كلود 3.7 Sonnet الإجابة على بعض الأسئلة. في الواقع ، في وقت سابق من هذا الشهر ، ذهبت نسخة بيتا Grok 3 إلى أبعد من اقتراح عقوبة AD*ATH لترامب ، وهو "فشل فظيع وسيئ" يفترض أنه تم تصحيحه منذ ذلك الحين ، كما أكد رئيس هندسة Xai ، Igor Babuschkin.

ومع ذلك ، بالمقارنة مع نماذجها السابقة ، فإنه يرفض في كثير من الأحيان ويكون قادرًا على التمييز بين المطالبات الحميدة والمطالبات الضارة. وفقًا للأنثروبور ، تم تخفيض الرفض غير الضروري بنسبة 45 ٪ بالمقارنة مع النموذج السابق ، Claude 3.5 Sonnet.
أكاديمية Cryptopolitan: هل تريد تنمية أموالك في عام 2025؟ تعرف على كيفية القيام بذلك مع DeFi في مناسنا الإلكتروني القادم. احفظ مكانك