COMING SOON: A New Way to Earn Passive Income with DeFi in 2025 LEARN MORE

حددت الأنثروبور أحدث نموذج Claude 3.7 Sonnet AI باستخدام Pokémon Red

في هذه التدوينة:

  • حققت أنثروبور في أحدث طرازات كلود 3.7 سونيت باستخدام Pokémon Red على Nintendo's Game Boy.
  • كان النموذج قادرًا على تحقيق 12 معلمًا في اللعبة وأدى أكثر من 35 ألف إجراء.
  • يمكن لـ Claude 3.7 Sonnet "التفكير" طالما يريد المستخدم أن يعتمد على تعقيد المشكلة.

قامت شركة Anthropic Ponnergance بتعيين أحدث طرازات AI ، Claude 3.7 Sonnet ، على لعبة Pokémon Red classic على Nintendo's Game Boy. كان أداء النموذج أفضل بكثير مقارنة بالإصدارات السابقة وتمكن من إكمال 12 معالمًا في اللعبة.

في منشور مدونة ، كشفت الأنثروبور عن تفاصيل اختباراتها الأخيرة. نشرت الشركة رسم بياني ، يوضح "المعالم" في اللعبة على المحور ص و "عدد الإجراءات" على المحور السيني. لقد قارن أداء 3.7 Sonnet مع 3.5 Sonnet (جديد) ، 3.5 السوناتة ، و 3.0 السوناتة. من بين هذه النماذج ، كان أداء 3.7 أداءً أفضل بشكل واضح ، حيث أجرى أكثر من 35 ألف إجراء لتحقيق ما مجموعه 12 معالم. لقد كان ناجحًا ضد 3 قادة صالة رياضية في اللعبة وفاز في الشارات المعنية. للمقارنة ، لا يمكن أن يتخذ النموذج السابق للأنثروبور ، 3.0 Sonnet ، سوى بضعة آلاف من الإجراءات ولم يتمكن من عبور مراحل بدء اللعبة.

نتائج كلود 3.7 سونيت لعب بوكيمون الأحمر (المصدر: الإنسان)

فيما يتعلق باختبارات اللعب الأخيرة ، لاحظت الأنثروبور ، "Pokémon هي وسيلة ممتعة لتقدير قدرات Claude 3.7 Sonnet ، لكننا نتوقع أن يكون لهذه القدرات تأثير حقيقي إلى ما هو أبعد من لعب الألعاب."

تتمثل إحدى الميزات الفريدة لـ Claude 3.7 Sonnet في أنها تشارك في "التفكير الموسع". تمامًا مثل Deepseek's R1 و O3-Mini بواسطة Openai ، فإن Claude 3.7 Sonnet قادر على التفكير من خلال المشكلات الأكثر صعوبة. يفعل هذا من خلال قضاء المزيد من الوقت ، وفي المقابل ، باستخدام المزيد من قوة الحوسبة.

ليس من الواضح بعد مقدار قوة الحوسبة Claude 3.7 المستهلكة لتحقيق المعالم المذكورة أعلاه. أيضًا ، لم يوضح الأنثروبور مقدار الوقت الذي استغرقه النموذج للوصول إلى الطفرة ، وهو آخر قائد صالة رياضية في اللعبة.

من الآمن افتراض أن اختبار Pokémon Red ليس أكثر من طريقة خفيفة لعرض إمكانات الطراز الجديد. إنه يوضح فقط أن النموذج الجديد قادر على التفكير الممتد وقد يستغرق المزيد من الوقت (إذا لزم الأمر) لحل مشاكل أكثر تعقيدًا. بعد كل شيء ، بدأ الباحثون في كثير من الأحيان في اختبار إمكانيات طرزهم من خلال جعلهم يلعبون ألعاب الفيديو مثل Street Fighter و Chess والمزيد.

راجع أيضًا  دعم موظفي Openai السابقين لدعوى إعادة هيكلة Musk

يمكن أن يفكر كلود 3.7 Sonnet طالما يريد المستخدم

على ما يبدو ، كلود 3.7 سونيت قادر على التفكير طالما يريد المستخدم. يتم وصفه بأنه "نموذج التفكير الهجين AI" لأنه يعطي إجابات في الوقت الفعلي إلى جانب الاستجابات المدروسة. الأمر متروك للمستخدم ما إذا كان سيتم تشغيل قدراته المنطقية ، مما يؤدي إلى إنفاق Claude 3.7 Sonnet أكثر أو أقل من الوقت على المشكلة.

يبدو أن الهدف هنا هو تحسين تجربة المستخدم من خلال تبسيط الخيارات. تحتوي معظم chatbots اليوم على منتقي النماذج المربكة للمستخدم العادي. عادة ما يكون لهذه النماذج مجموعة من الإعدادات وتختلف في القدرات. على سبيل المثال ، لدى Openai's ChatGpt مجموعة واسعة من العروض أيضًا.

خريطة الطريق المحدثة لشركته أن الهدف طويل الأجل لـ Openai هو توحيد عروض ChatGpt حتى يتمكن المستخدمون من البحث عن حلول لمشاكلهم أثناء التنقل. وبهذا المعنى ، قد تتخذ ChatGPT أيضًا نهجًا يركز على الوكيل.

كلود 3.7 Sonnet أغلى من Deepseek R1 و O3-Mini

قامت الأنثروبور مؤخرًا بطرح كلود 3.7 Sonnet للمطورين والمستخدمين يوم الاثنين. ومع ذلك ، فإن ميزات التفكير النموذجية متاحة فقط لأولئك الذين يختارون خطط chatbot المتميزة. حتى الآن ، لا يكلف سوى 3 دولارات لكل مليون رموز إدخال و 15 دولارًا لكل مليون رموز إخراج. هذا يعني أنه يمكن للمستخدم إدخال 750،000 كلمة مقابل 3 دولارات. وبالتالي ، فهو أغلى من R1 بواسطة Deepseek و O3-Mini بواسطة ChatGPT. ومع ذلك ، فإن هذين النموذجين ليسا هجينة مثل كلود 3.7 سونيت ، وهما "نماذج التفكير" بدقة للغاية.

راجع أيضًا  ملفات Openai في المقدمة ضد Elon Musk لمنعه من الاستيلاء على الشركة

تعمل نماذج التفكير عمومًا أبطأ وتستغرق المزيد من الوقت للإجابة على سؤال. بعض الأمثلة تشمل Xai's Grok 3 (Think) ، و Gemini 2.0 Flash Thinking ، R1 من Deepseek ، وبالطبع ، طراز O3-Mini من ChatGpt.

وفقًا لـ Dianne Penn ، تقدم المنتج والبحث في الأنثروبور ، تريد الشركة أن يكون كلود قادرًا على تحديد المدة التي سيفكر فيها مشكلة بدلاً من أن يتعين على المستخدمين اختيار الإعدادات بشكل صريح. فيما يتعلق بهذا ، ذكرت الأنثروبور في منشور مدونتها ، "على غرار كيف ليس لدى البشر أدمغة منفصلة للأسئلة التي يمكن الإجابة عليها فورًا مقابل تلك التي تتطلب التفكير".

ومع ذلك ، على عكس Xai's Grok 3 ، الذي يحاول أن يكون أقل تقييدًا وأكثر انفتاحًا على المناقشات ، سيرفض كلود 3.7 Sonnet الإجابة على بعض الأسئلة. في الواقع ، في وقت سابق من هذا الشهر ، ذهبت نسخة بيتا Grok 3 إلى أبعد من اقتراح عقوبة AD*ATH لترامب ، وهو "فشل فظيع وسيئ" ​​يفترض أنه تم تصحيحه منذ ذلك الحين ، كما أكد رئيس هندسة Xai ، Igor Babuschkin.

اقترح Grok 3 Beta أن دونالد ترامب يستحق ركلة جزاء (المصدر: X)

ومع ذلك ، بالمقارنة مع نماذجها السابقة ، فإنه يرفض في كثير من الأحيان ويكون قادرًا على التمييز بين المطالبات الحميدة والمطالبات الضارة. وفقًا للأنثروبور ، تم تخفيض الرفض غير الضروري بنسبة 45 ٪ بالمقارنة مع النموذج السابق ، Claude 3.5 Sonnet.

أكاديمية Cryptopolitan: هل تريد تنمية أموالك في عام 2025؟ تعرف على كيفية القيام بذلك مع DeFi في مناسنا الإلكتروني القادم. احفظ مكانك

رابط المشاركة:

تنصل. المعلومات المقدمة ليست نصيحة تجارية. Cryptopolitan.com أي مسؤولية عن أي استثمارات تتم بناءً على المعلومات المقدمة في هذه الصفحة. نوصي tron dent و / أو استشارة متخصص مؤهل قبل اتخاذ أي قرارات استثمارية .

الأكثر قراءة

جارٍ تحميل المقالات الأكثر قراءة...

ابق على اطلاع بأخبار العملات المشفرة، واحصل على تحديثات يومية في بريدك الوارد

اختيار المحرر

جارٍ تحميل مقالات اختيار المحرر...

- النشرة الإخبارية للتشفير التي تبقيك في المقدمة -

الأسواق تتحرك بسرعة.

نتحرك بشكل أسرع.

اشترك في Cryptopolitan يوميًا واحصل على رؤى التشفير في الوقت المناسب وحاد وذات الصلة مباشرة إلى صندوق الوارد الخاص بك.

انضم الآن
ولا تفوت هذه الخطوة.

احصل على الحقائق.
تقدم.

اشترك في كريبتوبوليتان