قامت شركة أنثروبيك بتقييم أداء أحدث نموذج ذكاء اصطناعي لها، كلود 3.7 سونيت، باستخدام لعبة بوكيمون ريد

- قامت شركة أنثروبيك بتقييم أحدث طرازاتها من طراز Claude 3.7 Sonnet باستخدام لعبة Pokémon Red على جهاز Game Boy من نينتندو.
- تمكن النموذج من تحقيق 12 إنجازاً داخل اللعبة وقام بأكثر من 35 ألف إجراء.
- يستطيع برنامج Claude 3.7 Sonnet "التفكير" طالما أراد المستخدم ذلك اعتمادًا على مدى تعقيد المشكلة.
أجرت شركة أنثروبيك اختبارات الأداء على أحدث نماذجها للذكاء الاصطناعي، كلود 3.7 سونيت، باستخدام لعبة بوكيمون ريد classic على جهاز نينتندو جيم بوي. وقد حقق النموذج أداءً أفضل بكثير مقارنةً بالإصدارات السابقة، وتمكن من إكمال 12 مرحلة في اللعبة.
في منشور حديث على مدونتها، كشفت شركة أنثروبيك عن تفاصيل اختباراتها الأخيرة. ونشرت الشركة رسمًا بيانيًا يُظهر "المراحل الرئيسية" داخل اللعبة على المحور الرأسي و"عدد الحركات" على المحور الأفقي. وقارنت أداء سونيت 3.7 مع سونيت 3.5 (الجديد)، وسونيت 3.5، وسونيت 3.0. ومن بين هذه النماذج، تفوق سونيت 3.7 بشكل ملحوظ، حيث نفّذ أكثر من 35 ألف حركة ليحقق 12 مرحلة رئيسية. وقد نجح في مواجهة 3 من قادة الصالات الرياضية في اللعبة وفاز بالشارات الخاصة بهم. وللمقارنة، لم يتمكن نموذج أنثروبيك السابق، سونيت 3.0، إلا من تنفيذ بضعة آلاف من الحركات ولم يستطع حتى اجتياز المراحل الأولى من اللعبة.

وفيما يتعلق باختبارات اللعب الأخيرة، أشارت شركة أنثروبيك إلى أن "بوكيمون هي طريقة ممتعة لتقدير قدرات كلود 3.7 سونيت، لكننا نتوقع أن يكون لهذه القدرات تأثير حقيقي يتجاوز بكثير مجرد لعب الألعاب"
إحدى الميزات الفريدة لنموذج Claude 3.7 Sonnet هي قدرته على التفكير الموسع. فمثل نموذجي DeepSeek's R1 و o3-mini من OpenAI، يتمتع Claude 3.7 Sonnet بالقدرة على حل المشكلات الأكثر تعقيدًا. ويتحقق ذلك من خلال استغراق وقت أطول، وبالتالي استخدام قدرة حاسوبية أكبر.
لم يتضح بعد مقدار قوة الحوسبة التي استهلكها كلود 3.7 لتحقيق الإنجازات المذكورة. كما لم توضح شركة أنثروبيك المدة التي استغرقها النموذج للوصول إلى سيرج، آخر قائد صالة رياضية في اللعبة.
من الآمن افتراض أن اختبار لعبة بوكيمون الأحمر ليس إلا طريقةً مرحةً لعرض قدرات النموذج الجديد. فهو يُظهر ببساطة أن النموذج الجديد قادر على التفكير المنطقي الموسع، وقد يستغرق وقتًا أطول (إذا لزم الأمر) لحل المشكلات الأكثر تعقيدًا. ففي النهاية، اعتاد الباحثون اختبار قدرات نماذجهم من خلال جعلها تلعب ألعاب فيديو مثل ستريت فايتروالشطرنج وغيرها.
يستطيع برنامج Claude 3.7 Sonnet التفكير طالما أراد المستخدم
يبدو أن برنامج Claude 3.7 Sonnet قادر على التفكير بقدر ما يرغب المستخدم. يُوصف بأنه "نموذج ذكاء اصطناعي هجين للاستدلال" لأنه يُقدم إجابات فورية إلى جانب ردود مدروسة. ويعود للمستخدم حرية تفعيل قدراته الاستدلالية، مما يُتيح له قضاء وقت أطول أو أقل في حل المشكلة.
يبدو أن الهدف هنا هو تحسين تجربة المستخدم من خلال تبسيط الخيارات. فمعظم برامج الدردشة الآلية اليوم تحتوي على أداة لاختيار النموذج قد تكون مربكة للمستخدم العادي. وعادةً ما تتضمن هذه النماذج مجموعة من الإعدادات وتختلف في قدراتها. على سبيل المثال، يقدم نموذج ChatGPT من OpenAI مجموعة واسعة من الخيارات أيضًا.
في الواقع، ذكر سام ألتمان مؤخرًا في خارطة طريق شركته المُحدَّثة أن الهدف طويل الأمد لشركة OpenAI هو توحيد عروض ChatGPT بحيث يتمكن المستخدمون من البحث عن حلول لمشاكلهم أثناء التنقل. وبهذا المعنى، قد يتبنى ChatGPT أيضًا نهجًا يركز على الوكيل.
يُعدّ Claude 3.7 Sonnet أغلى من DeepSeek R1 و o3-mini
أطلقت شركة أنثروبيك مؤخرًا نموذج Claude 3.7 Sonnet للمطورين والمستخدمين يوم الاثنين. مع ذلك، فإن ميزات الاستدلال في النموذج متاحة فقط لمشتركي باقات الدردشة المدفوعة. حتى الآن، تبلغ تكلفة مليون رمز إدخال 3 دولارات فقط، و15 دولارًا لكل مليون رمز إخراج. هذا يعني أن المستخدم يستطيع إدخال 750,000 كلمة مقابل 3 دولارات. وبالتالي، فهو أغلى من كلٍ من R1 من DeepSeek وo3-mini من ChatGPT. مع ذلك، فإن هذين النموذجين ليسا هجينين مثل Claude 3.7 Sonnet، بل هما نموذجان متخصصان في الاستدلال فقط
تعمل نماذج الاستدلال عمومًا بشكل أبطأ وتستغرق وقتًا أطول للإجابة على سؤال ما. ومن الأمثلة على ذلك Grok 3 (Think) من xAi، وGemini 2.0 Flash Thinking من Google، وR1 من DeepSeek، وبالطبع نموذج o3-mini من ChatGPT.
بحسب ديان بن، رئيسة قسم المنتجات والأبحاث في شركة أنثروبيك، فإن الشركة ترغب في أن يتمكن كلود من تحديد المدة الزمنية التي سيستغرقها في التفكير في المشكلة، بدلاً من أن يختار المستخدمون الإعدادات بشكل صريح. وفي هذا الصدد، ذكرت أنثروبيك في منشورها على المدونة: "تمامًا كما لا يمتلك البشر دماغين منفصلين، أحدهما للأسئلة التي يمكن الإجابة عليها فورًا، والآخر للأسئلة التي تتطلب تفكيرًا".
مع ذلك، وعلى عكس Grok 3 من xAI، الذي يسعى إلى أن يكون أقل تقييدًا وأكثر انفتاحًا على النقاش، فإن Claude 3.7 Sonnet سيرفض الإجابة على بعض الأسئلة. في الواقع، في وقت سابق من هذا الشهر، ذهبت النسخة التجريبية من Grok 3 إلى حد اقتراح عقوبة ad*ath لترامب، وهو ما وصفه بأنه "فشل ذريع" تم تصحيحه لاحقًا، كما أكد رئيس قسم الهندسة في xAI، إيغور بابوشكين.

مع ذلك، بالمقارنة مع النماذج السابقة، يُظهر هذا النموذج الجديد رفضًا أقل، وهو قادر على التمييز بين التنبيهات الحميدة والتنبيهات الضارة. ووفقًا لشركة أنثروبيك، فقد انخفضت حالات الرفض غير الضرورية بنسبة 45% مقارنةً بالنموذج السابق، كلود 3.5 سونيت.
أذكى العقول في عالم العملات الرقمية يتابعون نشرتنا الإخبارية بالفعل. هل ترغب بالانضمام إليهم؟ انضم إليهم.
إخلاء مسؤولية: المعلومات الواردة هنا ليست نصيحة استثمارية. Cryptopolitanموقع أي مسؤولية عن أي استثمارات تتم بناءً على المعلومات الواردة في هذه الصفحة. ننصحtrondentdentdentdentdentdentdentdent /أو استشارة مختص مؤهل قبل اتخاذ أي قرارات استثمارية.
دورة
- أي العملات المشفرة يمكن أن تدر عليك المال
- كيفية تعزيز أمانك باستخدام المحفظة الإلكترونية (وأي منها يستحق الاستخدام فعلاً)
- استراتيجيات استثمارية غير معروفة يستخدمها المحترفون
- كيفية البدء في الاستثمار في العملات المشفرة (أي منصات التداول التي يجب استخدامها، وأفضل العملات المشفرة للشراء، إلخ)














