تُقدم OpenAI نماذج صوتية تقوم بالتحليل والترجمة والنسخ المباشر

- أطلقت OpenAI ثلاثة نماذج صوتية فورية في واجهة برمجة التطبيقات الخاصة بها.
- تدعم نماذج الصوت أكثر من 70 لغة إدخال، و GPT-Realtime-Whisper للنسخ المباشر.
- يقوم برنامج Translate and Whisper بإصدار الفواتير بالدقيقة، بينما يقوم برنامج GPT-Realtime-2 بإصدار الفواتير بالرمز المميز.
أصدرت OpenAI جيلاً جديداً من نماذج الصوت في واجهة برمجة التطبيقات الخاصة بها يوم الأربعاء، مما يمنح المطورين أدوات لبناء تطبيقات يمكنها التفكير في الطلبات المنطوقة، والترجمة عبر أكثر من 70 لغة، ونسخ الكلام أثناء حدوثه.
تُسمى النماذج الثلاثة GPT-Realtime-2 و GPT-Realtime-Translate و GPT-Realtime-Whisper. وهي تنقل واجهات الصوت المدعومة بالذكاء الاصطناعي من مجرد تبادل الأسئلة والأجوبة إلى مجال يستطيع فيه وكيل الذكاء الاصطناعي الاستماع والتفكير والتصرف أثناء المحادثة.
يُضفي GPT-Realtime-2 مزيدًا من الدقة على الاستدلال الصوتي
يُعدّ GPT-Realtime-2 النموذج الرائد. وتؤكد OpenAI أنه يوفر قدرة استدلالية تضاهي GPT-5، ما يمثل نقلة نوعية مقارنةً بسابقه GPT-Realtime-1.5.
وقد حقق النموذج أداءً أعلى بنسبة 15.2% في اختبار Big Bench Audio، وهو معيار لقياس الذكاء الصوتي، وأعلى بنسبة 13.8% في اختبار Audio MultiChallenge، الذي يختبر اتباع التعليمات في الحوار المنطوق متعدد الأدوار.
تستهدف التحسينات العملية المطورين الذين يبنون وكلاء صوتيين للإنتاج. يدعم النموذج الآن نافذة سياقية بحجم 128 كيلوبايت، أي أربعة أضعاف الحد السابق البالغ 32 كيلوبايت، ويوفر خمسة مستويات من جهد الاستدلال القابل للتعديل من "الأدنى" إلى "العالي جدًا"
يمكنه استدعاء أدوات متعددة في وقت واحد، والتعافي من الأخطاء من خلال تأكيدات صوتية، وإنتاج عبارات انتقالية قصيرة مثل "دعني أتحقق من ذلك" أثناء معالجة الطلب.
يتولى برنامج GPT-Realtime-Translate الترجمة الفورية للكلام. وهو يقبل أكثر من 70 لغة إدخال ويُخرج النتائج بـ 13 لغة، مصمم لمواكبة المتحدث في الوقت الفعلي.
يوفر GPT-Realtime-Whisper خاصية تحويل الكلام إلى نص (STT) أثناء نطق الكلمات بدلاً من انتظار اكتمال النطق.
شركة زيلو وشركة دويتشه تيليكوم تختبران النماذج في مرحلة الإنتاج
حصلت عدة شركات على إمكانية الوصول المبكر. تعمل شركة زيلو على تطوير مساعد صوتي قادر على معالجة استفسارات العقارات المعقدة، والتعامل مع طلبات البحث عن قوائم العقارات، والامتثال للوائح الإسكان العادل.
أعلنت الشركة عن تحسن بنسبة 26 نقطة في معدل نجاح المكالمات على أصعب معيار عدائي لديها بعد التحسين الفوري باستخدام GPT-Realtime-2، ليصل إلى 95٪ مقارنة بـ 69٪ سابقًا.
شركة دويتشه تيليكوم الترجمة الفورية لدعم العملاء، مما يسمح للمتصلين بالتحدث بلغتهم المفضلة بينما يتولى النموذج عملية التحويل من كلا الجانبين.
تستكشف شركة Priceline مساعد سفر صوتي يمكنه إدارة عمليات البحث عن الرحلات الجوية وتغييرات الفنادق والترجمة الفورية في جلسة واحدة.
تستهدف هذه النماذج الشركات التي تتطلع إلى توسيع قدرات خدمة العملاء، ولكنها أشارت أيضًا إلى التطبيقات المحتملة في مجالات التعليم والإعلام والفعاليات ومنصات المبدعين.
شركة OpenAI أعلنت أنها أدمجت خاصية مراقبة المحتوى في نماذجها الجديدة، مع وجود آليات تنبيه تُوقف المحادثات التي تُعتبر مخالفة لإرشادات المحتوى الضار. وقد وصفت الشركة هذه الضوابط بأنها حماية من الرسائل المزعجة والاحتيال وغير ذلك من أشكال الإساءة.
فيما يخص التسعير، تُحاسب نماذج الترجمة والهمس بالدقيقة، بينما يُحاسب نموذج GPT-Realtime-2 بناءً على استهلاك الرموز. تتوفر النماذج الثلاثة جميعها عبر واجهة برمجة تطبيقات الوقت الحقيقي من OpenAI، والتي يمكن الوصول إليها عبر طرق اتصال WebRTC وWebSocket وSIP.
لا تكتفِ بقراءة أخبار العملات الرقمية، بل افهمها. اشترك في نشرتنا الإخبارية، إنها مجانية.
الأسئلة الشائعة
ما هو GPT-Realtime-2؟
GPT-Realtime-2 هو نموذج الصوت الجديد من OpenAI مع منطق من فئة GPT-5، وهو مصمم للمحادثات المباشرة حيث يحتاج الذكاء الاصطناعي إلى التعامل مع الطلبات المعقدة، واستدعاء الأدوات، والتعافي من الانقطاعات.
كم عدد اللغات التي يدعمها برنامج GPT-Realtime-Translate؟
يقبل GPT-Realtime-Translate الكلام بأكثر من 70 لغة إدخال ويمكنه الترجمة إلى 13 لغة إخراج في الوقت الحقيقي.
كيف يتم تسعير طرازات الصوت الجديدة؟
يتم احتساب تكلفة GPT-Realtime-Translate و GPT-Realtime-Whisper بالدقيقة، بينما يتم احتساب تكلفة GPT-Realtime-2 حسب استهلاك الرموز المميزة.
إخلاء مسؤولية: المعلومات الواردة هنا ليست نصيحة استثمارية. Cryptopolitanموقع أي مسؤولية عن أي استثمارات تتم بناءً على المعلومات الواردة في هذه الصفحة. ننصحtrondentdentdentdentdentdentdentdent /أو استشارة مختص مؤهل قبل اتخاذ أي قرارات استثمارية.
دورة
- أي العملات المشفرة يمكن أن تدر عليك المال
- كيفية تعزيز أمانك باستخدام المحفظة الإلكترونية (وأي منها يستحق الاستخدام فعلاً)
- استراتيجيات استثمارية غير معروفة يستخدمها المحترفون
- كيفية البدء في الاستثمار في العملات المشفرة (أي منصات التداول التي يجب استخدامها، وأفضل العملات المشفرة للشراء، إلخ)















