قدم Openai وضع الصوت المتقدم في العام الماضي إلى جانب إطلاق GPT-4O. تستخدم هذه الميزة نماذج متعددة الوسائط ، مثل GPT-4O ، ويمكنها الاستجابة لمدخلات الصوت في أقل من 232 ميلي ثانية ، بمعدل 320 ميلي ثانية ، على غرار وقت الاستجابة البشرية في محادثة نموذجية. يمكن أن يولد أيضًا صوتًا أكثر طبيعية ، والتقاط العظة غير اللفظية ، مثل السرعة التي تتحدث عنها ، وتستجيب بالعاطفة.
في وقت مبكر من هذا العام ، أصدر Openai تحديثًا بسيطًا لوضع الصوت المتقدم الذي قلل من الانقطاعات واللكنات المحسنة. اليوم ، Openai لديه أطلقت ترقية مهمة إلى وضع الصوت المتقدم ، مما يجعله يبدو أكثر طبيعية وشبه الإنسان. تتميز الاستجابات الآن بالتجويد الخفيف ، والإيقاع الواقعي – بما في ذلك التوقف والتركيز – والتعبير الأكثر دقة لمشاعر معينة مثل التعاطف والسخرية.
واو ، صوت تعبيري جديد في@chatgptappلا يتحدث فقط ، إنه يؤدي. يبدو أقل مثل الذكاء الاصطناعى وأكثر مثل صديق بشري. عمل جيد@Openaiفريق. 🎤🎶🚀 pic.twitter.com/lrkkns3g3c
– شون رالستون (shaunralston) 7 يونيو 2025
يقدم هذا التحديث أيضًا دعمًا للترجمة. يمكن لمستخدمي ChatGPT الآن استخدام وضع الصوت المتقدم للترجمة بين اللغات. ما عليك سوى اطلب من chatgpt البدء في الترجمة ، وسوف يستمر في الترجمة خلال المحادثة حتى يتم توجيه تعليمات إلى التوقف. تستبدل هذه الميزة بشكل فعال الحاجة إلى تطبيقات ترجمة الصوت المخصصة.
في الوقت الحالي ، يتوفر وضع الصوت المتقدم المحدث فقط للمستخدمين المدفوعين ChatGPT. لاحظ Openai أيضًا أن هناك بعض القيود المعروفة مع هذا التحديث الأخير ، المبين أدناه.
- قد يؤدي هذا التحديث في بعض الأحيان إلى تخفيضات طفيفة في جودة الصوت ، مثل الاختلافات غير المتوقعة في النغمة والملعب – وخاصة مع بعض خيارات الصوت. يتوقع Openai تحسين اتساق الصوت بمرور الوقت.
- لا تزال الهلوسة النادرة في الوضع الصوتي لا تزال قائمة ، مما يؤدي في بعض الأحيان إلى إنتاج أصوات غير مقصودة تشبه الإعلانات أو الرطوبة أو الموسيقى الخلفية.
في حين أن بعض القيود البسيطة ، يشير الدفق المستمر للتحسينات إلى مستقبل حيث يصبح الخط الفاصل بين محادثة الإنسان و AI لا يمكن تمييزه بشكل متزايد.