تحديثات جديدة لروبوت الذكاء الإصطناعي الخاص بأمازون.. تفاصيل.
شركة أمازون لها دور كبير في تطوير مجال الذكاء الاصطناعي والتكنولوجيا بشكل عام من خلال مجموعة من المبادرات والمنتجات التي قدمتها.
تستخدم أمازون تكنولوجيا الذكاء الاصطناعي لتحسين تجربة المستخدمين وتوفير حلول فعّالة في مجالات متعددة. على سبيل المثال، قامت بتطوير خدمة الذكاء الاصطناعي “أليكسا” التي تعتبر واحدة من أشهر أجهزة الصوت الذكية في العالم، والتي تعمل على تحسين تفاعل الأفراد مع الأجهزة الذكية وتوفير مساعدة صوتية فعّالة.
بالإضافة إلى ذلك، تعتمد أمازون على تقنيات الذكاء الاصطناعي في تحسين عملياتها الداخلية، مثل تحسين عمليات التوزيع والتخزين واللوجستيات باستخدام الروبوتات والتحليلات الذكية.
كما تقدم خدمات الحوسبة السحابية من خلال خدمتها “أمازون ويب سيرفيسز” التي تعتمد على تقنيات متقدمة في مجالات الذكاء الاصطناعي وتحليل البيانات لتقديم حلول مبتكرة للشركات والمؤسسات.
بشكل عام، فإن دور شركة أمازون في تطوير مجال الذكاء الاصطناعي والتكنولوجيا يظهر التزامها بالابتكار والتطوير المستمر، وتوفير حلول متطورة تلبي احتياجات المستخدمين والشركات على حد سواء.
ومن خلال بعض الباحثين داخل شركة Amazon، قد كشفوا عن أحدث نماذج الشركة في مجال الذكاء الإصطناعي، والذي لديه القدرة على التعلم الذاتي في آلية نطقه للكلمات والعبارات التي لم يسبق له التدرب عليها.
بحسب الورقة البحثية، فإن نموذج BASE TTS، والمتخصص في تحويل النصوص إلى كلام مسموع، تمكن من تطوير قدراته ذاتياً في التعامل مع كلمات غير إنجليزية، وفهم الرموز وعلامات الترقيم، إلى جانب قدرته على التعبير الصوتي عن المشاعر المختلفة.
وأشار فريق أمازون البحثي إلى تدريب النموذج على 100 ألف ساعة من حديث البشر بلغات مختلفة، 90% منها باللغة الإنجليزية، ثم تدريب نموذجين أصغر حجماً، أحدهما على 10 آلاف ساعة، والآخر على ألف ساعة فقط.
النموذج الفائز
واختبر الباحثون النماذج الثلاث للتوصل إلى النموذج الأكثر إظهاراً لعلامات التعلم الذاتي وتطوير قدرات لم يتدرب عليها من خلال قواعد بيانات التدريب، وكان النموذج الأكثر تطوراً هو متوسط الحجم، المُدرب على 10 آلاف ساعة من الحديث المسموع.
وتتمثل القدرات، التي أذهلت الباحثين، في إدراك النموذج كيفية نطق عبارات يتطلب توصيل معناها الحديث بالهمس، وكذلك كيفية التنقل بين العبارات والجمل عند قراءة نص مزود بعلامات الترقيم الإنجليزية، إلى جانب ذلك استطاع نموذج BASE TTS التعامل باحترافية مع بعض الكلمات الفرنسية التي توسطت جملاً مكونة من كلمات إنجليزية.
ولا يزال النموذج في مرحلة البحث والتطوير، ولم يتم إطلاقه تجارياً للمستخدمين.
وأوضح الباحثون أن نموذج BASE TTS هو من نوع “النماذج القابلة للبث Streamable”، حيث لا يقوم بالتحويل المباشر للعبارات النصية إلى حديث مسموع، ويعمل بمعدل بطيء بعض الشيء.
كذلك يقوم الباحثون بفصل البيانات المتعلقة بالمشاعر التي تقف وراء الكلمات في ملفات منفصلة عن تلك الخاصة بالتكوين النصي للكلمات نفسها، وهو ما يجعل النموذج بطيئاً مقارنة بالنماذج التجارية المتخصصة في تحويل النصوص إلى مقاطع مسموعة.
من يقف وراء تزييف مكالمة بايدن مع 25 ألف ناخب؟
وجه المدعي العام لولاية نيوهامشر جون فورميلا، اتهامات لشركة “لايف كوربوريشن”، ومالكها والتر وونك، بالوقوف وراء المكالمات المزيفة بصوت الرئيس جو بايدن.
وشهدت نماذج الذكاء الاصطناعي المتخصصة في إنشاء الأصوات الرقمية تطوراً واسعاً خلال العام الماضي، الأمر الذي حذر منه خبراء الأمن المعلوماتي بالتزامن مع اقتراب إجراء الانتخابات الرئاسية في العديد من دول العالم، وأهمها الانتخابات الرئاسية الأميركية بحلول نوفمبر.