تقوم Google بتحديث التكنولوجيا وراء البحث الصوتي لجعلها أسرع وأكثر دقة

قامت Google ببناء تقنية جديدة لتشغيل البحث الصوتي ، والذي تقول الشركة إنه سيجعله أسرع وأكثر دقة. تستخدم التكنولوجيا الجديدة Connectionist Temporal Classification (CTC) وتسلسل تقنيات التدريب التمييزية. في عام 2012 ، انتقلت Google من Gaussian Mixture Model (GMM) إلى Deep Neural Networks (DNNs) ، مما سمح للشركة بتقييم الصوت الذي كان المستخدم ينتجه في ذلك الوقت بشكل أفضل ، وزاد دقة التعرف على الكلام.

تعتمد نماذجنا الصوتية المحسنة على الشبكات العصبية المتكررة (RNN). تحتوي RNN على حلقات تغذية مرتدة في طبولوجياها ، مما يسمح لها بنمذجة التبعيات الزمنية: عندما يتحدث المستخدم / u / في المثال السابق ، فإن أجهزته المفصلية تأتي من صوت / j / ومن صوت / m / صوت من قبل. حاول قولها بصوت عالٍ - "المتحف" - يتدفق بشكل طبيعي جدًا في نفس واحد ، ويمكن لشبكات RNN التقاط ذلك. نوع RNN المستخدم هنا هو ذاكرة طويلة المدى (LSTM) RNN التي ، من خلال خلايا الذاكرة وآلية بوابة متطورة ، تحفظ المعلومات بشكل أفضل من شبكات RNN الأخرى. اعتماد مثل هذه النماذج قد حسن بالفعل من جودة أداة التعرف بشكل كبير.

تم إجراء التغيير في التكنولوجيا بواسطة Google ، ويتم استخدامه حاليًا لتشغيل البحث الصوتي في تطبيق Google على كل من iOS و Android ، وكذلك الإملاء على أجهزة Android.

المصدر: مدونة جوجل للأبحاث