SA114350692B1

SA114350692B1 - الكشف عن الكلمة الأساسية للتعرف على خطاب

Info

Publication number: SA114350692B1
Application number: SA114350692A
Authority: SA
Inventors: وانج إريو; شين بو; ما جيانكزيونج; زهانج زيانج; يوي شواي; راو فينج; لي لو; لو لي; كونج لينجهوي; ليو هايبو
Original assignee: تينسينت تيكنولوجي (شينزهين) كومباني ليمتد
Priority date: 2013-08-15
Filing date: 2014-08-13
Publication date: 2015-12-13
Also published as: TWI543148B; CN104143328B; HK1199673A1; CN104143328A; US20150095032A1; TW201506903A; WO2015021844A1; US9230541B2

Abstract

يتعلق الاختراع الحالي بطريقة يتم تنفيذها للتعرف على كلمة أساسية في خطاب keyword in a speech يتضمن متوالية من إطارات صوت تشتمل أيضاَ على إطار حالي current frame وإطار لاحق subsequent frame . يتم تحديد الكلمة الأساسية المرشحة candidate keyword للإطار الحالي باستخدام شبكة فك شفرة تتضمن كلمات أساسية keywords وكلمات حشو من لغات متعددة filler words of multiple languages ، وتستخدم لتحديد درجة الثقة لمتوالية إطار الصوت. يتم تحديد خيار الكلمة أيضاً للإطار اللاحق بناءً على شبكة فك التشفير decoding network ، وعندما ترتبط الكلمة الأساسية المرشحة candidate keyword وخيار الكلمة بنوعين متميزين من اللغات، يتم تحديث درجة ثقة متوالية إطار الصوت على الأقل بناءً على معامل جزاءات مرتبط باثنين من الأنواع المتميزة للغات. ومن ثم يتم تحديد متوالية إطار الصوت لتشتمل على كل من الكلمة الأساسية المرشحة candidate keyword وخيار الكلمة من خلال تقييم درجة الثقة التي تم تحديثها وفقا لمعيار تحديد كلمة أساسية keyword determination criterion . شكل 1 .

Description

_— \ _ الكشف عن الكلمة الأساسية للتعرف على خطاب ‎Keyword detection for speech recognition‏ الوصف الكامل

خلفية الاختراع

تتعلق التطبيقات التي الكشف عنها عموماً بالتعرف على خطاب؛ وعلى وجه الخصوص؛ بالكشف

عن الكلمات الأساسية في بيانات خطاب به أكثر من لغة واحدة.

عند التعرف على الخطاب التلقائي ‎cautomatic speech recognition (ASR)‏ تتمثل الكلمة

0 الأساسية في كلمة مقترنة بمعنى موضوعي معين؛ ويتم تمثيلها بصورة نمطياً باسم أو عبارة. على

العكس؛ تتبع كلمة الحشو الكلمات الأساسية بصورة طبيعية ولا تتحمل أي دور كبير وذي مغزى.

يتم الكشف عن الكلمة الأساسية عند تحديد بداية ونهاية النقاط الزمنية للكلمة الأساسية في بيانات

خطاب يتم استقباله بواسطة وسيلة إلكترونية. وكنتيجة للكشف عن الكلمات الرئيسية ؛ يتم تحديد

بيانات الخطاب بواسطة نظام الكشف عن الكلمة الأساسية ليشتمل على عدة كلمات أساسية ‎٠‏ وكلمات حشو ‎filler words‏ . ويتم تنفيذ أنظمة الكشف عن الكلمات الأساسية الحالية أساساً بناءً

على نموذجين» أي نموذج البيانات غير المقبولة ونموذج التعرف على الصوت/ المقاطع اللفظية.

في نظام الكشف عن الكلمات الأساسية بناءً على نموذج البيانات غير المقبولة؛ يتم استخدام شبكة

فك شفرة ‎decoding network‏ _لتحديد الكلمات الأساسية في بيانات الخطاب الذي تم استقباله؛

وتشتمل الكلمات المستخدمة في شبكة فك الشفرة على كلمات أساسية وكلمات حشو مرتبطة وفقاً ‎Vo‏ لهيكل الشبكة المحدد مسبقاً. وفقا لشبكة فك التشفير ؛ يتعرف نظام الكشف عن الكلمات الأساسية

على كل ‎ein‏ (على سبيل المثال؛ إطار) من بيانات الخطاب باعتباره مرتبطا بالكلمة الأساسية أو

كلمة الحشو. ويتم أيضاً ربط كل ‎sia‏ تم التعرف عليه من بيانات الخطاب بدرجة ثقة؛ ويستخدم

نظام الكشف عن الكلمات الأساسية درجة الثقة ذات الصلة لتحديد ما إذا تم الكشف عن الكلمة

بشكل صحيح. ثم يتم إنتاج الكلمات الأساسية التي يتم تحديدها ليتم الكشف عنها بشكل صحيح ‎A)‏ مع معلومات حول وضعها ضمن بيانات الخطاب .

toty

‎Ad —_‏ _ من ناحية أخرىء يقوم نظام الكشف عن الكلمات الأساسية بناء على نموذج التعرف على الصوت / المقطع اللفظي بالكشف عن الكلمات الأساسية في بيانات الخطاب الذي تم استقباله على أساس االسياق الكامل لبيانات الخطاب. على وجه التحديد؛ يتم إخراج شبكة صوت أو مقطع لفظي لبيانات الخطاب الذي تم استقباله ؛ ويتم الكشف عن الكلمات الأساسية للبيانات الخطاب من شبكة 0 الصوت أو المقطع اللفظي باستخدام تقنية البحث عن سياق . عندما تشترك أكثر من لغة واحدة في التعرف على الخطاب؛ تتطلب أنظمة الكشف عن الكلمة الحالية عادةً طورين مستقلين» أي طور التعرف على لغة وطور الكشف عن الكلمات الأساسية . خلال طور التعرف على اللغة ؛ يتم تحديد لغة معينة لبيانات الخطاب الذي يتم ‎callin‏ وخلال طور الكشف عن الكلمات الأساسية اللاحق؛ يتم عد ذلك تحديد الكلمات الأساسية بواسطة محرك ‎٠‏ الكشف عن الكلمات الأساسية المرتبط بهذه اللغة المعينة. ثم يتم الجمع بين الكلمات الأساسية التي تم الكشف عنها واخراجها كنتيجة تعرف من نظام الكشف عن الكلمات الأساسية. ومع ذلك؛ تتم إعاقة أداء نظام الكشف عن الكلمة الأساسية الحالي الذي يشتمل على اثنين أو أكثر من اللغات في كثير من الأحيان بواسطة طور التعرف على اللغة. تؤثر دقة التعرف على اللغات خلال طور التعرف على اللغة بشكل مباشر على نتائج الكشف عن الكلمة الأساسية في ‎١‏ طور الكشف عن الكلمات الأساسية. على وجه الخصوص؛ يتطلب التعرف الدقيق على اللغة ‎Loses‏ بيانات خطاب تستمر إلى طول ممتد (على سبيل ‎eda)‏ من “ إلى © ثوان)؛ وينتج هذا الشرط حتماً بعض العوائق لتدفق الكلمة الأساسية للكشف عن الكلمة الأساسية لاحقاً. وعلاوة على ذلك؛ يُعد نظام الكشف عن الكلمة الرئيسية الموجود غير فعال وبصفة خاصة عندما يتم خلط كلمات أساسية من لغة متعددة معاً في جملة واحدة (على سبيل المثال؛ في بيانات خطاب مرتبطة ‎٠‏ ب "وا 7و1 8 0220588018 ‎of‏ وبالتالي إحداث التعرف غير الدقيق على اللغات ‎lll) languages‏ الأساسية. ولذلك؛ توجد حاجة للكشف بدقة عن الكلمات الأساسية في الخطاب الذي يحتوي على اثنتين أو أكثر من اللغات. ا

يه الوصف العام للاختراع يتم تقليل أوجه القصور المذكورة أعلاه وغيرها من المشاكل المرتبطة بالطرق التقليدية لاتصال الشبكة أو القضاء عليها بواسطة التطبيق الذي يتم الكشف عنه أدناه. في بعض النماذج؛ يتم تنفيذ © التطبيق في وسيلة إلكترونية تحتوي على واحد أو أكثر من المعالجات وذاكرة وواحدة أو أكثر من الوحدات النمطية ‎modules‏ أو برامج أو مجموعات من التعليمات المخزنة في الذاكرة لأداء وظائف متعددة. يمكن إدراج تعليمات أداء هذه الوظائف في منتج برنامج حاسوب تم تصميمه للتنفيذ بواسطة واحد أو أكثر من المعالجات. يتمثل أحد جوانب الطلب في طريقة يتم تنفيذها على وسيلة إلكترونية للتعرف على كلمة أساسية في خطاب. تشتمل الطريقة على استقبال متوالية من إطارات صوت تشتمل على إطار حالي ‎lil; frame‏ لاحق ‎subsequent frame‏ يتبع الإطار الحالي؛ وتحديد كلمة أساسية مرشحة للإطار الحالي باستخدام شبكة فك شفرة محددة مسبقاً تشمل على الكلمات الأساسية وكلمات حشو من لغات متعددة. تشتمل الطريقة أيضاً على ربط متوالية إطار الصوت بدرجة ثقة يتم تحديدها ‎Lisa‏ وفقاً للكلمة الأساسية المرشحة؛ وتحديد خيار كلمة للإطار اللاحق باستخدام الكلمة الأساسية ‎١‏ المرشحة وشبكة فك شفرة محددة مسبقاً. عند ربط الكلمة الأساسية المرشحة وخيار الكلمة بنوعين متميزين من اللغات ؛ يتم تحديث درجة الثقة الخاصة بمتوالية إطار الصوت بناءً على معامل ‎sha‏ ‏محدد مسبقاً وفقاً لاثنتين من الأنواع المتميزة للغات؛ خيار الكلمة ونموذج سمعي للإطار اللاحق. كما تتضمن الطريقة تحديد أن متوالية الإطار الصوتي تشتمل على كل من الكلمة الأساسية المرشحة وخيار الكلمة من خلال تقييم درجة الثقة التي تم تحديثها وفقاً لمعيار تحديد كلمة أساسية. ‎Yo‏ يتمثل جانب ‎AT‏ للطلب في وسيلة إلكترونية تشتمل على واحد أو أكثر من المعالجات وذاكرة بها برنامج واحد على الأقل (بما في ذلك التعليمات) المخزنة عليها؛ ‎lly‏ عند تنفيذها بواسطة واحد أو أكثر من المعالجات التي تجعل المعالجات تقوم بتنفيذ عمليات لتحديد الكلمة الأساسية في الخطاب. يشتمل البرنامج الواحد على الأقل المخزن على الذاكرة على تعليمات تجعل الوسيلة الالكترونية تقوم بتنفيذ العمليات في الطريقة الموصوفة أعلاه. ا

‎Qo _‏ _ يتمتل جانب آخر من الطلب في وسط تخزين يمكن قراءته بواسطة حاسوب غير انتقالي ‎non—‏ ‎transitory computer‏ يعمل على تخزين برنامج واحد على الأقل مصمم للتنفيذ بواسطة معالج واحد على الأقل من وسيلة إلكترونية. يتضمن البرنامج الواحد على الأقل تعليمات تجعل الوسيلة الالكترونية تقوم بتنفيذ العمليات الواردة في الطريقة الموصوفة أعلاه. © يمكن أن تتضح نماذج ومميزات أخرى لهؤلاء المهرة في الفن في ضوء الأوصاف والرسومات

‏الواردة في هذه المواصفة. شرح مختصر للرسومات يتم بوضوح إدراك التطبيق المذكور مسبقاً للاختراع وكذلك تطبيقات أخرى كنتيجة للوصف التفصيلي التالي لجوانب متعددة للاختراع عند وضعها في الاعتبار بالنسبة للرسومات. تشير

‎٠‏ الأرقام المرجعية المتشابهة إلى أجزاء متقابلة من خلال مساقط متعددة للرسومات. يوضح الشكل ‎١‏ بيانات خطاب مثالي تشتمل على مجموعة من الإطارات الصوتية وفقاً لبعض نماذج الطلب. يوضح الشكل ‎١‏ شبكة فك شفرة مثالية تشتمل على كلمات أساسية و كلمات حشو من لغات متعددة وفقاً لبعض نماذج الطلب.

‎Bag ‏طريقة للتعرف على كلمة أساسية في خطاب‎ Jig ‏يوضح الشكل © مخطط سير عمليات‎ V0 ‏لبعض نماذج الطلب.‎ ‏يوضح الشكل 4 شبكة فك شفرة مثالية أخرى وفقاً لبعض نماذج الطلب.‎ ‏طريقة للكشف عن كلمة أساسية وفقاً لبعض نماذج‎ Jie ‏يوضح الشكل © مخطط سير عمليات‎ ‏الطلب.‎

‎Yo‏ يوضح الشكل + شبكة فك شفرةٍ مثالية تشتمل على كلمات أساسية وكلمات حشو من لغات متعددة وفقاً لبعض نماذج الطلب.

‏ا

Claims

py ‏عناصر الحماية‎ ‏تشتمل على:‎ « keyword in a speech ‏طريقة للتعرف على كلمة أساسية في خطاب‎ -١ ‏تشتمل على‎ receiving a sequence of audio frames ‏استقبال متوالية من إطارات صوت‎ ‏؛ تحديد الكلمة الأساسية‎ subsequent frame ‏لاحق‎ Daly current frame ‏إطار حالي‎ ‏محددة مسبقاً تتضمن‎ decoding network ‏المرشحة للإطار الحالي باستخدام شبكة فك شفرةٍ‎ ‏لغات متعددة ؛ ربط متوالية إطار الصوت‎ ow filler words sia ‏كلمات أساسية وكلمات‎ 0 ‏التي يتم‎ confidence score ‏بدرجة الثقة‎ associating the audio frame sequence ‏تحديدها جزئياً وفقاً للكلمة الأساسية المرشحة؛ تحديد خيار الكلمة للإطار اللاحق باستخدام الكلمة‎ ‏المحددة مسبقاً؛ وعندما يتم ربط‎ decoding network ‏الأساسية المرشحة وشبكة فك التشفير‎ ‏الكلمة الأساسية المرشحة وخيار الكلمة باثنين من الأنواع المتميزة للغات؛ تحديث درجة الثقة‎ ‏على معامل الجزاء الذي يتم تحديده‎ ly ‏الخاصة بمتوالية إطار الصوت‎ confidence score ٠ ‏مسبقاً وفقاً لاثنين من الأنواع المتميزة للغات؛ خيار الكلمة والنموذج الصوتي للإطار اللاحق؛‎ ‏ويشتمل تحديد متوالية إطار الصوت على كل من الكلمة الأساسية المرشحة وخيار الكلمة بواسطة‎ ‏التي تم تحديثها وفقاً لمعيار تحديد كلمة أساسية.‎ confidence score ‏تقييم درجة الثقة‎ ‏حيث يتم تحديد مجموعة من الكلمات الأساسية المرشحة؛‎ ٠ ‏الطريقة وفقاً لعنصر الحماية رقم‎ -Y Yo audio ‏لمتوالية الإطار الصوتي‎ Jal ‏التي تشتمل على الكلمة الأساسية المرشحة ؛ للإطار‎ ‏ويتم ربط كل من الكلمة الأساسية المرشحة مع خيار الكلمة واحد على‎ « frame sequence ‏وحيث يتم تحديد مجموعة فرعية من الكلمة الأساسية المرشحة ليتم إدراجها في متوالية‎ (JY) ‏مع خيار الكلمة الواحد على الأقل الخاص بها ذي‎ audio frame sequence ‏الإطار الصوتي‎ ‏الصلة بناءً على معيار تحديد كلمة أساسية.‎ YL ‏حيث يتمثل الإطار اللاحق في الإطار الأخير لمتوالية‎ oF ‏الطريقة وفقاً لعنصر الحماية رقم‎ -* ‏ووفقاً لمعيار تحديد كلمة أساسية ؛ يتم اختيار‎ «audio frame sequence ‏الإطار الصوتي‎ ‏المفضلة من مجموعة من‎ confidence score ‏الكلمة الأساسية المرشحة المرتبطة بدرجة الثقة‎ ‏الكلمات الأساسية المرشحة مثل كلمة أساسية مرتبطة بالإطار الحالي لمتوالية الإطار الصوتي‎ . audio frame sequence Yo goty

ديو" ؟- الطريقة وفقاً لعنصر الحماية رقم ‎oF‏ حيث أنه وفقاً لمعيار تحديد كلمة أساسية ؛ يتم ربط كل من مجموعة من الكلمات الأساسية المرشحة مع درجة الثقة ‎score‏ 000108006 ذات الصلة بها لمتوالية الإطار الصوتي ‎audio frame sequence‏ ؛ وتكون درجة الثقة ‎confidence score‏ © ذات الصلة أكبر من القيمة الحدية ‎threshold value‏ للكلمة الأساسية. 5- الطريقة وفقاً لعنصر الحماية رقم 7؛ حيث أنه بعد تحديد المجموعة الفرعية للكلمات الأساسية المرشحة ليتم إدراجها في متوالية الإطار الصوتي ‎audio frame sequence‏ مع خيار الكلمة الواحد على الأقل الخاص بها ذي الصلة؛ يتم تحديث درجة الثقة ‎Lad confidence score‏ ‎٠‏ ويتم تحديدها لتتجاوز قيمة حدية للكلمة الأساسية وفقاً لمعيار تحديد كلمة أساسية. 7- الطريقة وفقاً لعنصر الحماية رقم ‎٠‏ حيث أنه وفقاً لمعيار تحديد كلمة أساسية ؛ تكون درجة الثقة ‎confidence score‏ لمتوالية الإطار الصوتي ‎frame sequence‏ وكيا أكبر من القيمة الحدية ‎threshold value‏ للكلمة الأساسية. ‎Vo‏ ‎-١‏ الطريقة وفقاً لعنصر الحماية رقم ‎Cua)‏ يتم ربط شبكة فك التشفير ‎decoding network‏ المحددة مسبقاً باثنين أو أكثر من اللغات الإنجليزية؛ الصينية؛ اليابانية؛ الروسية؛ الفرنسية؛ الألمانية وما شابه ذلك وتشتمل على مجموعة فرعية من الكلمات الأساسية ومجموعة فرعية من كلمات الحشو ‎filler words‏ لكل من اثنين أو أكثر من اللغات. ‎٠‏ ‎—A‏ الطريقة وفقاً لعنصر الحماية رقم ‎٠‏ حيث تشتمل كل كلمة أساسية من شبكة فك التشفير ‎decoding network‏ المحددة مسبقاً على واحدة أو أكثر من سماعات ثلاثية. 4- الطريقة وفقاً لعنصر الحماية رقم ‎١‏ حيث أنه وفقاً لهيكل فك التشفير | ‎decoding‏ ‎structure Yo‏ لشبكة فك التشفير ‎decoding network‏ المحددة مسبقاًء يتم ربط كل كلمة أساسية في شبكة فك التشفير ‎decoding network‏ المحددة مسبقاً بكلمة واحدة على الأقل تستخدم مع ا

—yvo- الكلمة الأساسية ذات الصلة في خطاب ‎Ads‏ وإدراجها في في شبكة فك التشفير ‎decoding‏

. 06/01 decoding ‏الطريقة وفقاً لعنصر الحماية رقم 9؛ حيث أنه وفقاً لهيكل فك التشفير‎ -٠ ‏المحددة مسبقاًء تنتج كل كلمة أساسية في‎ decoding network ‏لشبكة فك التشفير‎ structure © مجموعة فرعية من الكلمات الأساسية والكلمة الواحدة على الأقل ذات الصلة التي تستخدم مع الكلمة الأساسية ذات الصلة من اثنين من اللغات المختلفة. ‎-١‏ الطريقة وفقاً لعنصر الحماية رقم )0 تشتمل أيضاً على: ‎٠‏ إنشاء جدول معامل الجزاء ليشتمل على مجموعة من عوامل الجزاء يتم ربط كل منها باثنين من اللغات المختلفة؛ حيث يتم تحديد معامل الجزاء المستخدم لتحديث درجة الثقة ‎confidence‏ ‏65 لمتوالية الإطار الصوتي ‎audio frame sequence‏ بواسطة استخراج جدول معامل الجزاء بناءً على نوعين متميزين من اللغات المختلفة للكلمة الأساسية المرشحة وخيار الكلمة. ‎-VY Vo‏ الطريقة وفقاً لعنصر الحماية رقم )0 تشتمل أيضاً على: إنشاء شبكة فك تشفير محددة ‎cle‏ حيث يتم تجميع الكلمات الأساسية وكلمات الحشو ‎filler‏ ‏5 من لغات متعددة وفقاً لأنواع اللغات الخاصة ‎lg‏ يشتمل أيضاً على: خلق عقدة بداية ‎start node‏ وعقدة نهاية ‎end node‏ ؛ خلق مجموعة من عقد اللغة ‎language nodes‏ يمثل كل منها نوع من اللغة؛ ربط كل عقدة لغة بعقدة بداية ‎start node‏ ¢ ‎Yo‏ ربط كل عقدة لغة بمجموعة فرعية من الكلمات الأساسية ذات الصلة ومجموعة فرعية من كلمات الحشو ‎filler words‏ ذات الصلة ‎La‏ من اللغة المقابلة؛ لكل كلمة أساسية؛ تحويل الكلمة الأساسية ‎converting the keyword‏ ذات الصلة لمتوالية من السماعات الثلاثية ‎triphone‏ ‎Sequences‏ ¢ إنشاء عقدة سماعة ثلاثية ذات ‎Alia‏ لكل سماعة ثلاثية من متوالية السماعات الثلاثية ‎oe triphone sequences‏ الكلمة الأساسية ذات الصلة؛ ربط عقد السماعة الثلاثية ‎Yo‏ .من متوالية السماعات الثلاثية ‎lee triphone sequences‏ لتشكيل متوالية عقد ‎de law‏ ثلاثية ‎Wy‏ في ذلك عقدة سماعة ثلاثية رئيسية وعقدة سماعة ثلاثية ‎(Aphid‏ ربط عقدة السماعة الثلاثية ‏ا

1+ الرئيسية ذات الصلة بعقدة اللغة المقابلة وعقدة السماعة الثلاثية الذيلية ذات الصلة بعقدة نهاية ‎end node‏ ؛ لكل كلمة حشوء يتم إنشاء عقدة حشو ذات صلة واقران عقدة الحشو ذات ‎Adal‏ ‏بين عقدة اللغة المقابلة وعقدة نهاية ‎end node‏ ؛ وربط عقدة بداية ‎start node‏ وعقدة نهاية ‎end node‏ . ‎lo}‏ ‎YF‏ - الطريقة وفقاً لعنصر الحماية رقم ‎OY‏ حيث يتم تحديد الكلمة الأساسية المرشحة وخيار الكلمة ليتم ربطها باثنين من الأنواع ‎(lal Sad)‏ حيث يتم ربط واحدة من مجموعة من عقد اللغة ‎language nodes‏ بين ‎Ad‏ الأساسية المرشحة وخيار الكلمة على شبكة فك التشفير ‎decoding network‏ المحددة مسبقاً. ‎ye‏ ‎-٠6‏ الطريقة وفقاً لعنصر الحماية رقم ‎OY‏ حيث أنه وفقاً ل هيكل فك التشفير ‎decoding‏ ‎dual structure‏ فك التشفير ‎decoding network‏ المحددة مسبقاًء يتم ربط كل كلمة أساسية في شبكة فك التشفير ‎decoding network‏ على شبكة فك التشفير ‎decoding network‏ المحددة مسبقاً بكلمة واحدة على الأقل تستخدم مع الكلمة الأساسية ذات الصلة في خطاب فعلي. ‎Vo‏ ‏- وسيلة إلكترونية ؛ تحتوي على: واحد أو أكثر من المعالجات؛ وذاكرة بها تعليمات مخزنة عليها؛ والتي عند تنفيذها بواسطة واحد أو أكثر من المعالجات تجعل المعالجات تقوم بإجراء عمليات تشتمل على: استقبال متوالية من إطارات صوت تشتمل على إطار حالي ‎current frame‏ واطار لاحق ‎subsequent frameY.‏ يتبع الإطار الحالي؛ تحديد كلمة أساسية مرشحة للإطار الحالي باستخدام شبكة فك شفرة ‎decoding network‏ محددة مسبقاً تشمل على الكلمات الأساسية وكلمات حشو ‎filler words‏ _من لغات متعددة ؛ ربط متوالية إطار الصوت ‎associating the audio‏ ‎frame sequence‏ بدرجة ثقة يتم تحديدها ‎Lis‏ وفقاً للكلمة الأساسية المرشحة؛ تحديد خيار كلمة للإطار اللاحق باستخدام الكلمة الأساسية المرشحة وشبكة فك شفرة ‎decoding network‏ ‎YO‏ محددة مسبقاً؛ عند ربط الكلمة الأساسية المرشحة وخيار الكلمة بنوعين متميزين من اللغات؛ يتم تحديث درجة الثقة ‎confidence score‏ الخاصة بمتوالية إطار الصوت بناءً على معامل جزاء ا

الا ‎penalty factor‏ محدد مسبقاً وفقاً لاثنتين من الأنواع المتميزة للغات؛ خيار الكلمة ونموذج سمعي للإطار اللاحق ؛ وتحديد أن متوالية الإطار الصوتي ‎audio frame sequence‏ تشتمل على كل من الكلمة الأساسية المرشحة وخيار الكلمة من خلال تقييم درجة الثقة ‎confidence‏ ‏© التي تم تحديثها وفقاً لمعيار تحديد كلمة أساسية. ‎lo}‏

— الوسيلة الإلكترونية وفقاً لعنصر الحماية رقم ‎V0‏ حيث أنه وفقاً لمعيار تحديد كلمة أساسية ؛ تكون درجة الثقة ‎confidence score‏ لمتوالية الإطار الصوتي ‎audio frame sequence‏ أكبر من القيمة الحدية ‎threshold value‏ للكلمة الأساسية.

‎-١#‏ الوسيلة الإلكترونية وفقاً لعنصر الحماية رقم ‎V0‏ حيث تشتمل العمليات التي يتم إجراؤها بواسطة المعالجات أيضاً على: إنشاء جدول معامل الجزاء ليشتمل على مجموعة من عوامل الجزاء يتم ربط كل منها باثنين من اللغات المختلفة؛ حيث يتم تحديد معامل الجزاء المستخدم لتحديث درجة الثقة ‎confidence‏ ‏65 لمتوالية الإطار الصوتي ‎audio frame sequence‏ بواسطة استخراج جدول معامل

‎Vo‏ الجزاء بناءً على نوعين متميزين من اللغات المختلفة للكلمة الأساسية المرشحة وخيار الكلمة. ١٠-_الوسيلة‏ الإلكترونية وفقاً لعنصر الحماية رقم 00 حيث يتم ربط شبكة فك التشفير ‎sand) decoding network‏ مسبقاً باثنين أو أكثر من اللغات الإنجليزية؛ الصينية» اليابانية؛ الروسية؛ الفرنسية؛ الألمانية وما شابه ذلك؛ وتشتمل على مجموعة فرعية من الكلمات الأساسية

‎٠٠‏ ومجموعة فرعية من كلمات الحشو ‎filler words‏ لكل من اثنين أو أكثر من اللغات. 4- وسط تخزين يمكن قراءته بواسطة حاسوب غير انتقالي ‎non-transitory computer—‏ ‎readable medium‏ به تعليمات مخزنة عليه ‎lly‏ عند تنفيذها بواسطة واحد أو أكثر من المعالجات تجعل المعالجات تقوم بإجراء عمليات تشتمل على:

‏© استقبال متوالية من إطارات صوت ‎receiving a sequence of audio frames‏ تشتمل على إطار حالي ‎lly current frame‏ لاحق ‎subsequent frame‏ يتبع الإطار الحالي؛

‏ا

م تحديد كلمة أساسية مرشحة للإطار الحالي باستخدام شبكة فك شفرة ‎decoding network‏ محددة مسبقاً تشمل على الكلمات الأساسية وكلمات ‎filler words sia‏ من لغات متعددة ؛ ربط متوالية إطار الصوت ‎associating the audio frame sequence‏ بدرجة 46 يتم تحديدها ‎Wa‏ وفقاً للكلمة الأساسية المرشحة؛ تحديد خيار كلمة للإطار اللاحق باستخدام الكلمة الأساسية © المرشحة وشبكة فك شفرة ‎decoding network‏ محددة مسبقاً؛ عند ربط الكلمة الأساسية المرشحة وخيار الكلمة بنوعين متميزين من اللغات؛ يتم تحديث درجة الثقة ‎confidence score‏ الخاصة بمتوالية إطار الصوت بناءً على معامل جزاء ‎penalty factor‏ محدد مسبقاً وفقاً لاثنتين من الأنواع المتميزة للغات؛ خيار الكلمة ونموذج سمعي للإطار اللاحق ؛ وتحديد أن متوالية الإطار الصوتي ‎audio frame sequence‏ تشتمل على كل من الكلمة الأساسية المرشحة

‎٠‏ وخيار الكلمة من خلال تقييم درجة الثقة التي تم تحديثها وفقاً لمعيار تحديد كلمة أساسية.

‎non-transitory computer— ‏وسط تخزين يمكن قراءته بواسطة حاسوب غير انتقالي‎ -٠ shal ‏حيث تشتمل العمليات التي يتم‎ ٠9 ‏وفقاً لعنصر الحماية رقم‎ readable medium ‏أيضاً على:‎ processors ‏بواسطة المعالجات‎

‎١‏ إنشاء جدول معامل الجزاء ليشتمل على مجموعة من عوامل الجزاء يتم ربط كل منها باثنين من اللغات المختلفة؛ حيث يتم تحديد معامل الجزاء المستخدم لتحديث درجة الثقة ‎confidence‏ ‏65 لمتوالية الإطار الصوتي ‎audio frame sequence‏ بواسطة استخراج جدول معامل الجزاء بناءً على نوعين متميزين من اللغات المختلفة للكلمة الأساسية المرشحة وخيار الكلمة.

‏ل

-؟8٠-‏ ‎ST Ya‏ تحديث درجة ‎PEN‏ ‏اطار صوتي لاحق ‎FyiF't Fn‏ دع عيع بجع جع مع اع جع بجع دع ‎rm Prt‏ حاني شكل ‎١‏ ‏الال

—¢ «= ) EW EW Th EW EWYY KW + KWE Y EWy ‏م‎ KW ‏ران‎ EWE +“ Ew YE Kw Yé& KWk EW 4 & KEW T& KWEL & EW 4% KW 5 EWE 1 EW 3% EW vy | KW ‏يخ‎ ‎KEW ya EW wa EWE & FIT 3 Fir Yy ‏1ط‎ ‎FAY Fi ¢¥ FFX ‏مم‎ 3 ¢ FW gw 1187 7 FF + ¢ o Ja Yi ١ ‏اللغة * اللغة ؟ اللغة‎ * ‏بثرءا‎ ‏ل‎

RA ‏شكل ؟‎ ‏ول‎ ma Tr ‏الس‎ ‎om ‏شكل ؛‎ ‏ل‎

‎Ad —_‏ _ ‎EE‏ 1 شمثل مِ ا

_ _ ‏ع‎ ‎0 1 (ren) Kn re. ١ ‏شكل‎

اج ¢ _— الى ض ‎CR IR‏ ا vo. Vi, vee | ‏اا‎ شكل أ

مج ا - شكل ‎١‏ ب ل

مدة سريان هذه البراءة عشرون سنة من تاريخ إيداع الطلب وذلك بشرط تسديد المقابل المالي السنوي للبراءة وعدم بطلانها أو سقوطها لمخالفتها لأي من أحكام نظام براءات الاختراع والتصميمات التخطيطية للدارات المتكاملة والأصناف النباتية والنماذج الصناعية أو لائحته التنفيذية صادرة عن مدينة الملك عبدالعزيز للعلوم والتقنية ؛ مكتب البراءات السعودي ص ب ‎TAT‏ الرياض 57؟؟١١‏ ¢ المملكة العربية السعودية بريد الكتروني: ‎patents @kacst.edu.sa‏