SA114350692B1 - الكشف عن الكلمة الأساسية للتعرف على خطاب - Google Patents

الكشف عن الكلمة الأساسية للتعرف على خطاب Download PDF

Info

Publication number
SA114350692B1
SA114350692B1 SA114350692A SA114350692A SA114350692B1 SA 114350692 B1 SA114350692 B1 SA 114350692B1 SA 114350692 A SA114350692 A SA 114350692A SA 114350692 A SA114350692 A SA 114350692A SA 114350692 B1 SA114350692 B1 SA 114350692B1
Authority
SA
Saudi Arabia
Prior art keywords
keyword
word
languages
candidate
confidence score
Prior art date
Application number
SA114350692A
Other languages
English (en)
Inventor
وانج إريو
شين بو
ما جيانكزيونج
زهانج زيانج
يوي شواي
راو فينج
لي لو
لو لي
كونج لينجهوي
ليو هايبو
Original Assignee
تينسينت تيكنولوجي (شينزهين) كومباني ليمتد
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by تينسينت تيكنولوجي (شينزهين) كومباني ليمتد filed Critical تينسينت تيكنولوجي (شينزهين) كومباني ليمتد
Publication of SA114350692B1 publication Critical patent/SA114350692B1/ar

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/083Recognition networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Telephonic Communication Services (AREA)

Abstract

يتعلق الاختراع الحالي بطريقة يتم تنفيذها للتعرف على كلمة أساسية في خطاب keyword in a speech يتضمن متوالية من إطارات صوت تشتمل أيضاَ على إطار حالي current frame وإطار لاحق subsequent frame . يتم تحديد الكلمة الأساسية المرشحة candidate keyword للإطار الحالي باستخدام شبكة فك شفرة تتضمن كلمات أساسية keywords وكلمات حشو من لغات متعددة filler words of multiple languages ، وتستخدم لتحديد درجة الثقة لمتوالية إطار الصوت. يتم تحديد خيار الكلمة أيضاً للإطار اللاحق بناءً على شبكة فك التشفير decoding network ، وعندما ترتبط الكلمة الأساسية المرشحة candidate keyword وخيار الكلمة بنوعين متميزين من اللغات، يتم تحديث درجة ثقة متوالية إطار الصوت على الأقل بناءً على معامل جزاءات مرتبط باثنين من الأنواع المتميزة للغات. ومن ثم يتم تحديد متوالية إطار الصوت لتشتمل على كل من الكلمة الأساسية المرشحة candidate keyword وخيار الكلمة من خلال تقييم درجة الثقة التي تم تحديثها وفقا لمعيار تحديد كلمة أساسية keyword determination criterion . شكل 1 .

Description

_— \ _ الكشف عن الكلمة الأساسية للتعرف على خطاب ‎Keyword detection for speech recognition‏ الوصف الكامل
خلفية الاختراع
تتعلق التطبيقات التي الكشف عنها عموماً بالتعرف على خطاب؛ وعلى وجه الخصوص؛ بالكشف
عن الكلمات الأساسية في بيانات خطاب به أكثر من لغة واحدة.
عند التعرف على الخطاب التلقائي ‎cautomatic speech recognition (ASR)‏ تتمثل الكلمة
0 الأساسية في كلمة مقترنة بمعنى موضوعي معين؛ ويتم تمثيلها بصورة نمطياً باسم أو عبارة. على
العكس؛ تتبع كلمة الحشو الكلمات الأساسية بصورة طبيعية ولا تتحمل أي دور كبير وذي مغزى.
يتم الكشف عن الكلمة الأساسية عند تحديد بداية ونهاية النقاط الزمنية للكلمة الأساسية في بيانات
خطاب يتم استقباله بواسطة وسيلة إلكترونية. وكنتيجة للكشف عن الكلمات الرئيسية ؛ يتم تحديد
بيانات الخطاب بواسطة نظام الكشف عن الكلمة الأساسية ليشتمل على عدة كلمات أساسية ‎٠‏ وكلمات حشو ‎filler words‏ . ويتم تنفيذ أنظمة الكشف عن الكلمات الأساسية الحالية أساساً بناءً
على نموذجين» أي نموذج البيانات غير المقبولة ونموذج التعرف على الصوت/ المقاطع اللفظية.
في نظام الكشف عن الكلمات الأساسية بناءً على نموذج البيانات غير المقبولة؛ يتم استخدام شبكة
فك شفرة ‎decoding network‏ _لتحديد الكلمات الأساسية في بيانات الخطاب الذي تم استقباله؛
وتشتمل الكلمات المستخدمة في شبكة فك الشفرة على كلمات أساسية وكلمات حشو مرتبطة وفقاً ‎Vo‏ لهيكل الشبكة المحدد مسبقاً. وفقا لشبكة فك التشفير ؛ يتعرف نظام الكشف عن الكلمات الأساسية
على كل ‎ein‏ (على سبيل المثال؛ إطار) من بيانات الخطاب باعتباره مرتبطا بالكلمة الأساسية أو
كلمة الحشو. ويتم أيضاً ربط كل ‎sia‏ تم التعرف عليه من بيانات الخطاب بدرجة ثقة؛ ويستخدم
نظام الكشف عن الكلمات الأساسية درجة الثقة ذات الصلة لتحديد ما إذا تم الكشف عن الكلمة
بشكل صحيح. ثم يتم إنتاج الكلمات الأساسية التي يتم تحديدها ليتم الكشف عنها بشكل صحيح ‎A)‏ مع معلومات حول وضعها ضمن بيانات الخطاب .
toty
‎Ad —_‏ _ من ناحية أخرىء يقوم نظام الكشف عن الكلمات الأساسية بناء على نموذج التعرف على الصوت / المقطع اللفظي بالكشف عن الكلمات الأساسية في بيانات الخطاب الذي تم استقباله على أساس االسياق الكامل لبيانات الخطاب. على وجه التحديد؛ يتم إخراج شبكة صوت أو مقطع لفظي لبيانات الخطاب الذي تم استقباله ؛ ويتم الكشف عن الكلمات الأساسية للبيانات الخطاب من شبكة 0 الصوت أو المقطع اللفظي باستخدام تقنية البحث عن سياق . عندما تشترك أكثر من لغة واحدة في التعرف على الخطاب؛ تتطلب أنظمة الكشف عن الكلمة الحالية عادةً طورين مستقلين» أي طور التعرف على لغة وطور الكشف عن الكلمات الأساسية . خلال طور التعرف على اللغة ؛ يتم تحديد لغة معينة لبيانات الخطاب الذي يتم ‎callin‏ وخلال طور الكشف عن الكلمات الأساسية اللاحق؛ يتم عد ذلك تحديد الكلمات الأساسية بواسطة محرك ‎٠‏ الكشف عن الكلمات الأساسية المرتبط بهذه اللغة المعينة. ثم يتم الجمع بين الكلمات الأساسية التي تم الكشف عنها واخراجها كنتيجة تعرف من نظام الكشف عن الكلمات الأساسية. ومع ذلك؛ تتم إعاقة أداء نظام الكشف عن الكلمة الأساسية الحالي الذي يشتمل على اثنين أو أكثر من اللغات في كثير من الأحيان بواسطة طور التعرف على اللغة. تؤثر دقة التعرف على اللغات خلال طور التعرف على اللغة بشكل مباشر على نتائج الكشف عن الكلمة الأساسية في ‎١‏ طور الكشف عن الكلمات الأساسية. على وجه الخصوص؛ يتطلب التعرف الدقيق على اللغة ‎Loses‏ بيانات خطاب تستمر إلى طول ممتد (على سبيل ‎eda)‏ من “ إلى © ثوان)؛ وينتج هذا الشرط حتماً بعض العوائق لتدفق الكلمة الأساسية للكشف عن الكلمة الأساسية لاحقاً. وعلاوة على ذلك؛ يُعد نظام الكشف عن الكلمة الرئيسية الموجود غير فعال وبصفة خاصة عندما يتم خلط كلمات أساسية من لغة متعددة معاً في جملة واحدة (على سبيل المثال؛ في بيانات خطاب مرتبطة ‎٠‏ ب "وا 7و1 8 0220588018 ‎of‏ وبالتالي إحداث التعرف غير الدقيق على اللغات ‎lll) languages‏ الأساسية. ولذلك؛ توجد حاجة للكشف بدقة عن الكلمات الأساسية في الخطاب الذي يحتوي على اثنتين أو أكثر من اللغات. ا
يه الوصف العام للاختراع يتم تقليل أوجه القصور المذكورة أعلاه وغيرها من المشاكل المرتبطة بالطرق التقليدية لاتصال الشبكة أو القضاء عليها بواسطة التطبيق الذي يتم الكشف عنه أدناه. في بعض النماذج؛ يتم تنفيذ © التطبيق في وسيلة إلكترونية تحتوي على واحد أو أكثر من المعالجات وذاكرة وواحدة أو أكثر من الوحدات النمطية ‎modules‏ أو برامج أو مجموعات من التعليمات المخزنة في الذاكرة لأداء وظائف متعددة. يمكن إدراج تعليمات أداء هذه الوظائف في منتج برنامج حاسوب تم تصميمه للتنفيذ بواسطة واحد أو أكثر من المعالجات. يتمثل أحد جوانب الطلب في طريقة يتم تنفيذها على وسيلة إلكترونية للتعرف على كلمة أساسية في خطاب. تشتمل الطريقة على استقبال متوالية من إطارات صوت تشتمل على إطار حالي ‎lil; frame‏ لاحق ‎subsequent frame‏ يتبع الإطار الحالي؛ وتحديد كلمة أساسية مرشحة للإطار الحالي باستخدام شبكة فك شفرة محددة مسبقاً تشمل على الكلمات الأساسية وكلمات حشو من لغات متعددة. تشتمل الطريقة أيضاً على ربط متوالية إطار الصوت بدرجة ثقة يتم تحديدها ‎Lisa‏ وفقاً للكلمة الأساسية المرشحة؛ وتحديد خيار كلمة للإطار اللاحق باستخدام الكلمة الأساسية ‎١‏ المرشحة وشبكة فك شفرة محددة مسبقاً. عند ربط الكلمة الأساسية المرشحة وخيار الكلمة بنوعين متميزين من اللغات ؛ يتم تحديث درجة الثقة الخاصة بمتوالية إطار الصوت بناءً على معامل ‎sha‏ ‏محدد مسبقاً وفقاً لاثنتين من الأنواع المتميزة للغات؛ خيار الكلمة ونموذج سمعي للإطار اللاحق. كما تتضمن الطريقة تحديد أن متوالية الإطار الصوتي تشتمل على كل من الكلمة الأساسية المرشحة وخيار الكلمة من خلال تقييم درجة الثقة التي تم تحديثها وفقاً لمعيار تحديد كلمة أساسية. ‎Yo‏ يتمثل جانب ‎AT‏ للطلب في وسيلة إلكترونية تشتمل على واحد أو أكثر من المعالجات وذاكرة بها برنامج واحد على الأقل (بما في ذلك التعليمات) المخزنة عليها؛ ‎lly‏ عند تنفيذها بواسطة واحد أو أكثر من المعالجات التي تجعل المعالجات تقوم بتنفيذ عمليات لتحديد الكلمة الأساسية في الخطاب. يشتمل البرنامج الواحد على الأقل المخزن على الذاكرة على تعليمات تجعل الوسيلة الالكترونية تقوم بتنفيذ العمليات في الطريقة الموصوفة أعلاه. ا
‎Qo _‏ _ يتمتل جانب آخر من الطلب في وسط تخزين يمكن قراءته بواسطة حاسوب غير انتقالي ‎non—‏ ‎transitory computer‏ يعمل على تخزين برنامج واحد على الأقل مصمم للتنفيذ بواسطة معالج واحد على الأقل من وسيلة إلكترونية. يتضمن البرنامج الواحد على الأقل تعليمات تجعل الوسيلة الالكترونية تقوم بتنفيذ العمليات الواردة في الطريقة الموصوفة أعلاه. © يمكن أن تتضح نماذج ومميزات أخرى لهؤلاء المهرة في الفن في ضوء الأوصاف والرسومات
‏الواردة في هذه المواصفة. شرح مختصر للرسومات يتم بوضوح إدراك التطبيق المذكور مسبقاً للاختراع وكذلك تطبيقات أخرى كنتيجة للوصف التفصيلي التالي لجوانب متعددة للاختراع عند وضعها في الاعتبار بالنسبة للرسومات. تشير
‎٠‏ الأرقام المرجعية المتشابهة إلى أجزاء متقابلة من خلال مساقط متعددة للرسومات. يوضح الشكل ‎١‏ بيانات خطاب مثالي تشتمل على مجموعة من الإطارات الصوتية وفقاً لبعض نماذج الطلب. يوضح الشكل ‎١‏ شبكة فك شفرة مثالية تشتمل على كلمات أساسية و كلمات حشو من لغات متعددة وفقاً لبعض نماذج الطلب.
‎Bag ‏طريقة للتعرف على كلمة أساسية في خطاب‎ Jig ‏يوضح الشكل © مخطط سير عمليات‎ V0 ‏لبعض نماذج الطلب.‎ ‏يوضح الشكل 4 شبكة فك شفرة مثالية أخرى وفقاً لبعض نماذج الطلب.‎ ‏طريقة للكشف عن كلمة أساسية وفقاً لبعض نماذج‎ Jie ‏يوضح الشكل © مخطط سير عمليات‎ ‏الطلب.‎
‎Yo‏ يوضح الشكل + شبكة فك شفرةٍ مثالية تشتمل على كلمات أساسية وكلمات حشو من لغات متعددة وفقاً لبعض نماذج الطلب.
‏ا

Claims (1)

  1. py ‏عناصر الحماية‎ ‏تشتمل على:‎ « keyword in a speech ‏طريقة للتعرف على كلمة أساسية في خطاب‎ -١ ‏تشتمل على‎ receiving a sequence of audio frames ‏استقبال متوالية من إطارات صوت‎ ‏؛ تحديد الكلمة الأساسية‎ subsequent frame ‏لاحق‎ Daly current frame ‏إطار حالي‎ ‏محددة مسبقاً تتضمن‎ decoding network ‏المرشحة للإطار الحالي باستخدام شبكة فك شفرةٍ‎ ‏لغات متعددة ؛ ربط متوالية إطار الصوت‎ ow filler words sia ‏كلمات أساسية وكلمات‎ 0 ‏التي يتم‎ confidence score ‏بدرجة الثقة‎ associating the audio frame sequence ‏تحديدها جزئياً وفقاً للكلمة الأساسية المرشحة؛ تحديد خيار الكلمة للإطار اللاحق باستخدام الكلمة‎ ‏المحددة مسبقاً؛ وعندما يتم ربط‎ decoding network ‏الأساسية المرشحة وشبكة فك التشفير‎ ‏الكلمة الأساسية المرشحة وخيار الكلمة باثنين من الأنواع المتميزة للغات؛ تحديث درجة الثقة‎ ‏على معامل الجزاء الذي يتم تحديده‎ ly ‏الخاصة بمتوالية إطار الصوت‎ confidence score ٠ ‏مسبقاً وفقاً لاثنين من الأنواع المتميزة للغات؛ خيار الكلمة والنموذج الصوتي للإطار اللاحق؛‎ ‏ويشتمل تحديد متوالية إطار الصوت على كل من الكلمة الأساسية المرشحة وخيار الكلمة بواسطة‎ ‏التي تم تحديثها وفقاً لمعيار تحديد كلمة أساسية.‎ confidence score ‏تقييم درجة الثقة‎ ‏حيث يتم تحديد مجموعة من الكلمات الأساسية المرشحة؛‎ ٠ ‏الطريقة وفقاً لعنصر الحماية رقم‎ -Y Yo audio ‏لمتوالية الإطار الصوتي‎ Jal ‏التي تشتمل على الكلمة الأساسية المرشحة ؛ للإطار‎ ‏ويتم ربط كل من الكلمة الأساسية المرشحة مع خيار الكلمة واحد على‎ « frame sequence ‏وحيث يتم تحديد مجموعة فرعية من الكلمة الأساسية المرشحة ليتم إدراجها في متوالية‎ (JY) ‏مع خيار الكلمة الواحد على الأقل الخاص بها ذي‎ audio frame sequence ‏الإطار الصوتي‎ ‏الصلة بناءً على معيار تحديد كلمة أساسية.‎ YL ‏حيث يتمثل الإطار اللاحق في الإطار الأخير لمتوالية‎ oF ‏الطريقة وفقاً لعنصر الحماية رقم‎ -* ‏ووفقاً لمعيار تحديد كلمة أساسية ؛ يتم اختيار‎ «audio frame sequence ‏الإطار الصوتي‎ ‏المفضلة من مجموعة من‎ confidence score ‏الكلمة الأساسية المرشحة المرتبطة بدرجة الثقة‎ ‏الكلمات الأساسية المرشحة مثل كلمة أساسية مرتبطة بالإطار الحالي لمتوالية الإطار الصوتي‎ . audio frame sequence Yo goty
    ديو" ؟- الطريقة وفقاً لعنصر الحماية رقم ‎oF‏ حيث أنه وفقاً لمعيار تحديد كلمة أساسية ؛ يتم ربط كل من مجموعة من الكلمات الأساسية المرشحة مع درجة الثقة ‎score‏ 000108006 ذات الصلة بها لمتوالية الإطار الصوتي ‎audio frame sequence‏ ؛ وتكون درجة الثقة ‎confidence score‏ © ذات الصلة أكبر من القيمة الحدية ‎threshold value‏ للكلمة الأساسية. 5- الطريقة وفقاً لعنصر الحماية رقم 7؛ حيث أنه بعد تحديد المجموعة الفرعية للكلمات الأساسية المرشحة ليتم إدراجها في متوالية الإطار الصوتي ‎audio frame sequence‏ مع خيار الكلمة الواحد على الأقل الخاص بها ذي الصلة؛ يتم تحديث درجة الثقة ‎Lad confidence score‏ ‎٠‏ ويتم تحديدها لتتجاوز قيمة حدية للكلمة الأساسية وفقاً لمعيار تحديد كلمة أساسية. 7- الطريقة وفقاً لعنصر الحماية رقم ‎٠‏ حيث أنه وفقاً لمعيار تحديد كلمة أساسية ؛ تكون درجة الثقة ‎confidence score‏ لمتوالية الإطار الصوتي ‎frame sequence‏ وكيا أكبر من القيمة الحدية ‎threshold value‏ للكلمة الأساسية. ‎Vo‏ ‎-١‏ الطريقة وفقاً لعنصر الحماية رقم ‎Cua)‏ يتم ربط شبكة فك التشفير ‎decoding network‏ المحددة مسبقاً باثنين أو أكثر من اللغات الإنجليزية؛ الصينية؛ اليابانية؛ الروسية؛ الفرنسية؛ الألمانية وما شابه ذلك وتشتمل على مجموعة فرعية من الكلمات الأساسية ومجموعة فرعية من كلمات الحشو ‎filler words‏ لكل من اثنين أو أكثر من اللغات. ‎٠‏ ‎—A‏ الطريقة وفقاً لعنصر الحماية رقم ‎٠‏ حيث تشتمل كل كلمة أساسية من شبكة فك التشفير ‎decoding network‏ المحددة مسبقاً على واحدة أو أكثر من سماعات ثلاثية. 4- الطريقة وفقاً لعنصر الحماية رقم ‎١‏ حيث أنه وفقاً لهيكل فك التشفير | ‎decoding‏ ‎structure Yo‏ لشبكة فك التشفير ‎decoding network‏ المحددة مسبقاًء يتم ربط كل كلمة أساسية في شبكة فك التشفير ‎decoding network‏ المحددة مسبقاً بكلمة واحدة على الأقل تستخدم مع ا
    —yvo- الكلمة الأساسية ذات الصلة في خطاب ‎Ads‏ وإدراجها في في شبكة فك التشفير ‎decoding‏
    . 06/01 decoding ‏الطريقة وفقاً لعنصر الحماية رقم 9؛ حيث أنه وفقاً لهيكل فك التشفير‎ -٠ ‏المحددة مسبقاًء تنتج كل كلمة أساسية في‎ decoding network ‏لشبكة فك التشفير‎ structure © مجموعة فرعية من الكلمات الأساسية والكلمة الواحدة على الأقل ذات الصلة التي تستخدم مع الكلمة الأساسية ذات الصلة من اثنين من اللغات المختلفة. ‎-١‏ الطريقة وفقاً لعنصر الحماية رقم )0 تشتمل أيضاً على: ‎٠‏ إنشاء جدول معامل الجزاء ليشتمل على مجموعة من عوامل الجزاء يتم ربط كل منها باثنين من اللغات المختلفة؛ حيث يتم تحديد معامل الجزاء المستخدم لتحديث درجة الثقة ‎confidence‏ ‏65 لمتوالية الإطار الصوتي ‎audio frame sequence‏ بواسطة استخراج جدول معامل الجزاء بناءً على نوعين متميزين من اللغات المختلفة للكلمة الأساسية المرشحة وخيار الكلمة. ‎-VY Vo‏ الطريقة وفقاً لعنصر الحماية رقم )0 تشتمل أيضاً على: إنشاء شبكة فك تشفير محددة ‎cle‏ حيث يتم تجميع الكلمات الأساسية وكلمات الحشو ‎filler‏ ‏5 من لغات متعددة وفقاً لأنواع اللغات الخاصة ‎lg‏ يشتمل أيضاً على: خلق عقدة بداية ‎start node‏ وعقدة نهاية ‎end node‏ ؛ خلق مجموعة من عقد اللغة ‎language nodes‏ يمثل كل منها نوع من اللغة؛ ربط كل عقدة لغة بعقدة بداية ‎start node‏ ¢ ‎Yo‏ ربط كل عقدة لغة بمجموعة فرعية من الكلمات الأساسية ذات الصلة ومجموعة فرعية من كلمات الحشو ‎filler words‏ ذات الصلة ‎La‏ من اللغة المقابلة؛ لكل كلمة أساسية؛ تحويل الكلمة الأساسية ‎converting the keyword‏ ذات الصلة لمتوالية من السماعات الثلاثية ‎triphone‏ ‎Sequences‏ ¢ إنشاء عقدة سماعة ثلاثية ذات ‎Alia‏ لكل سماعة ثلاثية من متوالية السماعات الثلاثية ‎oe triphone sequences‏ الكلمة الأساسية ذات الصلة؛ ربط عقد السماعة الثلاثية ‎Yo‏ .من متوالية السماعات الثلاثية ‎lee triphone sequences‏ لتشكيل متوالية عقد ‎de law‏ ثلاثية ‎Wy‏ في ذلك عقدة سماعة ثلاثية رئيسية وعقدة سماعة ثلاثية ‎(Aphid‏ ربط عقدة السماعة الثلاثية ‏ا
    1+ الرئيسية ذات الصلة بعقدة اللغة المقابلة وعقدة السماعة الثلاثية الذيلية ذات الصلة بعقدة نهاية ‎end node‏ ؛ لكل كلمة حشوء يتم إنشاء عقدة حشو ذات صلة واقران عقدة الحشو ذات ‎Adal‏ ‏بين عقدة اللغة المقابلة وعقدة نهاية ‎end node‏ ؛ وربط عقدة بداية ‎start node‏ وعقدة نهاية ‎end node‏ . ‎lo}‏ ‎YF‏ - الطريقة وفقاً لعنصر الحماية رقم ‎OY‏ حيث يتم تحديد الكلمة الأساسية المرشحة وخيار الكلمة ليتم ربطها باثنين من الأنواع ‎(lal Sad)‏ حيث يتم ربط واحدة من مجموعة من عقد اللغة ‎language nodes‏ بين ‎Ad‏ الأساسية المرشحة وخيار الكلمة على شبكة فك التشفير ‎decoding network‏ المحددة مسبقاً. ‎ye‏ ‎-٠6‏ الطريقة وفقاً لعنصر الحماية رقم ‎OY‏ حيث أنه وفقاً ل هيكل فك التشفير ‎decoding‏ ‎dual structure‏ فك التشفير ‎decoding network‏ المحددة مسبقاًء يتم ربط كل كلمة أساسية في شبكة فك التشفير ‎decoding network‏ على شبكة فك التشفير ‎decoding network‏ المحددة مسبقاً بكلمة واحدة على الأقل تستخدم مع الكلمة الأساسية ذات الصلة في خطاب فعلي. ‎Vo‏ ‏- وسيلة إلكترونية ؛ تحتوي على: واحد أو أكثر من المعالجات؛ وذاكرة بها تعليمات مخزنة عليها؛ والتي عند تنفيذها بواسطة واحد أو أكثر من المعالجات تجعل المعالجات تقوم بإجراء عمليات تشتمل على: استقبال متوالية من إطارات صوت تشتمل على إطار حالي ‎current frame‏ واطار لاحق ‎subsequent frameY.‏ يتبع الإطار الحالي؛ تحديد كلمة أساسية مرشحة للإطار الحالي باستخدام شبكة فك شفرة ‎decoding network‏ محددة مسبقاً تشمل على الكلمات الأساسية وكلمات حشو ‎filler words‏ _من لغات متعددة ؛ ربط متوالية إطار الصوت ‎associating the audio‏ ‎frame sequence‏ بدرجة ثقة يتم تحديدها ‎Lis‏ وفقاً للكلمة الأساسية المرشحة؛ تحديد خيار كلمة للإطار اللاحق باستخدام الكلمة الأساسية المرشحة وشبكة فك شفرة ‎decoding network‏ ‎YO‏ محددة مسبقاً؛ عند ربط الكلمة الأساسية المرشحة وخيار الكلمة بنوعين متميزين من اللغات؛ يتم تحديث درجة الثقة ‎confidence score‏ الخاصة بمتوالية إطار الصوت بناءً على معامل جزاء ا
    الا ‎penalty factor‏ محدد مسبقاً وفقاً لاثنتين من الأنواع المتميزة للغات؛ خيار الكلمة ونموذج سمعي للإطار اللاحق ؛ وتحديد أن متوالية الإطار الصوتي ‎audio frame sequence‏ تشتمل على كل من الكلمة الأساسية المرشحة وخيار الكلمة من خلال تقييم درجة الثقة ‎confidence‏ ‏© التي تم تحديثها وفقاً لمعيار تحديد كلمة أساسية. ‎lo}‏
    — الوسيلة الإلكترونية وفقاً لعنصر الحماية رقم ‎V0‏ حيث أنه وفقاً لمعيار تحديد كلمة أساسية ؛ تكون درجة الثقة ‎confidence score‏ لمتوالية الإطار الصوتي ‎audio frame sequence‏ أكبر من القيمة الحدية ‎threshold value‏ للكلمة الأساسية.
    ‎-١#‏ الوسيلة الإلكترونية وفقاً لعنصر الحماية رقم ‎V0‏ حيث تشتمل العمليات التي يتم إجراؤها بواسطة المعالجات أيضاً على: إنشاء جدول معامل الجزاء ليشتمل على مجموعة من عوامل الجزاء يتم ربط كل منها باثنين من اللغات المختلفة؛ حيث يتم تحديد معامل الجزاء المستخدم لتحديث درجة الثقة ‎confidence‏ ‏65 لمتوالية الإطار الصوتي ‎audio frame sequence‏ بواسطة استخراج جدول معامل
    ‎Vo‏ الجزاء بناءً على نوعين متميزين من اللغات المختلفة للكلمة الأساسية المرشحة وخيار الكلمة. ١٠-_الوسيلة‏ الإلكترونية وفقاً لعنصر الحماية رقم 00 حيث يتم ربط شبكة فك التشفير ‎sand) decoding network‏ مسبقاً باثنين أو أكثر من اللغات الإنجليزية؛ الصينية» اليابانية؛ الروسية؛ الفرنسية؛ الألمانية وما شابه ذلك؛ وتشتمل على مجموعة فرعية من الكلمات الأساسية
    ‎٠٠‏ ومجموعة فرعية من كلمات الحشو ‎filler words‏ لكل من اثنين أو أكثر من اللغات. 4- وسط تخزين يمكن قراءته بواسطة حاسوب غير انتقالي ‎non-transitory computer—‏ ‎readable medium‏ به تعليمات مخزنة عليه ‎lly‏ عند تنفيذها بواسطة واحد أو أكثر من المعالجات تجعل المعالجات تقوم بإجراء عمليات تشتمل على:
    ‏© استقبال متوالية من إطارات صوت ‎receiving a sequence of audio frames‏ تشتمل على إطار حالي ‎lly current frame‏ لاحق ‎subsequent frame‏ يتبع الإطار الحالي؛
    ‏ا
    م تحديد كلمة أساسية مرشحة للإطار الحالي باستخدام شبكة فك شفرة ‎decoding network‏ محددة مسبقاً تشمل على الكلمات الأساسية وكلمات ‎filler words sia‏ من لغات متعددة ؛ ربط متوالية إطار الصوت ‎associating the audio frame sequence‏ بدرجة 46 يتم تحديدها ‎Wa‏ وفقاً للكلمة الأساسية المرشحة؛ تحديد خيار كلمة للإطار اللاحق باستخدام الكلمة الأساسية © المرشحة وشبكة فك شفرة ‎decoding network‏ محددة مسبقاً؛ عند ربط الكلمة الأساسية المرشحة وخيار الكلمة بنوعين متميزين من اللغات؛ يتم تحديث درجة الثقة ‎confidence score‏ الخاصة بمتوالية إطار الصوت بناءً على معامل جزاء ‎penalty factor‏ محدد مسبقاً وفقاً لاثنتين من الأنواع المتميزة للغات؛ خيار الكلمة ونموذج سمعي للإطار اللاحق ؛ وتحديد أن متوالية الإطار الصوتي ‎audio frame sequence‏ تشتمل على كل من الكلمة الأساسية المرشحة
    ‎٠‏ وخيار الكلمة من خلال تقييم درجة الثقة التي تم تحديثها وفقاً لمعيار تحديد كلمة أساسية.
    ‎non-transitory computer— ‏وسط تخزين يمكن قراءته بواسطة حاسوب غير انتقالي‎ -٠ shal ‏حيث تشتمل العمليات التي يتم‎ ٠9 ‏وفقاً لعنصر الحماية رقم‎ readable medium ‏أيضاً على:‎ processors ‏بواسطة المعالجات‎
    ‎١‏ إنشاء جدول معامل الجزاء ليشتمل على مجموعة من عوامل الجزاء يتم ربط كل منها باثنين من اللغات المختلفة؛ حيث يتم تحديد معامل الجزاء المستخدم لتحديث درجة الثقة ‎confidence‏ ‏65 لمتوالية الإطار الصوتي ‎audio frame sequence‏ بواسطة استخراج جدول معامل الجزاء بناءً على نوعين متميزين من اللغات المختلفة للكلمة الأساسية المرشحة وخيار الكلمة.
    ‏ل
    -؟8٠-‏ ‎ST Ya‏ تحديث درجة ‎PEN‏ ‏اطار صوتي لاحق ‎FyiF't Fn‏ دع عيع بجع جع مع اع جع بجع دع ‎rm Prt‏ حاني شكل ‎١‏ ‏الال
    —¢ «= ) EW EW Th EW EWYY KW + KWE Y EWy ‏م‎ KW ‏ران‎ EWE +“ Ew YE Kw Yé& KWk EW 4 & KEW T& KWEL & EW 4% KW 5 EWE 1 EW 3% EW vy | KW ‏يخ‎ ‎KEW ya EW wa EWE & FIT 3 Fir Yy ‏1ط‎ ‎FAY Fi ¢¥ FFX ‏مم‎ 3 ¢ FW gw 1187 7 FF + ¢ o Ja Yi ١ ‏اللغة * اللغة ؟ اللغة‎ * ‏بثرءا‎ ‏ل‎
    RA ‏شكل ؟‎ ‏ول‎ ma Tr ‏الس‎ ‎om ‏شكل ؛‎ ‏ل‎
    ‎Ad —_‏ _ ‎EE‏ 1 شمثل مِ ا
    _ _ ‏ع‎ ‎0 1 (ren) Kn re. ١ ‏شكل‎
    اج ¢ _— الى ض ‎CR IR‏ ا vo. Vi, vee | ‏اا‎ شكل أ
    مج ا - شكل ‎١‏ ب ل
    مدة سريان هذه البراءة عشرون سنة من تاريخ إيداع الطلب وذلك بشرط تسديد المقابل المالي السنوي للبراءة وعدم بطلانها أو سقوطها لمخالفتها لأي من أحكام نظام براءات الاختراع والتصميمات التخطيطية للدارات المتكاملة والأصناف النباتية والنماذج الصناعية أو لائحته التنفيذية صادرة عن مدينة الملك عبدالعزيز للعلوم والتقنية ؛ مكتب البراءات السعودي ص ب ‎TAT‏ الرياض 57؟؟١١‏ ¢ المملكة العربية السعودية بريد الكتروني: ‎patents @kacst.edu.sa‏
SA114350692A 2013-08-15 2014-08-13 الكشف عن الكلمة الأساسية للتعرف على خطاب SA114350692B1 (ar)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310355905.6A CN104143328B (zh) 2013-08-15 2013-08-15 一种关键词检测方法和装置

Publications (1)

Publication Number Publication Date
SA114350692B1 true SA114350692B1 (ar) 2015-12-13

Family

ID=51852486

Family Applications (1)

Application Number Title Priority Date Filing Date
SA114350692A SA114350692B1 (ar) 2013-08-15 2014-08-13 الكشف عن الكلمة الأساسية للتعرف على خطاب

Country Status (6)

Country Link
US (1) US9230541B2 (ar)
CN (1) CN104143328B (ar)
HK (1) HK1199673A1 (ar)
SA (1) SA114350692B1 (ar)
TW (1) TWI543148B (ar)
WO (1) WO2015021844A1 (ar)

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6066354B2 (ja) * 2011-07-01 2017-01-25 日本電気株式会社 信頼度計算の方法及び装置
CN103971678B (zh) * 2013-01-29 2015-08-12 腾讯科技(深圳)有限公司 关键词检测方法和装置
GB2523353B (en) * 2014-02-21 2017-03-01 Jaguar Land Rover Ltd System for use in a vehicle
WO2016103358A1 (ja) * 2014-12-24 2016-06-30 三菱電機株式会社 音声認識装置及び音声認識方法
US10192546B1 (en) * 2015-03-30 2019-01-29 Amazon Technologies, Inc. Pre-wakeword speech processing
KR102434604B1 (ko) * 2016-01-05 2022-08-23 한국전자통신연구원 개인화된 음성 인식을 수행하기 위한 음성 인식 단말, 음성 인식 서버 및 음성 인식 방법
US10354653B1 (en) 2016-01-19 2019-07-16 United Services Automobile Association (Usaa) Cooperative delegation for digital assistants
KR101934280B1 (ko) * 2016-10-05 2019-01-03 현대자동차주식회사 발화내용 분석 장치 및 방법
CN106611597B (zh) * 2016-12-02 2019-11-08 百度在线网络技术(北京)有限公司 基于人工智能的语音唤醒方法和装置
CN106653022B (zh) * 2016-12-29 2020-06-23 百度在线网络技术(北京)有限公司 基于人工智能的语音唤醒方法和装置
JP6599914B2 (ja) * 2017-03-09 2019-10-30 株式会社東芝 音声認識装置、音声認識方法およびプログラム
CN110444199B (zh) * 2017-05-27 2022-01-07 腾讯科技(深圳)有限公司 一种语音关键词识别方法、装置、终端及服务器
US20200273447A1 (en) * 2017-10-24 2020-08-27 Beijing Didi Infinity Technology And Development Co., Ltd. System and method for key phrase spotting
CN110770820A (zh) * 2018-08-30 2020-02-07 深圳市大疆创新科技有限公司 语音识别方法、装置、拍摄系统和计算机可读存储介质
CN109192224B (zh) * 2018-09-14 2021-08-17 科大讯飞股份有限公司 一种语音评测方法、装置、设备及可读存储介质
US11308939B1 (en) * 2018-09-25 2022-04-19 Amazon Technologies, Inc. Wakeword detection using multi-word model
US11475875B2 (en) * 2018-10-26 2022-10-18 Sriram Chakravarthy Method and system for implementing language neutral virtual assistant
CN110164416B (zh) * 2018-12-07 2023-05-09 腾讯科技(深圳)有限公司 一种语音识别方法及其装置、设备和存储介质
CN111369978B (zh) * 2018-12-26 2024-05-17 北京搜狗科技发展有限公司 一种数据处理方法、装置和用于数据处理的装置
CN109545197B (zh) * 2019-01-02 2021-02-09 珠海格力电器股份有限公司 语音指令的识别方法、装置和智能终端
CN111583910B (zh) * 2019-01-30 2023-09-26 北京猎户星空科技有限公司 模型更新方法、装置、电子设备及存储介质
CN109872726A (zh) * 2019-03-26 2019-06-11 北京儒博科技有限公司 发音评估方法、装置、电子设备和介质
CN110046276B (zh) * 2019-04-19 2021-04-20 北京搜狗科技发展有限公司 一种语音中关键词的检索方法和装置
CN112133291B (zh) * 2019-06-05 2024-02-13 科大讯飞股份有限公司 一种语种识别模型训练、语种识别的方法和相关装置
CN110246490B (zh) * 2019-06-26 2022-04-19 合肥讯飞数码科技有限公司 语音关键词检测方法及相关装置
US11521599B1 (en) * 2019-09-20 2022-12-06 Amazon Technologies, Inc. Wakeword detection using a neural network
US11238884B2 (en) * 2019-10-04 2022-02-01 Red Box Recorders Limited Systems and methods for recording quality driven communication management
US10878840B1 (en) * 2019-10-15 2020-12-29 Audio Analytic Ltd Method of recognising a sound event
US11437019B1 (en) 2019-10-24 2022-09-06 Reality Analytics, Inc. System and method for source authentication in voice-controlled automation
US11676496B2 (en) 2020-03-19 2023-06-13 Honeywell International Inc. Methods and systems for querying for parameter retrieval
CN111540363B (zh) * 2020-04-20 2023-10-24 合肥讯飞数码科技有限公司 关键词模型及解码网络构建方法、检测方法及相关设备
CN111710337B (zh) * 2020-06-16 2023-07-07 睿云联(厦门)网络通讯技术有限公司 语音数据的处理方法、装置、计算机可读介质及电子设备
CN113506584B (zh) * 2021-07-06 2024-05-14 腾讯音乐娱乐科技(深圳)有限公司 数据处理方法以及设备
US11909703B2 (en) 2021-08-26 2024-02-20 International Business Machines Corporation Live chat stream comment management
CN113610193A (zh) * 2021-09-08 2021-11-05 北京科技大学 一种再生资源识别模型建立方法及再生资源识别方法

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5388183A (en) * 1991-09-30 1995-02-07 Kurzwell Applied Intelligence, Inc. Speech recognition providing multiple outputs
WO1995002879A1 (en) * 1993-07-13 1995-01-26 Theodore Austin Bordeaux Multi-language speech recognition system
US6067520A (en) * 1995-12-29 2000-05-23 Lee And Li System and method of recognizing continuous mandarin speech utilizing chinese hidden markou models
US6085160A (en) * 1998-07-10 2000-07-04 Lernout & Hauspie Speech Products N.V. Language independent speech recognition
US6138095A (en) * 1998-09-03 2000-10-24 Lucent Technologies Inc. Speech recognition
US9076448B2 (en) * 1999-11-12 2015-07-07 Nuance Communications, Inc. Distributed real time speech recognition system
US20020087311A1 (en) * 2000-12-29 2002-07-04 Leung Lee Victor Wai Computer-implemented dynamic language model generation method and system
US7043431B2 (en) * 2001-08-31 2006-05-09 Nokia Corporation Multilingual speech recognition system using text derived recognition models
EP1654727A4 (en) * 2003-07-23 2007-12-26 Nexidia Inc INTERROGATIONS FOR THE DETECTION OF WORDS
KR100612839B1 (ko) * 2004-02-18 2006-08-18 삼성전자주식회사 도메인 기반 대화 음성인식방법 및 장치
US7415411B2 (en) * 2004-03-04 2008-08-19 Telefonaktiebolaget L M Ericsson (Publ) Method and apparatus for generating acoustic models for speaker independent speech recognition of foreign words uttered by non-native speakers
DE602004023134D1 (de) * 2004-07-22 2009-10-22 France Telecom Spracherkennungsverfahren und -system, das an die eigenschaften von nichtmuttersprachlern angepasst ist
US7725318B2 (en) * 2004-07-30 2010-05-25 Nice Systems Inc. System and method for improving the accuracy of audio searching
CN101154379B (zh) * 2006-09-27 2011-11-23 夏普株式会社 定位语音中的关键词的方法和设备以及语音识别系统
CN101447185B (zh) * 2008-12-08 2012-08-08 深圳市北科瑞声科技有限公司 一种基于内容的音频快速分类方法
US8788256B2 (en) * 2009-02-17 2014-07-22 Sony Computer Entertainment Inc. Multiple language voice recognition
CN101847149A (zh) * 2009-03-23 2010-09-29 赛微科技股份有限公司 服务器及借助一服务器实现的语音搜寻方法
CN102194454B (zh) * 2010-03-05 2012-11-28 富士通株式会社 用于检测连续语音中的关键词的设备和方法

Also Published As

Publication number Publication date
TWI543148B (zh) 2016-07-21
CN104143328B (zh) 2015-11-25
HK1199673A1 (en) 2015-07-10
CN104143328A (zh) 2014-11-12
US20150095032A1 (en) 2015-04-02
TW201506903A (zh) 2015-02-16
WO2015021844A1 (en) 2015-02-19
US9230541B2 (en) 2016-01-05

Similar Documents

Publication Publication Date Title
SA114350692B1 (ar) الكشف عن الكلمة الأساسية للتعرف على خطاب
TWI664540B (zh) Search word error correction method and device, and weighted edit distance calculation method and device
CN103493041B (zh) 使用浅层句法分析器自动评估句子的自动句子评估装置及其错误检测设备和方法
Tachbelie et al. Using different acoustic, lexical and language modeling units for ASR of an under-resourced language–Amharic
JP2006268375A (ja) 翻訳メモリシステム
Reddy et al. Integration of statistical models for dictation of document translations in a machine-aided human translation task
JP6778655B2 (ja) 単語連接識別モデル学習装置、単語連接検出装置、方法、及びプログラム
He et al. Multi-style adaptive training for robust cross-lingual spoken language understanding
Gelas et al. Quality assessment of crowdsourcing transcriptions for African languages
JP5323652B2 (ja) 類似語決定方法およびシステム
Lu et al. Disfluency detection for spoken learner english
JP2006338261A (ja) 翻訳装置、翻訳方法及び翻訳プログラム
Lee et al. Developing learner corpus annotation for Korean particle errors
Vasserman et al. Sequence-based class tagging for robust transcription in ASR.
KR20130126570A (ko) 핵심어에서의 음소 오류 결과를 고려한 음향 모델 변별 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체
US11907656B2 (en) Machine based expansion of contractions in text in digital media
Besacier et al. Word confidence estimation for speech translation
CN107590132B (zh) 一种自动更正部分文字的方法-由英文词性判断
Ostrogonac et al. Language model reduction for practical implementation in LVCSR systems
Uchimoto et al. Morphological analysis of a large spontaneous speech corpus in Japanese
JP2009157888A (ja) 音訳モデル作成装置、音訳装置、及びそれらのためのコンピュータプログラム
CN114519358A (zh) 翻译质量评估方法、装置、电子设备和存储介质
JP4733436B2 (ja) 単語・意味表現組データベースの作成方法、音声理解方法、単語・意味表現組データベース作成装置、音声理解装置、プログラムおよび記憶媒体
Núñez et al. Phonetic normalization for machine translation of user generated content
Réveil et al. Improving proper name recognition by means of automatically learned pronunciation variants