SA114350692B1 - الكشف عن الكلمة الأساسية للتعرف على خطاب - Google Patents
الكشف عن الكلمة الأساسية للتعرف على خطاب Download PDFInfo
- Publication number
- SA114350692B1 SA114350692B1 SA114350692A SA114350692A SA114350692B1 SA 114350692 B1 SA114350692 B1 SA 114350692B1 SA 114350692 A SA114350692 A SA 114350692A SA 114350692 A SA114350692 A SA 114350692A SA 114350692 B1 SA114350692 B1 SA 114350692B1
- Authority
- SA
- Saudi Arabia
- Prior art keywords
- keyword
- word
- languages
- candidate
- confidence score
- Prior art date
Links
- 238000001514 detection method Methods 0.000 title description 18
- 238000000034 method Methods 0.000 claims abstract description 24
- 239000000945 filler Substances 0.000 claims abstract description 17
- 241001124076 Aphididae Species 0.000 claims 1
- 101100234002 Drosophila melanogaster Shal gene Proteins 0.000 claims 1
- 241000196324 Embryophyta Species 0.000 claims 1
- 244000035744 Hura crepitans Species 0.000 claims 1
- 235000015076 Shorea robusta Nutrition 0.000 claims 1
- 244000166071 Shorea robusta Species 0.000 claims 1
- 230000009977 dual effect Effects 0.000 claims 1
- 239000004576 sand Substances 0.000 claims 1
- 230000006870 function Effects 0.000 description 2
- 230000002045 lasting effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/083—Recognition networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Telephonic Communication Services (AREA)
Abstract
يتعلق الاختراع الحالي بطريقة يتم تنفيذها للتعرف على كلمة أساسية في خطاب keyword in a speech يتضمن متوالية من إطارات صوت تشتمل أيضاَ على إطار حالي current frame وإطار لاحق subsequent frame . يتم تحديد الكلمة الأساسية المرشحة candidate keyword للإطار الحالي باستخدام شبكة فك شفرة تتضمن كلمات أساسية keywords وكلمات حشو من لغات متعددة filler words of multiple languages ، وتستخدم لتحديد درجة الثقة لمتوالية إطار الصوت. يتم تحديد خيار الكلمة أيضاً للإطار اللاحق بناءً على شبكة فك التشفير decoding network ، وعندما ترتبط الكلمة الأساسية المرشحة candidate keyword وخيار الكلمة بنوعين متميزين من اللغات، يتم تحديث درجة ثقة متوالية إطار الصوت على الأقل بناءً على معامل جزاءات مرتبط باثنين من الأنواع المتميزة للغات. ومن ثم يتم تحديد متوالية إطار الصوت لتشتمل على كل من الكلمة الأساسية المرشحة candidate keyword وخيار الكلمة من خلال تقييم درجة الثقة التي تم تحديثها وفقا لمعيار تحديد كلمة أساسية keyword determination criterion . شكل 1 .
Description
_— \ _ الكشف عن الكلمة الأساسية للتعرف على خطاب Keyword detection for speech recognition الوصف الكامل
خلفية الاختراع
تتعلق التطبيقات التي الكشف عنها عموماً بالتعرف على خطاب؛ وعلى وجه الخصوص؛ بالكشف
عن الكلمات الأساسية في بيانات خطاب به أكثر من لغة واحدة.
عند التعرف على الخطاب التلقائي cautomatic speech recognition (ASR) تتمثل الكلمة
0 الأساسية في كلمة مقترنة بمعنى موضوعي معين؛ ويتم تمثيلها بصورة نمطياً باسم أو عبارة. على
العكس؛ تتبع كلمة الحشو الكلمات الأساسية بصورة طبيعية ولا تتحمل أي دور كبير وذي مغزى.
يتم الكشف عن الكلمة الأساسية عند تحديد بداية ونهاية النقاط الزمنية للكلمة الأساسية في بيانات
خطاب يتم استقباله بواسطة وسيلة إلكترونية. وكنتيجة للكشف عن الكلمات الرئيسية ؛ يتم تحديد
بيانات الخطاب بواسطة نظام الكشف عن الكلمة الأساسية ليشتمل على عدة كلمات أساسية ٠ وكلمات حشو filler words . ويتم تنفيذ أنظمة الكشف عن الكلمات الأساسية الحالية أساساً بناءً
على نموذجين» أي نموذج البيانات غير المقبولة ونموذج التعرف على الصوت/ المقاطع اللفظية.
في نظام الكشف عن الكلمات الأساسية بناءً على نموذج البيانات غير المقبولة؛ يتم استخدام شبكة
فك شفرة decoding network _لتحديد الكلمات الأساسية في بيانات الخطاب الذي تم استقباله؛
وتشتمل الكلمات المستخدمة في شبكة فك الشفرة على كلمات أساسية وكلمات حشو مرتبطة وفقاً Vo لهيكل الشبكة المحدد مسبقاً. وفقا لشبكة فك التشفير ؛ يتعرف نظام الكشف عن الكلمات الأساسية
على كل ein (على سبيل المثال؛ إطار) من بيانات الخطاب باعتباره مرتبطا بالكلمة الأساسية أو
كلمة الحشو. ويتم أيضاً ربط كل sia تم التعرف عليه من بيانات الخطاب بدرجة ثقة؛ ويستخدم
نظام الكشف عن الكلمات الأساسية درجة الثقة ذات الصلة لتحديد ما إذا تم الكشف عن الكلمة
بشكل صحيح. ثم يتم إنتاج الكلمات الأساسية التي يتم تحديدها ليتم الكشف عنها بشكل صحيح A) مع معلومات حول وضعها ضمن بيانات الخطاب .
toty
Ad —_ _ من ناحية أخرىء يقوم نظام الكشف عن الكلمات الأساسية بناء على نموذج التعرف على الصوت / المقطع اللفظي بالكشف عن الكلمات الأساسية في بيانات الخطاب الذي تم استقباله على أساس االسياق الكامل لبيانات الخطاب. على وجه التحديد؛ يتم إخراج شبكة صوت أو مقطع لفظي لبيانات الخطاب الذي تم استقباله ؛ ويتم الكشف عن الكلمات الأساسية للبيانات الخطاب من شبكة 0 الصوت أو المقطع اللفظي باستخدام تقنية البحث عن سياق . عندما تشترك أكثر من لغة واحدة في التعرف على الخطاب؛ تتطلب أنظمة الكشف عن الكلمة الحالية عادةً طورين مستقلين» أي طور التعرف على لغة وطور الكشف عن الكلمات الأساسية . خلال طور التعرف على اللغة ؛ يتم تحديد لغة معينة لبيانات الخطاب الذي يتم callin وخلال طور الكشف عن الكلمات الأساسية اللاحق؛ يتم عد ذلك تحديد الكلمات الأساسية بواسطة محرك ٠ الكشف عن الكلمات الأساسية المرتبط بهذه اللغة المعينة. ثم يتم الجمع بين الكلمات الأساسية التي تم الكشف عنها واخراجها كنتيجة تعرف من نظام الكشف عن الكلمات الأساسية. ومع ذلك؛ تتم إعاقة أداء نظام الكشف عن الكلمة الأساسية الحالي الذي يشتمل على اثنين أو أكثر من اللغات في كثير من الأحيان بواسطة طور التعرف على اللغة. تؤثر دقة التعرف على اللغات خلال طور التعرف على اللغة بشكل مباشر على نتائج الكشف عن الكلمة الأساسية في ١ طور الكشف عن الكلمات الأساسية. على وجه الخصوص؛ يتطلب التعرف الدقيق على اللغة Loses بيانات خطاب تستمر إلى طول ممتد (على سبيل eda) من “ إلى © ثوان)؛ وينتج هذا الشرط حتماً بعض العوائق لتدفق الكلمة الأساسية للكشف عن الكلمة الأساسية لاحقاً. وعلاوة على ذلك؛ يُعد نظام الكشف عن الكلمة الرئيسية الموجود غير فعال وبصفة خاصة عندما يتم خلط كلمات أساسية من لغة متعددة معاً في جملة واحدة (على سبيل المثال؛ في بيانات خطاب مرتبطة ٠ ب "وا 7و1 8 0220588018 of وبالتالي إحداث التعرف غير الدقيق على اللغات lll) languages الأساسية. ولذلك؛ توجد حاجة للكشف بدقة عن الكلمات الأساسية في الخطاب الذي يحتوي على اثنتين أو أكثر من اللغات. ا
يه الوصف العام للاختراع يتم تقليل أوجه القصور المذكورة أعلاه وغيرها من المشاكل المرتبطة بالطرق التقليدية لاتصال الشبكة أو القضاء عليها بواسطة التطبيق الذي يتم الكشف عنه أدناه. في بعض النماذج؛ يتم تنفيذ © التطبيق في وسيلة إلكترونية تحتوي على واحد أو أكثر من المعالجات وذاكرة وواحدة أو أكثر من الوحدات النمطية modules أو برامج أو مجموعات من التعليمات المخزنة في الذاكرة لأداء وظائف متعددة. يمكن إدراج تعليمات أداء هذه الوظائف في منتج برنامج حاسوب تم تصميمه للتنفيذ بواسطة واحد أو أكثر من المعالجات. يتمثل أحد جوانب الطلب في طريقة يتم تنفيذها على وسيلة إلكترونية للتعرف على كلمة أساسية في خطاب. تشتمل الطريقة على استقبال متوالية من إطارات صوت تشتمل على إطار حالي lil; frame لاحق subsequent frame يتبع الإطار الحالي؛ وتحديد كلمة أساسية مرشحة للإطار الحالي باستخدام شبكة فك شفرة محددة مسبقاً تشمل على الكلمات الأساسية وكلمات حشو من لغات متعددة. تشتمل الطريقة أيضاً على ربط متوالية إطار الصوت بدرجة ثقة يتم تحديدها Lisa وفقاً للكلمة الأساسية المرشحة؛ وتحديد خيار كلمة للإطار اللاحق باستخدام الكلمة الأساسية ١ المرشحة وشبكة فك شفرة محددة مسبقاً. عند ربط الكلمة الأساسية المرشحة وخيار الكلمة بنوعين متميزين من اللغات ؛ يتم تحديث درجة الثقة الخاصة بمتوالية إطار الصوت بناءً على معامل sha محدد مسبقاً وفقاً لاثنتين من الأنواع المتميزة للغات؛ خيار الكلمة ونموذج سمعي للإطار اللاحق. كما تتضمن الطريقة تحديد أن متوالية الإطار الصوتي تشتمل على كل من الكلمة الأساسية المرشحة وخيار الكلمة من خلال تقييم درجة الثقة التي تم تحديثها وفقاً لمعيار تحديد كلمة أساسية. Yo يتمثل جانب AT للطلب في وسيلة إلكترونية تشتمل على واحد أو أكثر من المعالجات وذاكرة بها برنامج واحد على الأقل (بما في ذلك التعليمات) المخزنة عليها؛ lly عند تنفيذها بواسطة واحد أو أكثر من المعالجات التي تجعل المعالجات تقوم بتنفيذ عمليات لتحديد الكلمة الأساسية في الخطاب. يشتمل البرنامج الواحد على الأقل المخزن على الذاكرة على تعليمات تجعل الوسيلة الالكترونية تقوم بتنفيذ العمليات في الطريقة الموصوفة أعلاه. ا
Qo _ _ يتمتل جانب آخر من الطلب في وسط تخزين يمكن قراءته بواسطة حاسوب غير انتقالي non— transitory computer يعمل على تخزين برنامج واحد على الأقل مصمم للتنفيذ بواسطة معالج واحد على الأقل من وسيلة إلكترونية. يتضمن البرنامج الواحد على الأقل تعليمات تجعل الوسيلة الالكترونية تقوم بتنفيذ العمليات الواردة في الطريقة الموصوفة أعلاه. © يمكن أن تتضح نماذج ومميزات أخرى لهؤلاء المهرة في الفن في ضوء الأوصاف والرسومات
الواردة في هذه المواصفة. شرح مختصر للرسومات يتم بوضوح إدراك التطبيق المذكور مسبقاً للاختراع وكذلك تطبيقات أخرى كنتيجة للوصف التفصيلي التالي لجوانب متعددة للاختراع عند وضعها في الاعتبار بالنسبة للرسومات. تشير
٠ الأرقام المرجعية المتشابهة إلى أجزاء متقابلة من خلال مساقط متعددة للرسومات. يوضح الشكل ١ بيانات خطاب مثالي تشتمل على مجموعة من الإطارات الصوتية وفقاً لبعض نماذج الطلب. يوضح الشكل ١ شبكة فك شفرة مثالية تشتمل على كلمات أساسية و كلمات حشو من لغات متعددة وفقاً لبعض نماذج الطلب.
Bag طريقة للتعرف على كلمة أساسية في خطاب Jig يوضح الشكل © مخطط سير عمليات V0 لبعض نماذج الطلب. يوضح الشكل 4 شبكة فك شفرة مثالية أخرى وفقاً لبعض نماذج الطلب. طريقة للكشف عن كلمة أساسية وفقاً لبعض نماذج Jie يوضح الشكل © مخطط سير عمليات الطلب.
Yo يوضح الشكل + شبكة فك شفرةٍ مثالية تشتمل على كلمات أساسية وكلمات حشو من لغات متعددة وفقاً لبعض نماذج الطلب.
ا
Claims (1)
- py عناصر الحماية تشتمل على: « keyword in a speech طريقة للتعرف على كلمة أساسية في خطاب -١ تشتمل على receiving a sequence of audio frames استقبال متوالية من إطارات صوت ؛ تحديد الكلمة الأساسية subsequent frame لاحق Daly current frame إطار حالي محددة مسبقاً تتضمن decoding network المرشحة للإطار الحالي باستخدام شبكة فك شفرةٍ لغات متعددة ؛ ربط متوالية إطار الصوت ow filler words sia كلمات أساسية وكلمات 0 التي يتم confidence score بدرجة الثقة associating the audio frame sequence تحديدها جزئياً وفقاً للكلمة الأساسية المرشحة؛ تحديد خيار الكلمة للإطار اللاحق باستخدام الكلمة المحددة مسبقاً؛ وعندما يتم ربط decoding network الأساسية المرشحة وشبكة فك التشفير الكلمة الأساسية المرشحة وخيار الكلمة باثنين من الأنواع المتميزة للغات؛ تحديث درجة الثقة على معامل الجزاء الذي يتم تحديده ly الخاصة بمتوالية إطار الصوت confidence score ٠ مسبقاً وفقاً لاثنين من الأنواع المتميزة للغات؛ خيار الكلمة والنموذج الصوتي للإطار اللاحق؛ ويشتمل تحديد متوالية إطار الصوت على كل من الكلمة الأساسية المرشحة وخيار الكلمة بواسطة التي تم تحديثها وفقاً لمعيار تحديد كلمة أساسية. confidence score تقييم درجة الثقة حيث يتم تحديد مجموعة من الكلمات الأساسية المرشحة؛ ٠ الطريقة وفقاً لعنصر الحماية رقم -Y Yo audio لمتوالية الإطار الصوتي Jal التي تشتمل على الكلمة الأساسية المرشحة ؛ للإطار ويتم ربط كل من الكلمة الأساسية المرشحة مع خيار الكلمة واحد على « frame sequence وحيث يتم تحديد مجموعة فرعية من الكلمة الأساسية المرشحة ليتم إدراجها في متوالية (JY) مع خيار الكلمة الواحد على الأقل الخاص بها ذي audio frame sequence الإطار الصوتي الصلة بناءً على معيار تحديد كلمة أساسية. YL حيث يتمثل الإطار اللاحق في الإطار الأخير لمتوالية oF الطريقة وفقاً لعنصر الحماية رقم -* ووفقاً لمعيار تحديد كلمة أساسية ؛ يتم اختيار «audio frame sequence الإطار الصوتي المفضلة من مجموعة من confidence score الكلمة الأساسية المرشحة المرتبطة بدرجة الثقة الكلمات الأساسية المرشحة مثل كلمة أساسية مرتبطة بالإطار الحالي لمتوالية الإطار الصوتي . audio frame sequence Yo gotyديو" ؟- الطريقة وفقاً لعنصر الحماية رقم oF حيث أنه وفقاً لمعيار تحديد كلمة أساسية ؛ يتم ربط كل من مجموعة من الكلمات الأساسية المرشحة مع درجة الثقة score 000108006 ذات الصلة بها لمتوالية الإطار الصوتي audio frame sequence ؛ وتكون درجة الثقة confidence score © ذات الصلة أكبر من القيمة الحدية threshold value للكلمة الأساسية. 5- الطريقة وفقاً لعنصر الحماية رقم 7؛ حيث أنه بعد تحديد المجموعة الفرعية للكلمات الأساسية المرشحة ليتم إدراجها في متوالية الإطار الصوتي audio frame sequence مع خيار الكلمة الواحد على الأقل الخاص بها ذي الصلة؛ يتم تحديث درجة الثقة Lad confidence score ٠ ويتم تحديدها لتتجاوز قيمة حدية للكلمة الأساسية وفقاً لمعيار تحديد كلمة أساسية. 7- الطريقة وفقاً لعنصر الحماية رقم ٠ حيث أنه وفقاً لمعيار تحديد كلمة أساسية ؛ تكون درجة الثقة confidence score لمتوالية الإطار الصوتي frame sequence وكيا أكبر من القيمة الحدية threshold value للكلمة الأساسية. Vo -١ الطريقة وفقاً لعنصر الحماية رقم Cua) يتم ربط شبكة فك التشفير decoding network المحددة مسبقاً باثنين أو أكثر من اللغات الإنجليزية؛ الصينية؛ اليابانية؛ الروسية؛ الفرنسية؛ الألمانية وما شابه ذلك وتشتمل على مجموعة فرعية من الكلمات الأساسية ومجموعة فرعية من كلمات الحشو filler words لكل من اثنين أو أكثر من اللغات. ٠ —A الطريقة وفقاً لعنصر الحماية رقم ٠ حيث تشتمل كل كلمة أساسية من شبكة فك التشفير decoding network المحددة مسبقاً على واحدة أو أكثر من سماعات ثلاثية. 4- الطريقة وفقاً لعنصر الحماية رقم ١ حيث أنه وفقاً لهيكل فك التشفير | decoding structure Yo لشبكة فك التشفير decoding network المحددة مسبقاًء يتم ربط كل كلمة أساسية في شبكة فك التشفير decoding network المحددة مسبقاً بكلمة واحدة على الأقل تستخدم مع ا—yvo- الكلمة الأساسية ذات الصلة في خطاب Ads وإدراجها في في شبكة فك التشفير decoding. 06/01 decoding الطريقة وفقاً لعنصر الحماية رقم 9؛ حيث أنه وفقاً لهيكل فك التشفير -٠ المحددة مسبقاًء تنتج كل كلمة أساسية في decoding network لشبكة فك التشفير structure © مجموعة فرعية من الكلمات الأساسية والكلمة الواحدة على الأقل ذات الصلة التي تستخدم مع الكلمة الأساسية ذات الصلة من اثنين من اللغات المختلفة. -١ الطريقة وفقاً لعنصر الحماية رقم )0 تشتمل أيضاً على: ٠ إنشاء جدول معامل الجزاء ليشتمل على مجموعة من عوامل الجزاء يتم ربط كل منها باثنين من اللغات المختلفة؛ حيث يتم تحديد معامل الجزاء المستخدم لتحديث درجة الثقة confidence 65 لمتوالية الإطار الصوتي audio frame sequence بواسطة استخراج جدول معامل الجزاء بناءً على نوعين متميزين من اللغات المختلفة للكلمة الأساسية المرشحة وخيار الكلمة. -VY Vo الطريقة وفقاً لعنصر الحماية رقم )0 تشتمل أيضاً على: إنشاء شبكة فك تشفير محددة cle حيث يتم تجميع الكلمات الأساسية وكلمات الحشو filler 5 من لغات متعددة وفقاً لأنواع اللغات الخاصة lg يشتمل أيضاً على: خلق عقدة بداية start node وعقدة نهاية end node ؛ خلق مجموعة من عقد اللغة language nodes يمثل كل منها نوع من اللغة؛ ربط كل عقدة لغة بعقدة بداية start node ¢ Yo ربط كل عقدة لغة بمجموعة فرعية من الكلمات الأساسية ذات الصلة ومجموعة فرعية من كلمات الحشو filler words ذات الصلة La من اللغة المقابلة؛ لكل كلمة أساسية؛ تحويل الكلمة الأساسية converting the keyword ذات الصلة لمتوالية من السماعات الثلاثية triphone Sequences ¢ إنشاء عقدة سماعة ثلاثية ذات Alia لكل سماعة ثلاثية من متوالية السماعات الثلاثية oe triphone sequences الكلمة الأساسية ذات الصلة؛ ربط عقد السماعة الثلاثية Yo .من متوالية السماعات الثلاثية lee triphone sequences لتشكيل متوالية عقد de law ثلاثية Wy في ذلك عقدة سماعة ثلاثية رئيسية وعقدة سماعة ثلاثية (Aphid ربط عقدة السماعة الثلاثية ا1+ الرئيسية ذات الصلة بعقدة اللغة المقابلة وعقدة السماعة الثلاثية الذيلية ذات الصلة بعقدة نهاية end node ؛ لكل كلمة حشوء يتم إنشاء عقدة حشو ذات صلة واقران عقدة الحشو ذات Adal بين عقدة اللغة المقابلة وعقدة نهاية end node ؛ وربط عقدة بداية start node وعقدة نهاية end node . lo} YF - الطريقة وفقاً لعنصر الحماية رقم OY حيث يتم تحديد الكلمة الأساسية المرشحة وخيار الكلمة ليتم ربطها باثنين من الأنواع (lal Sad) حيث يتم ربط واحدة من مجموعة من عقد اللغة language nodes بين Ad الأساسية المرشحة وخيار الكلمة على شبكة فك التشفير decoding network المحددة مسبقاً. ye -٠6 الطريقة وفقاً لعنصر الحماية رقم OY حيث أنه وفقاً ل هيكل فك التشفير decoding dual structure فك التشفير decoding network المحددة مسبقاًء يتم ربط كل كلمة أساسية في شبكة فك التشفير decoding network على شبكة فك التشفير decoding network المحددة مسبقاً بكلمة واحدة على الأقل تستخدم مع الكلمة الأساسية ذات الصلة في خطاب فعلي. Vo - وسيلة إلكترونية ؛ تحتوي على: واحد أو أكثر من المعالجات؛ وذاكرة بها تعليمات مخزنة عليها؛ والتي عند تنفيذها بواسطة واحد أو أكثر من المعالجات تجعل المعالجات تقوم بإجراء عمليات تشتمل على: استقبال متوالية من إطارات صوت تشتمل على إطار حالي current frame واطار لاحق subsequent frameY. يتبع الإطار الحالي؛ تحديد كلمة أساسية مرشحة للإطار الحالي باستخدام شبكة فك شفرة decoding network محددة مسبقاً تشمل على الكلمات الأساسية وكلمات حشو filler words _من لغات متعددة ؛ ربط متوالية إطار الصوت associating the audio frame sequence بدرجة ثقة يتم تحديدها Lis وفقاً للكلمة الأساسية المرشحة؛ تحديد خيار كلمة للإطار اللاحق باستخدام الكلمة الأساسية المرشحة وشبكة فك شفرة decoding network YO محددة مسبقاً؛ عند ربط الكلمة الأساسية المرشحة وخيار الكلمة بنوعين متميزين من اللغات؛ يتم تحديث درجة الثقة confidence score الخاصة بمتوالية إطار الصوت بناءً على معامل جزاء االا penalty factor محدد مسبقاً وفقاً لاثنتين من الأنواع المتميزة للغات؛ خيار الكلمة ونموذج سمعي للإطار اللاحق ؛ وتحديد أن متوالية الإطار الصوتي audio frame sequence تشتمل على كل من الكلمة الأساسية المرشحة وخيار الكلمة من خلال تقييم درجة الثقة confidence © التي تم تحديثها وفقاً لمعيار تحديد كلمة أساسية. lo}— الوسيلة الإلكترونية وفقاً لعنصر الحماية رقم V0 حيث أنه وفقاً لمعيار تحديد كلمة أساسية ؛ تكون درجة الثقة confidence score لمتوالية الإطار الصوتي audio frame sequence أكبر من القيمة الحدية threshold value للكلمة الأساسية.-١# الوسيلة الإلكترونية وفقاً لعنصر الحماية رقم V0 حيث تشتمل العمليات التي يتم إجراؤها بواسطة المعالجات أيضاً على: إنشاء جدول معامل الجزاء ليشتمل على مجموعة من عوامل الجزاء يتم ربط كل منها باثنين من اللغات المختلفة؛ حيث يتم تحديد معامل الجزاء المستخدم لتحديث درجة الثقة confidence 65 لمتوالية الإطار الصوتي audio frame sequence بواسطة استخراج جدول معاملVo الجزاء بناءً على نوعين متميزين من اللغات المختلفة للكلمة الأساسية المرشحة وخيار الكلمة. ١٠-_الوسيلة الإلكترونية وفقاً لعنصر الحماية رقم 00 حيث يتم ربط شبكة فك التشفير sand) decoding network مسبقاً باثنين أو أكثر من اللغات الإنجليزية؛ الصينية» اليابانية؛ الروسية؛ الفرنسية؛ الألمانية وما شابه ذلك؛ وتشتمل على مجموعة فرعية من الكلمات الأساسية٠٠ ومجموعة فرعية من كلمات الحشو filler words لكل من اثنين أو أكثر من اللغات. 4- وسط تخزين يمكن قراءته بواسطة حاسوب غير انتقالي non-transitory computer— readable medium به تعليمات مخزنة عليه lly عند تنفيذها بواسطة واحد أو أكثر من المعالجات تجعل المعالجات تقوم بإجراء عمليات تشتمل على:© استقبال متوالية من إطارات صوت receiving a sequence of audio frames تشتمل على إطار حالي lly current frame لاحق subsequent frame يتبع الإطار الحالي؛ام تحديد كلمة أساسية مرشحة للإطار الحالي باستخدام شبكة فك شفرة decoding network محددة مسبقاً تشمل على الكلمات الأساسية وكلمات filler words sia من لغات متعددة ؛ ربط متوالية إطار الصوت associating the audio frame sequence بدرجة 46 يتم تحديدها Wa وفقاً للكلمة الأساسية المرشحة؛ تحديد خيار كلمة للإطار اللاحق باستخدام الكلمة الأساسية © المرشحة وشبكة فك شفرة decoding network محددة مسبقاً؛ عند ربط الكلمة الأساسية المرشحة وخيار الكلمة بنوعين متميزين من اللغات؛ يتم تحديث درجة الثقة confidence score الخاصة بمتوالية إطار الصوت بناءً على معامل جزاء penalty factor محدد مسبقاً وفقاً لاثنتين من الأنواع المتميزة للغات؛ خيار الكلمة ونموذج سمعي للإطار اللاحق ؛ وتحديد أن متوالية الإطار الصوتي audio frame sequence تشتمل على كل من الكلمة الأساسية المرشحة٠ وخيار الكلمة من خلال تقييم درجة الثقة التي تم تحديثها وفقاً لمعيار تحديد كلمة أساسية.non-transitory computer— وسط تخزين يمكن قراءته بواسطة حاسوب غير انتقالي -٠ shal حيث تشتمل العمليات التي يتم ٠9 وفقاً لعنصر الحماية رقم readable medium أيضاً على: processors بواسطة المعالجات١ إنشاء جدول معامل الجزاء ليشتمل على مجموعة من عوامل الجزاء يتم ربط كل منها باثنين من اللغات المختلفة؛ حيث يتم تحديد معامل الجزاء المستخدم لتحديث درجة الثقة confidence 65 لمتوالية الإطار الصوتي audio frame sequence بواسطة استخراج جدول معامل الجزاء بناءً على نوعين متميزين من اللغات المختلفة للكلمة الأساسية المرشحة وخيار الكلمة.ل-؟8٠- ST Ya تحديث درجة PEN اطار صوتي لاحق FyiF't Fn دع عيع بجع جع مع اع جع بجع دع rm Prt حاني شكل ١ الال—¢ «= ) EW EW Th EW EWYY KW + KWE Y EWy م KW ران EWE +“ Ew YE Kw Yé& KWk EW 4 & KEW T& KWEL & EW 4% KW 5 EWE 1 EW 3% EW vy | KW يخ KEW ya EW wa EWE & FIT 3 Fir Yy 1ط FAY Fi ¢¥ FFX مم 3 ¢ FW gw 1187 7 FF + ¢ o Ja Yi ١ اللغة * اللغة ؟ اللغة * بثرءا لRA شكل ؟ ول ma Tr الس om شكل ؛ لAd —_ _ EE 1 شمثل مِ ا_ _ ع 0 1 (ren) Kn re. ١ شكلاج ¢ _— الى ض CR IR ا vo. Vi, vee | اا شكل أمج ا - شكل ١ ب لمدة سريان هذه البراءة عشرون سنة من تاريخ إيداع الطلب وذلك بشرط تسديد المقابل المالي السنوي للبراءة وعدم بطلانها أو سقوطها لمخالفتها لأي من أحكام نظام براءات الاختراع والتصميمات التخطيطية للدارات المتكاملة والأصناف النباتية والنماذج الصناعية أو لائحته التنفيذية صادرة عن مدينة الملك عبدالعزيز للعلوم والتقنية ؛ مكتب البراءات السعودي ص ب TAT الرياض 57؟؟١١ ¢ المملكة العربية السعودية بريد الكتروني: patents @kacst.edu.sa
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310355905.6A CN104143328B (zh) | 2013-08-15 | 2013-08-15 | 一种关键词检测方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
SA114350692B1 true SA114350692B1 (ar) | 2015-12-13 |
Family
ID=51852486
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
SA114350692A SA114350692B1 (ar) | 2013-08-15 | 2014-08-13 | الكشف عن الكلمة الأساسية للتعرف على خطاب |
Country Status (6)
Country | Link |
---|---|
US (1) | US9230541B2 (ar) |
CN (1) | CN104143328B (ar) |
HK (1) | HK1199673A1 (ar) |
SA (1) | SA114350692B1 (ar) |
TW (1) | TWI543148B (ar) |
WO (1) | WO2015021844A1 (ar) |
Families Citing this family (35)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6066354B2 (ja) * | 2011-07-01 | 2017-01-25 | 日本電気株式会社 | 信頼度計算の方法及び装置 |
CN103971678B (zh) * | 2013-01-29 | 2015-08-12 | 腾讯科技(深圳)有限公司 | 关键词检测方法和装置 |
GB2523353B (en) * | 2014-02-21 | 2017-03-01 | Jaguar Land Rover Ltd | System for use in a vehicle |
WO2016103358A1 (ja) * | 2014-12-24 | 2016-06-30 | 三菱電機株式会社 | 音声認識装置及び音声認識方法 |
US10192546B1 (en) * | 2015-03-30 | 2019-01-29 | Amazon Technologies, Inc. | Pre-wakeword speech processing |
KR102434604B1 (ko) * | 2016-01-05 | 2022-08-23 | 한국전자통신연구원 | 개인화된 음성 인식을 수행하기 위한 음성 인식 단말, 음성 인식 서버 및 음성 인식 방법 |
US10354653B1 (en) | 2016-01-19 | 2019-07-16 | United Services Automobile Association (Usaa) | Cooperative delegation for digital assistants |
KR101934280B1 (ko) * | 2016-10-05 | 2019-01-03 | 현대자동차주식회사 | 발화내용 분석 장치 및 방법 |
CN106611597B (zh) * | 2016-12-02 | 2019-11-08 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音唤醒方法和装置 |
CN106653022B (zh) * | 2016-12-29 | 2020-06-23 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音唤醒方法和装置 |
JP6599914B2 (ja) * | 2017-03-09 | 2019-10-30 | 株式会社東芝 | 音声認識装置、音声認識方法およびプログラム |
CN110444199B (zh) * | 2017-05-27 | 2022-01-07 | 腾讯科技(深圳)有限公司 | 一种语音关键词识别方法、装置、终端及服务器 |
US20200273447A1 (en) * | 2017-10-24 | 2020-08-27 | Beijing Didi Infinity Technology And Development Co., Ltd. | System and method for key phrase spotting |
CN110770820A (zh) * | 2018-08-30 | 2020-02-07 | 深圳市大疆创新科技有限公司 | 语音识别方法、装置、拍摄系统和计算机可读存储介质 |
CN109192224B (zh) * | 2018-09-14 | 2021-08-17 | 科大讯飞股份有限公司 | 一种语音评测方法、装置、设备及可读存储介质 |
US11308939B1 (en) * | 2018-09-25 | 2022-04-19 | Amazon Technologies, Inc. | Wakeword detection using multi-word model |
US11475875B2 (en) * | 2018-10-26 | 2022-10-18 | Sriram Chakravarthy | Method and system for implementing language neutral virtual assistant |
CN110164416B (zh) * | 2018-12-07 | 2023-05-09 | 腾讯科技(深圳)有限公司 | 一种语音识别方法及其装置、设备和存储介质 |
CN111369978B (zh) * | 2018-12-26 | 2024-05-17 | 北京搜狗科技发展有限公司 | 一种数据处理方法、装置和用于数据处理的装置 |
CN109545197B (zh) * | 2019-01-02 | 2021-02-09 | 珠海格力电器股份有限公司 | 语音指令的识别方法、装置和智能终端 |
CN111583910B (zh) * | 2019-01-30 | 2023-09-26 | 北京猎户星空科技有限公司 | 模型更新方法、装置、电子设备及存储介质 |
CN109872726A (zh) * | 2019-03-26 | 2019-06-11 | 北京儒博科技有限公司 | 发音评估方法、装置、电子设备和介质 |
CN110046276B (zh) * | 2019-04-19 | 2021-04-20 | 北京搜狗科技发展有限公司 | 一种语音中关键词的检索方法和装置 |
CN112133291B (zh) * | 2019-06-05 | 2024-02-13 | 科大讯飞股份有限公司 | 一种语种识别模型训练、语种识别的方法和相关装置 |
CN110246490B (zh) * | 2019-06-26 | 2022-04-19 | 合肥讯飞数码科技有限公司 | 语音关键词检测方法及相关装置 |
US11521599B1 (en) * | 2019-09-20 | 2022-12-06 | Amazon Technologies, Inc. | Wakeword detection using a neural network |
US11238884B2 (en) * | 2019-10-04 | 2022-02-01 | Red Box Recorders Limited | Systems and methods for recording quality driven communication management |
US10878840B1 (en) * | 2019-10-15 | 2020-12-29 | Audio Analytic Ltd | Method of recognising a sound event |
US11437019B1 (en) | 2019-10-24 | 2022-09-06 | Reality Analytics, Inc. | System and method for source authentication in voice-controlled automation |
US11676496B2 (en) | 2020-03-19 | 2023-06-13 | Honeywell International Inc. | Methods and systems for querying for parameter retrieval |
CN111540363B (zh) * | 2020-04-20 | 2023-10-24 | 合肥讯飞数码科技有限公司 | 关键词模型及解码网络构建方法、检测方法及相关设备 |
CN111710337B (zh) * | 2020-06-16 | 2023-07-07 | 睿云联(厦门)网络通讯技术有限公司 | 语音数据的处理方法、装置、计算机可读介质及电子设备 |
CN113506584B (zh) * | 2021-07-06 | 2024-05-14 | 腾讯音乐娱乐科技(深圳)有限公司 | 数据处理方法以及设备 |
US11909703B2 (en) | 2021-08-26 | 2024-02-20 | International Business Machines Corporation | Live chat stream comment management |
CN113610193A (zh) * | 2021-09-08 | 2021-11-05 | 北京科技大学 | 一种再生资源识别模型建立方法及再生资源识别方法 |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5388183A (en) * | 1991-09-30 | 1995-02-07 | Kurzwell Applied Intelligence, Inc. | Speech recognition providing multiple outputs |
WO1995002879A1 (en) * | 1993-07-13 | 1995-01-26 | Theodore Austin Bordeaux | Multi-language speech recognition system |
US6067520A (en) * | 1995-12-29 | 2000-05-23 | Lee And Li | System and method of recognizing continuous mandarin speech utilizing chinese hidden markou models |
US6085160A (en) * | 1998-07-10 | 2000-07-04 | Lernout & Hauspie Speech Products N.V. | Language independent speech recognition |
US6138095A (en) * | 1998-09-03 | 2000-10-24 | Lucent Technologies Inc. | Speech recognition |
US9076448B2 (en) * | 1999-11-12 | 2015-07-07 | Nuance Communications, Inc. | Distributed real time speech recognition system |
US20020087311A1 (en) * | 2000-12-29 | 2002-07-04 | Leung Lee Victor Wai | Computer-implemented dynamic language model generation method and system |
US7043431B2 (en) * | 2001-08-31 | 2006-05-09 | Nokia Corporation | Multilingual speech recognition system using text derived recognition models |
EP1654727A4 (en) * | 2003-07-23 | 2007-12-26 | Nexidia Inc | INTERROGATIONS FOR THE DETECTION OF WORDS |
KR100612839B1 (ko) * | 2004-02-18 | 2006-08-18 | 삼성전자주식회사 | 도메인 기반 대화 음성인식방법 및 장치 |
US7415411B2 (en) * | 2004-03-04 | 2008-08-19 | Telefonaktiebolaget L M Ericsson (Publ) | Method and apparatus for generating acoustic models for speaker independent speech recognition of foreign words uttered by non-native speakers |
DE602004023134D1 (de) * | 2004-07-22 | 2009-10-22 | France Telecom | Spracherkennungsverfahren und -system, das an die eigenschaften von nichtmuttersprachlern angepasst ist |
US7725318B2 (en) * | 2004-07-30 | 2010-05-25 | Nice Systems Inc. | System and method for improving the accuracy of audio searching |
CN101154379B (zh) * | 2006-09-27 | 2011-11-23 | 夏普株式会社 | 定位语音中的关键词的方法和设备以及语音识别系统 |
CN101447185B (zh) * | 2008-12-08 | 2012-08-08 | 深圳市北科瑞声科技有限公司 | 一种基于内容的音频快速分类方法 |
US8788256B2 (en) * | 2009-02-17 | 2014-07-22 | Sony Computer Entertainment Inc. | Multiple language voice recognition |
CN101847149A (zh) * | 2009-03-23 | 2010-09-29 | 赛微科技股份有限公司 | 服务器及借助一服务器实现的语音搜寻方法 |
CN102194454B (zh) * | 2010-03-05 | 2012-11-28 | 富士通株式会社 | 用于检测连续语音中的关键词的设备和方法 |
-
2013
- 2013-08-15 CN CN201310355905.6A patent/CN104143328B/zh active Active
-
2014
- 2014-07-16 WO PCT/CN2014/082332 patent/WO2015021844A1/en active Application Filing
- 2014-08-08 TW TW103127330A patent/TWI543148B/zh active
- 2014-08-13 SA SA114350692A patent/SA114350692B1/ar unknown
- 2014-12-11 US US14/567,969 patent/US9230541B2/en active Active
-
2015
- 2015-01-06 HK HK15100072.4A patent/HK1199673A1/xx unknown
Also Published As
Publication number | Publication date |
---|---|
TWI543148B (zh) | 2016-07-21 |
CN104143328B (zh) | 2015-11-25 |
HK1199673A1 (en) | 2015-07-10 |
CN104143328A (zh) | 2014-11-12 |
US20150095032A1 (en) | 2015-04-02 |
TW201506903A (zh) | 2015-02-16 |
WO2015021844A1 (en) | 2015-02-19 |
US9230541B2 (en) | 2016-01-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
SA114350692B1 (ar) | الكشف عن الكلمة الأساسية للتعرف على خطاب | |
TWI664540B (zh) | Search word error correction method and device, and weighted edit distance calculation method and device | |
CN103493041B (zh) | 使用浅层句法分析器自动评估句子的自动句子评估装置及其错误检测设备和方法 | |
Tachbelie et al. | Using different acoustic, lexical and language modeling units for ASR of an under-resourced language–Amharic | |
JP2006268375A (ja) | 翻訳メモリシステム | |
Reddy et al. | Integration of statistical models for dictation of document translations in a machine-aided human translation task | |
JP6778655B2 (ja) | 単語連接識別モデル学習装置、単語連接検出装置、方法、及びプログラム | |
He et al. | Multi-style adaptive training for robust cross-lingual spoken language understanding | |
Gelas et al. | Quality assessment of crowdsourcing transcriptions for African languages | |
JP5323652B2 (ja) | 類似語決定方法およびシステム | |
Lu et al. | Disfluency detection for spoken learner english | |
JP2006338261A (ja) | 翻訳装置、翻訳方法及び翻訳プログラム | |
Lee et al. | Developing learner corpus annotation for Korean particle errors | |
Vasserman et al. | Sequence-based class tagging for robust transcription in ASR. | |
KR20130126570A (ko) | 핵심어에서의 음소 오류 결과를 고려한 음향 모델 변별 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체 | |
US11907656B2 (en) | Machine based expansion of contractions in text in digital media | |
Besacier et al. | Word confidence estimation for speech translation | |
CN107590132B (zh) | 一种自动更正部分文字的方法-由英文词性判断 | |
Ostrogonac et al. | Language model reduction for practical implementation in LVCSR systems | |
Uchimoto et al. | Morphological analysis of a large spontaneous speech corpus in Japanese | |
JP2009157888A (ja) | 音訳モデル作成装置、音訳装置、及びそれらのためのコンピュータプログラム | |
CN114519358A (zh) | 翻译质量评估方法、装置、电子设备和存储介质 | |
JP4733436B2 (ja) | 単語・意味表現組データベースの作成方法、音声理解方法、単語・意味表現組データベース作成装置、音声理解装置、プログラムおよび記憶媒体 | |
Núñez et al. | Phonetic normalization for machine translation of user generated content | |
Réveil et al. | Improving proper name recognition by means of automatically learned pronunciation variants |