RU2019145083A - Способ и система перевода речи в текст - Google Patents

Способ и система перевода речи в текст Download PDF

Info

Publication number
RU2019145083A
RU2019145083A RU2019145083A RU2019145083A RU2019145083A RU 2019145083 A RU2019145083 A RU 2019145083A RU 2019145083 A RU2019145083 A RU 2019145083A RU 2019145083 A RU2019145083 A RU 2019145083A RU 2019145083 A RU2019145083 A RU 2019145083A
Authority
RU
Russia
Prior art keywords
text
client device
tree
leaf
confidence
Prior art date
Application number
RU2019145083A
Other languages
English (en)
Other versions
RU2019145083A3 (ru
RU2778380C2 (ru
Inventor
Павел Александрович Зеленко
Original Assignee
Общество С Ограниченной Ответственностью «Яндекс»
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Общество С Ограниченной Ответственностью «Яндекс» filed Critical Общество С Ограниченной Ответственностью «Яндекс»
Priority to RU2019145083A priority Critical patent/RU2778380C2/ru
Priority claimed from RU2019145083A external-priority patent/RU2778380C2/ru
Priority to US17/035,207 priority patent/US11289095B2/en
Publication of RU2019145083A publication Critical patent/RU2019145083A/ru
Publication of RU2019145083A3 publication Critical patent/RU2019145083A3/ru
Application granted granted Critical
Publication of RU2778380C2 publication Critical patent/RU2778380C2/ru

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/083Recognition networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Claims (44)

1. Способ перевода речи в текст, причем речь принята клиентским устройством, причем способ является исполняемым на клиентском устройстве и содержит:
прием пользовательского высказывания, соответствующего речи;
определение на основе локального графа, сохраненного клиентским устройством, первого прогнозного текста, соответствующего пользовательскому высказыванию, и первого показателя достоверности, соответствующего первому прогнозному тексту, при этом локальный граф содержит дерево, при этом каждый лист этого дерева соответствует слову, и при этом локальный граф генерируется на основе текста, сохраненного клиентским устройством;
передачу на сервер пользовательского высказывания;
прием от сервера второго прогнозного текста, соответствующего пользовательскому высказыванию, и второго показателя достоверности, соответствующего второму прогнозному тексту;
сравнение первого показателя достоверности со вторым показателем достоверности; и
после определения того, что первый показатель достоверности больше, чем второй показатель достоверности, вывод первого прогнозного текста.
2. Способ по п. 1, в котором первый узел в каждой ветви дерева содержит первую букву слова.
3. Способ по п. 2, в котором каждый последующий узел после первого узла содержит следующую букву слова.
4. Способ по п. 1, в котором первый лист в дереве содержит первое спряжение слова, при этом второй лист в дереве содержит второе спряжение упомянутого слова, причем первый лист и второй лист имеют общий родительский узел в дереве.
5. Способ по п. 1, в котором каждый лист дерева ассоциирован с показателем достоверности, при этом показатель достоверности указывает частоту, с которой слово, соответствующее соответствующему листу, встречается в тексте, сохраненном клиентским устройством.
6. Способ по п. 5, в котором определение первого прогнозного текста содержит определение листа дерева, который соответствует пользовательскому высказыванию, при этом первый показатель достоверности содержит показатель достоверности, соответствующий этому листу.
7. Способ по п. 1, в котором локальный граф генерируют посредством:
применения текста, сохраненного клиентским устройством, к нормализатору, тем самым генерируя нормализованный текст;
применения текста, сохраненного клиентским устройством, и нормализованного текста к инфлектору, тем самым генерируя инфлектированный текст; и
генерирования локального графа на основе текста, сохраненного клиентским устройством, нормализованного текста и инфлектированного текста.
8. Способ по п. 7, в котором нормализатор преобразует цифры в тексте, сохраненном клиентским устройством, в текст.
9. Способ по п. 7, в котором инфлектор принимает слово и генерирует множество форм этого слова.
10. Способ по п. 1, в котором текст, сохраненный клиентским устройством, содержит список контактов.
11. Способ по п. 1, в котором текст, сохраненный клиентским устройством, соответствует музыке, сохраненной клиентским устройством.
12. Способ по п. 1, в котором локальный граф персонализирован для пользователя клиентского устройства.
13. Способ по п. 1, в котором локальный граф представляет собой дерево n-грамм, при этом каждый узел в локальном графе соответствует отдельной n-грамме.
14. Способ перевода речи в текст, причем речь принята клиентским устройством, причем способ является исполняемым на сервере и содержит:
прием от клиентского устройства пользовательского высказывания, соответствующего речи;
определение на основе графа, первого прогнозного текста, соответствующего пользовательскому высказыванию, и первого показателя достоверности, соответствующего первому прогнозному тексту, при этом граф содержит дерево, при этом каждый лист этого дерева соответствует слову;
прием от клиентского устройства второго прогнозного текста, соответствующего пользовательскому высказыванию, и второго показателя достоверности, соответствующего второму прогнозному тексту, при этом второй прогнозный текст был определен клиентским устройством, при этом второй прогнозный текст был определен на основе локального графа, хранимого клиентским устройством, при этом локальный граф был сгенерирован на основе текста, хранимого клиентским устройством;
сравнение первого показателя достоверности со вторым показателем достоверности; и
после определения того, что первый показатель достоверности больше, чем второй показатель достоверности, передачу первого прогнозного текста на клиентское устройство.
15. Способ по п. 14, в котором первый лист в дереве содержит первое спряжение слова, при этом второй лист в дереве содержит второе спряжение упомянутого слова, причем первый лист и второй лист имеют общий родительский узел в дереве.
16. Способ по п. 14, в котором каждый лист дерева ассоциирован с показателем достоверности, при этом показатель достоверности указывает частоту, с которой слово, соответствующее соответствующему листу, встречается в тексте, хранимом клиентским устройством.
17. Способ перевода речи в текст, причем речь принята клиентским устройством, причем способ является исполняемым на сервере и содержит:
прием от клиентского устройства пользовательского высказывания, соответствующего речи;
определение на основе графа, первого прогнозного текста, соответствующего пользовательскому высказыванию, и первого показателя достоверности, соответствующего первому прогнозному тексту, при этом граф содержит дерево, при этом каждый лист этого дерева соответствует слову; и
передачу клиентскому устройству первого прогнозного текста и первого показателя достоверности для сравнения первого прогнозного текста и первого показателя достоверности со вторым прогнозным текстом и вторым показателем достоверности, при этом второй прогнозный текст и второй показатель достоверности был определен клиентским устройством на основе локального графа, хранимого клиентским устройством, при этом локальный граф был сгенерирован на основе текста, хранимого клиентским устройством.
18. Способ по п. 17, в котором каждый лист дерева ассоциирован с показателем достоверности.
19. Способ по п. 17, в котором граф соответствует графу, используемому для перевода речи в текст для множества клиентских устройств, при этом локальный граф является уникальным для клиентского устройства.
20. Способ по п. 17, в котором локальный граф был сгенерирован на основе текста, хранимого клиентским устройством, нормализованного текста и инфлектированного текста, при этом нормализованный текст был сгенерирован путем применения текста, хранимого клиентским устройством, к нормализатору, при этом инфлектированный текст был сгенерирован путем применения текста, хранимого клиентским устройством, и нормализованного текста к инфлектору.
21. Способ перевода речи в текст, причем речь принята клиентским устройством, причем способ является исполняемым на клиентском устройстве и содержит:
прием пользовательского высказывания, соответствующего речи;
определение на основе локального графа, хранимого клиентским устройством, прогнозного текста, соответствующего пользовательскому высказыванию, и показателя достоверности, соответствующего прогнозному тексту, при этом локальный граф содержит дерево, при этом каждый лист этого дерева соответствует слову, и при этом локальный граф генерируется на основе текста, хранимого клиентским устройством;
сравнение показателя достоверности с пороговым показателем достоверности;
определение на основе порогового показателя достоверности, следует ли передавать пользовательское высказывание на сервер;
после определения того, что показатель достоверности удовлетворяет пороговому показателю достоверности, определение, что пользовательское высказывание не следует передавать на сервер; и
вывод прогнозного текста.
RU2019145083A 2019-12-30 2019-12-30 Способ и система перевода речи в текст RU2778380C2 (ru)

Priority Applications (2)

Application Number Priority Date Filing Date Title
RU2019145083A RU2778380C2 (ru) 2019-12-30 Способ и система перевода речи в текст
US17/035,207 US11289095B2 (en) 2019-12-30 2020-09-28 Method of and system for translating speech to text

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2019145083A RU2778380C2 (ru) 2019-12-30 Способ и система перевода речи в текст

Publications (3)

Publication Number Publication Date
RU2019145083A true RU2019145083A (ru) 2021-06-30
RU2019145083A3 RU2019145083A3 (ru) 2021-11-03
RU2778380C2 RU2778380C2 (ru) 2022-08-18

Family

ID=

Also Published As

Publication number Publication date
RU2019145083A3 (ru) 2021-11-03
US11289095B2 (en) 2022-03-29
US20210201913A1 (en) 2021-07-01

Similar Documents

Publication Publication Date Title
US11380330B2 (en) Conversational recovery for voice user interface
US10410627B2 (en) Automatic language model update
US10229674B2 (en) Cross-language speech recognition and translation
US11217236B2 (en) Method and apparatus for extracting information
US8768687B1 (en) Machine translation of indirect speech
US8682661B1 (en) Robust speech recognition
US8442830B2 (en) Cross-lingual initialization of language models
US8532994B2 (en) Speech recognition using a personal vocabulary and language model
JP5951161B2 (ja) 音声認識装置及び音声認識方法
JP2020505643A (ja) 音声認識方法、電子機器、及びコンピュータ記憶媒体
US20160300573A1 (en) Mapping input to form fields
JP2018026127A (ja) 翻訳方法、翻訳装置及びコンピュータプログラム
US11494434B2 (en) Systems and methods for managing voice queries using pronunciation information
US11093110B1 (en) Messaging feedback mechanism
US10366690B1 (en) Speech recognition entity resolution
TW201612773A (en) Multi-command single utterance input method
US10170122B2 (en) Speech recognition method, electronic device and speech recognition system
US8688447B1 (en) Method and system for domain-specific noisy channel natural language processing (NLP)
JP7305844B2 (ja) 音声処理
US11361764B1 (en) Device naming-indicator generation
WO2012004955A1 (ja) テキスト補正方法及び認識方法
JP2019015838A (ja) 音声認識システム、端末装置、及び辞書管理方法
US20130297314A1 (en) Rescoring method and apparatus in distributed environment
KR102450816B1 (ko) 실시간 자동 통역 시스템 및 이의 발화 검증 방법
RU2019145083A (ru) Способ и система перевода речи в текст