RU2019145083A - Способ и система перевода речи в текст - Google Patents
Способ и система перевода речи в текст Download PDFInfo
- Publication number
- RU2019145083A RU2019145083A RU2019145083A RU2019145083A RU2019145083A RU 2019145083 A RU2019145083 A RU 2019145083A RU 2019145083 A RU2019145083 A RU 2019145083A RU 2019145083 A RU2019145083 A RU 2019145083A RU 2019145083 A RU2019145083 A RU 2019145083A
- Authority
- RU
- Russia
- Prior art keywords
- text
- client device
- tree
- leaf
- confidence
- Prior art date
Links
- 230000021615 conjugation Effects 0.000 claims 4
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/083—Recognition networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
- G10L15/197—Probabilistic grammars, e.g. word n-grams
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Claims (44)
1. Способ перевода речи в текст, причем речь принята клиентским устройством, причем способ является исполняемым на клиентском устройстве и содержит:
прием пользовательского высказывания, соответствующего речи;
определение на основе локального графа, сохраненного клиентским устройством, первого прогнозного текста, соответствующего пользовательскому высказыванию, и первого показателя достоверности, соответствующего первому прогнозному тексту, при этом локальный граф содержит дерево, при этом каждый лист этого дерева соответствует слову, и при этом локальный граф генерируется на основе текста, сохраненного клиентским устройством;
передачу на сервер пользовательского высказывания;
прием от сервера второго прогнозного текста, соответствующего пользовательскому высказыванию, и второго показателя достоверности, соответствующего второму прогнозному тексту;
сравнение первого показателя достоверности со вторым показателем достоверности; и
после определения того, что первый показатель достоверности больше, чем второй показатель достоверности, вывод первого прогнозного текста.
2. Способ по п. 1, в котором первый узел в каждой ветви дерева содержит первую букву слова.
3. Способ по п. 2, в котором каждый последующий узел после первого узла содержит следующую букву слова.
4. Способ по п. 1, в котором первый лист в дереве содержит первое спряжение слова, при этом второй лист в дереве содержит второе спряжение упомянутого слова, причем первый лист и второй лист имеют общий родительский узел в дереве.
5. Способ по п. 1, в котором каждый лист дерева ассоциирован с показателем достоверности, при этом показатель достоверности указывает частоту, с которой слово, соответствующее соответствующему листу, встречается в тексте, сохраненном клиентским устройством.
6. Способ по п. 5, в котором определение первого прогнозного текста содержит определение листа дерева, который соответствует пользовательскому высказыванию, при этом первый показатель достоверности содержит показатель достоверности, соответствующий этому листу.
7. Способ по п. 1, в котором локальный граф генерируют посредством:
применения текста, сохраненного клиентским устройством, к нормализатору, тем самым генерируя нормализованный текст;
применения текста, сохраненного клиентским устройством, и нормализованного текста к инфлектору, тем самым генерируя инфлектированный текст; и
генерирования локального графа на основе текста, сохраненного клиентским устройством, нормализованного текста и инфлектированного текста.
8. Способ по п. 7, в котором нормализатор преобразует цифры в тексте, сохраненном клиентским устройством, в текст.
9. Способ по п. 7, в котором инфлектор принимает слово и генерирует множество форм этого слова.
10. Способ по п. 1, в котором текст, сохраненный клиентским устройством, содержит список контактов.
11. Способ по п. 1, в котором текст, сохраненный клиентским устройством, соответствует музыке, сохраненной клиентским устройством.
12. Способ по п. 1, в котором локальный граф персонализирован для пользователя клиентского устройства.
13. Способ по п. 1, в котором локальный граф представляет собой дерево n-грамм, при этом каждый узел в локальном графе соответствует отдельной n-грамме.
14. Способ перевода речи в текст, причем речь принята клиентским устройством, причем способ является исполняемым на сервере и содержит:
прием от клиентского устройства пользовательского высказывания, соответствующего речи;
определение на основе графа, первого прогнозного текста, соответствующего пользовательскому высказыванию, и первого показателя достоверности, соответствующего первому прогнозному тексту, при этом граф содержит дерево, при этом каждый лист этого дерева соответствует слову;
прием от клиентского устройства второго прогнозного текста, соответствующего пользовательскому высказыванию, и второго показателя достоверности, соответствующего второму прогнозному тексту, при этом второй прогнозный текст был определен клиентским устройством, при этом второй прогнозный текст был определен на основе локального графа, хранимого клиентским устройством, при этом локальный граф был сгенерирован на основе текста, хранимого клиентским устройством;
сравнение первого показателя достоверности со вторым показателем достоверности; и
после определения того, что первый показатель достоверности больше, чем второй показатель достоверности, передачу первого прогнозного текста на клиентское устройство.
15. Способ по п. 14, в котором первый лист в дереве содержит первое спряжение слова, при этом второй лист в дереве содержит второе спряжение упомянутого слова, причем первый лист и второй лист имеют общий родительский узел в дереве.
16. Способ по п. 14, в котором каждый лист дерева ассоциирован с показателем достоверности, при этом показатель достоверности указывает частоту, с которой слово, соответствующее соответствующему листу, встречается в тексте, хранимом клиентским устройством.
17. Способ перевода речи в текст, причем речь принята клиентским устройством, причем способ является исполняемым на сервере и содержит:
прием от клиентского устройства пользовательского высказывания, соответствующего речи;
определение на основе графа, первого прогнозного текста, соответствующего пользовательскому высказыванию, и первого показателя достоверности, соответствующего первому прогнозному тексту, при этом граф содержит дерево, при этом каждый лист этого дерева соответствует слову; и
передачу клиентскому устройству первого прогнозного текста и первого показателя достоверности для сравнения первого прогнозного текста и первого показателя достоверности со вторым прогнозным текстом и вторым показателем достоверности, при этом второй прогнозный текст и второй показатель достоверности был определен клиентским устройством на основе локального графа, хранимого клиентским устройством, при этом локальный граф был сгенерирован на основе текста, хранимого клиентским устройством.
18. Способ по п. 17, в котором каждый лист дерева ассоциирован с показателем достоверности.
19. Способ по п. 17, в котором граф соответствует графу, используемому для перевода речи в текст для множества клиентских устройств, при этом локальный граф является уникальным для клиентского устройства.
20. Способ по п. 17, в котором локальный граф был сгенерирован на основе текста, хранимого клиентским устройством, нормализованного текста и инфлектированного текста, при этом нормализованный текст был сгенерирован путем применения текста, хранимого клиентским устройством, к нормализатору, при этом инфлектированный текст был сгенерирован путем применения текста, хранимого клиентским устройством, и нормализованного текста к инфлектору.
21. Способ перевода речи в текст, причем речь принята клиентским устройством, причем способ является исполняемым на клиентском устройстве и содержит:
прием пользовательского высказывания, соответствующего речи;
определение на основе локального графа, хранимого клиентским устройством, прогнозного текста, соответствующего пользовательскому высказыванию, и показателя достоверности, соответствующего прогнозному тексту, при этом локальный граф содержит дерево, при этом каждый лист этого дерева соответствует слову, и при этом локальный граф генерируется на основе текста, хранимого клиентским устройством;
сравнение показателя достоверности с пороговым показателем достоверности;
определение на основе порогового показателя достоверности, следует ли передавать пользовательское высказывание на сервер;
после определения того, что показатель достоверности удовлетворяет пороговому показателю достоверности, определение, что пользовательское высказывание не следует передавать на сервер; и
вывод прогнозного текста.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2019145083A RU2778380C2 (ru) | 2019-12-30 | Способ и система перевода речи в текст | |
US17/035,207 US11289095B2 (en) | 2019-12-30 | 2020-09-28 | Method of and system for translating speech to text |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2019145083A RU2778380C2 (ru) | 2019-12-30 | Способ и система перевода речи в текст |
Publications (3)
Publication Number | Publication Date |
---|---|
RU2019145083A true RU2019145083A (ru) | 2021-06-30 |
RU2019145083A3 RU2019145083A3 (ru) | 2021-11-03 |
RU2778380C2 RU2778380C2 (ru) | 2022-08-18 |
Family
ID=
Also Published As
Publication number | Publication date |
---|---|
RU2019145083A3 (ru) | 2021-11-03 |
US11289095B2 (en) | 2022-03-29 |
US20210201913A1 (en) | 2021-07-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11380330B2 (en) | Conversational recovery for voice user interface | |
US10410627B2 (en) | Automatic language model update | |
US10229674B2 (en) | Cross-language speech recognition and translation | |
US11217236B2 (en) | Method and apparatus for extracting information | |
US8768687B1 (en) | Machine translation of indirect speech | |
US8682661B1 (en) | Robust speech recognition | |
US8442830B2 (en) | Cross-lingual initialization of language models | |
US8532994B2 (en) | Speech recognition using a personal vocabulary and language model | |
JP5951161B2 (ja) | 音声認識装置及び音声認識方法 | |
JP2020505643A (ja) | 音声認識方法、電子機器、及びコンピュータ記憶媒体 | |
US20160300573A1 (en) | Mapping input to form fields | |
JP2018026127A (ja) | 翻訳方法、翻訳装置及びコンピュータプログラム | |
US11494434B2 (en) | Systems and methods for managing voice queries using pronunciation information | |
US11093110B1 (en) | Messaging feedback mechanism | |
US10366690B1 (en) | Speech recognition entity resolution | |
TW201612773A (en) | Multi-command single utterance input method | |
US10170122B2 (en) | Speech recognition method, electronic device and speech recognition system | |
US8688447B1 (en) | Method and system for domain-specific noisy channel natural language processing (NLP) | |
JP7305844B2 (ja) | 音声処理 | |
US11361764B1 (en) | Device naming-indicator generation | |
WO2012004955A1 (ja) | テキスト補正方法及び認識方法 | |
JP2019015838A (ja) | 音声認識システム、端末装置、及び辞書管理方法 | |
US20130297314A1 (en) | Rescoring method and apparatus in distributed environment | |
KR102450816B1 (ko) | 실시간 자동 통역 시스템 및 이의 발화 검증 방법 | |
RU2019145083A (ru) | Способ и система перевода речи в текст |