KR102651413B1 - 전자 장치 및 전자 장치의 제어 방법 - Google Patents
전자 장치 및 전자 장치의 제어 방법 Download PDFInfo
- Publication number
- KR102651413B1 KR102651413B1 KR1020180123974A KR20180123974A KR102651413B1 KR 102651413 B1 KR102651413 B1 KR 102651413B1 KR 1020180123974 A KR1020180123974 A KR 1020180123974A KR 20180123974 A KR20180123974 A KR 20180123974A KR 102651413 B1 KR102651413 B1 KR 102651413B1
- Authority
- KR
- South Korea
- Prior art keywords
- electronic device
- sequence
- command
- user
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
- G10L15/193—Formal grammars, e.g. finite state automata, context free grammars or word networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Artificial Intelligence (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
Description
도 2는 본 개시의 일 실시 예에 따른 전자 장치의 구성을 간략하게 나타내는 블록도,
도 3은 본 개시의 일 실시 예에 따른, 그래핌 시퀀스의 식별을 위한 종단간 음성 인식 모델의 구성을 간략하게 나타내는 도면,
도 4a 및 도 4b는 본 개시의 일 실시 예에 따른 명령어 사전 및 명령어 사전에 포함되는 복수의 명령어를 나타내는 도면,
도 5a 및 도 5b는 본 개시의 일 실시 예에 따른, 명령어 시퀀스와 복수의 제어 명령 사이의 매핑을 위한 인공 신경망 모델의 구성을 간략하게 나타내는 도면, 그리고
도 6은 본 개시의 일 실시 예에 따른 전자 장치의 제어 방법을 설명하기 위한 흐름도이다.
메모리: 120 프로세서: 130
Claims (15)
- 전자 장치에 있어서,
마이크;
적어도 하나의 명령을 포함하는 메모리; 및
상기 마이크 및 상기 메모리와 연결되어 상기 전자 장치를 제어하는 프로세서; 를 포함하고,
상기 프로세서는,
상기 마이크를 통하여 사용자 음성이 입력되면, 상기 사용자 음성을 상기 메모리에 저장된 종단간 음성 인식 모델에 입력함으로써, 상기 입력된 사용자 음성에 대응되는 그래핌 시퀀스(grapheme sequence)를 식별하고,
상기 메모리에 저장되는 명령어 사전에 포함되며 상기 전자 장치의 제어에 관련되는 복수의 명령어 각각과 상기 식별된 그래핌 시퀀스 사이의 편집 거리(edit distance)에 기초하여, 상기 식별된 그래핌 시퀀스에 대응되는 명령어 시퀀스를 획득하며,
상기 획득된 명령어 시퀀스를 상기 전자 장치의 동작을 제어하기 위한 복수의 제어 명령 중 하나와 매핑하고,
상기 매핑된 제어 명령에 기초하여 상기 전자 장치의 동작을 제어하며,
기 설정된 시간 동안 상기 전자 장치의 동작이 수행되지 않으면, 사용자에게 알림을 제공하고,
상기 알림이 제공된 후 상기 명령어 사전에 상기 사용자 음성에 대응되는 명령어를 추가하기 위한 사용자 입력이 수신되면, 상기 사용자 음성에 기초하여 상기 명령어 사전을 업데이트하고,
상기 그래핌 시퀀스에 포함되는 그래핌은 음소를 나타내는 문자 또는 문자들의 집합을 포함하며,
상기 종단간 음성 인식 모델은, 음향 특징을 추출하고 음소 시퀀스를 예측하는 AM(Acoustic Model), 음소 시퀀스를 단어 시퀀스에 매핑하는 PM(Pronunciation Model) 및 단어 시퀀스에 확률을 지정하는 LM(Language Model)이 하나의 신경망 모델로 통합된 모델이고, 음소를 단어에 매핑하기 위한 별도의 발음 사전을 포함하지 않고, 상기 사용자 음성을 상기 메모리에 저장된 복수의 그래핌에 직접 매핑함으로써 상기 그래핌 시퀀스를 식별하는 전자 장치.
- 삭제
- 제1 항에 있어서,
상기 메모리는,
인공 신경망(artificial neural network) 모델이 구현된 소프트웨어를 포함하고,
상기 프로세서는,
상기 인공 신경망 모델이 구현된 소프트웨어를 실행하고,
상기 인공 신경망 모델에 상기 획득된 명령어 시퀀스를 입력하여 상기 복수의 제어 명령 중 적어도 하나와 매핑하는 전자 장치.
- 제3 항에 있어서,
상기 종단간 음성 인식 모델 및 상기 인공 신경망 모델 중 적어도 하나의 모델은 RNN(Recurrent Neural Network)를 포함하는 전자 장치.
- 제3 항에 있어서,
상기 프로세서는,
상기 종단간 음성 인식 모델 및 상기 인공 신경망 모델의 전체 경로(pipeline)를 joint training하는 전자 장치.
- 제1 항에 있어서,
상기 편집 거리는,
상기 식별된 그래핌 시퀀스를 상기 복수의 명령어 각각으로 변환하는데 필요한 문자의 제거, 삽입 및 치환의 최소 횟수이며,
상기 프로세서는,
상기 식별된 그래핌 시퀀스로부터, 상기 복수의 명령어 중 상기 식별된 그래핌 시퀀스와 기 설정된 편집 거리 내에 있는 명령어 시퀀스를 획득하는 전자 장치.
- 제1 항에 있어서,
상기 복수의 명령어는 상기 전자 장치의 유형 및 상기 전자 장치가 포함하는 기능에 관련되는 전자 장치.
- 전자 장치의 제어 방법에 있어서,
마이크를 통하여 사용자 음성이 입력되면, 상기 사용자 음성을 상기 전자 장치의 메모리에 저장된 종단간 음성 인식 모델에 입력함으로써, 상기 입력된 사용자 음성에 대응되는 그래핌 시퀀스(grapheme sequence)를 식별하는 단계;
상기 메모리에 저장되는 명령어 사전에 포함되며 상기 전자 장치의 제어에 관련되는 복수의 명령어 각각과 상기 식별된 그래핌 시퀀스 사이의 편집 거리(edit distance)에 기초하여, 상기 식별된 그래핌 시퀀스에 대응되는 명령어 시퀀스를 획득하는 단계;
상기 획득된 명령어 시퀀스를 상기 전자 장치의 동작을 제어하기 위한 복수의 제어 명령 중 하나와 매핑하는 단계;
상기 매핑된 제어 명령에 기초하여 상기 전자 장치의 동작을 제어하는 단계;
기 설정된 시간 동안 상기 전자 장치의 동작이 수행되지 않으면, 사용자에게 알림을 제공하는 단계; 및
상기 알림이 제공된 후 상기 명령어 사전에 상기 사용자 음성에 대응되는 명령어를 추가하기 위한 사용자 입력이 수신되면, 상기 사용자 음성에 기초하여 상기 명령어 사전을 업데이트하는 단계; 를 포함하고,
상기 그래핌 시퀀스에 포함되는 그래핌은 음소를 나타내는 문자 또는 문자들의 집합을 포함하며,
상기 종단간 음성 인식 모델은, 음향 특징을 추출하고 음소 시퀀스를 예측하는 AM(Acoustic Model), 음소 시퀀스를 단어 시퀀스에 매핑하는 PM(Pronunciation Model) 및 단어 시퀀스에 확률을 지정하는 LM(Language Model)이 하나의 신경망 모델로 통합된 모델이고, 음소를 단어에 매핑하기 위한 별도의 발음 사전을 포함하지 않고, 상기 사용자 음성을 상기 메모리에 저장된 복수의 그래핌에 직접 매핑함으로써 상기 그래핌 시퀀스를 식별하는 전자 장치의 제어 방법.
- 삭제
- 제8 항에 있어서,
상기 매핑하는 단계는,
인공 신경망(artificial neural network) 모델에 상기 획득된 명령어 시퀀스를 입력하여 상기 복수의 제어 명령 중 적어도 하나와 매핑하는 전자 장치의 제어 방법.
- 제10 항에 있어서,
상기 종단간 음성 인식 모델 및 상기 인공 신경망 모델 중 적어도 하나의 모델은 RNN(Recurrent Neural Network)를 포함하는 전자 장치의 제어 방법.
- ◈청구항 12은(는) 설정등록료 납부시 포기되었습니다.◈제10 항에 있어서,
상기 종단간 음성 인식 모델 및 상기 인공 신경망 모델의 전체 경로(pipeline)를 joint training하는 전자 장치의 제어 방법.
- ◈청구항 13은(는) 설정등록료 납부시 포기되었습니다.◈제8 항에 있어서,
상기 편집 거리는,
상기 식별된 그래핌 시퀀스를 상기 복수의 명령어 각각으로 변환하는데 필요한 문자의 제거, 삽입 및 치환의 최소 횟수이며,
상기 획득하는 단계는,
상기 식별된 그래핌 시퀀스로부터, 상기 복수의 명령어 중 상기 식별된 그래핌 시퀀스와 기 설정된 편집 거리 내에 있는 명령어 시퀀스를 획득하는 전자 장치의 제어 방법.
- ◈청구항 14은(는) 설정등록료 납부시 포기되었습니다.◈제8 항에 있어서,
상기 복수의 명령어는 상기 전자 장치의 유형 및 상기 전자 장치가 포함하는 기능에 관련되는 전자 장치의 제어 방법.
- 전자 장치의 제어 방법을 실행하는 프로그램을 포함한 컴퓨터 판독 가능 기록매체에 있어서,
상기 전자 장치의 제어 방법은,
마이크를 통하여 사용자 음성이 입력되면, 상기 사용자 음성을 상기 전자 장치의 메모리에 저장된 종단간 음성 인식 모델에 입력함으로써, 상기 입력된 사용자 음성에 대응되는 그래핌 시퀀스(grapheme sequence)를 식별하는 단계;
상기 메모리에 저장되는 명령어 사전에 포함되며 상기 전자 장치의 제어에 관련되는 복수의 명령어 각각과 상기 식별된 그래핌 시퀀스 사이의 편집 거리(edit distance)에 기초하여, 상기 식별된 그래핌 시퀀스에 대응되는 명령어 시퀀스를 획득하는 단계;
상기 획득된 명령어 시퀀스를 상기 전자 장치의 동작을 제어하기 위한 복수의 제어 명령 중 하나와 매핑하는 단계; 및
상기 매핑된 제어 명령에 기초하여 상기 전자 장치의 동작을 제어하는 단계;
기 설정된 시간 동안 상기 전자 장치의 동작이 수행되지 않으면, 사용자에게 알림을 제공하는 단계; 및
상기 알림이 제공된 후 상기 명령어 사전에 상기 사용자 음성에 대응되는 명령어를 추가하기 위한 사용자 입력이 수신되면, 상기 사용자 음성에 기초하여 상기 명령어 사전을 업데이트하는 단계; 를 포함하고,
상기 그래핌 시퀀스에 포함되는 그래핌은 음소를 나타내는 문자 또는 문자들의 집합을 포함하며,
상기 종단간 음성 인식 모델은, 음향 특징을 추출하고 음소 시퀀스를 예측하는 AM(Acoustic Model), 음소 시퀀스를 단어 시퀀스에 매핑하는 PM(Pronunciation Model) 및 단어 시퀀스에 확률을 지정하는 LM(Language Model)이 하나의 신경망 모델로 통합된 모델이고, 음소를 단어에 매핑하기 위한 별도의 발음 사전을 포함하지 않고, 상기 사용자 음성을 상기 메모리에 저장된 복수의 그래핌에 직접 매핑함으로써 상기 그래핌 시퀀스를 식별하는 컴퓨터 판독 가능 기록매체.
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020180123974A KR102651413B1 (ko) | 2018-10-17 | 2018-10-17 | 전자 장치 및 전자 장치의 제어 방법 |
US16/601,940 US20200126548A1 (en) | 2018-10-17 | 2019-10-15 | Electronic device and controlling method of electronic device |
EP19872395.9A EP3824384A4 (en) | 2018-10-17 | 2019-10-16 | ELECTRONIC DEVICE AND ASSOCIATED CONTROL PROCESS |
PCT/KR2019/013545 WO2020080812A1 (en) | 2018-10-17 | 2019-10-16 | Electronic device and controlling method of electronic device |
CN201980068133.3A CN112867986A (zh) | 2018-10-17 | 2019-10-16 | 电子装置和电子装置的控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020180123974A KR102651413B1 (ko) | 2018-10-17 | 2018-10-17 | 전자 장치 및 전자 장치의 제어 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20200046172A KR20200046172A (ko) | 2020-05-07 |
KR102651413B1 true KR102651413B1 (ko) | 2024-03-27 |
Family
ID=70280824
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020180123974A Active KR102651413B1 (ko) | 2018-10-17 | 2018-10-17 | 전자 장치 및 전자 장치의 제어 방법 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20200126548A1 (ko) |
EP (1) | EP3824384A4 (ko) |
KR (1) | KR102651413B1 (ko) |
CN (1) | CN112867986A (ko) |
WO (1) | WO2020080812A1 (ko) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111681660B (zh) * | 2020-06-05 | 2023-06-13 | 北京有竹居网络技术有限公司 | 语音识别方法、装置、电子设备和计算机可读介质 |
US11500463B2 (en) | 2020-12-30 | 2022-11-15 | Imagine Technologies, Inc. | Wearable electroencephalography sensor and device control methods using same |
CN114333778A (zh) * | 2021-12-30 | 2022-04-12 | 科大讯飞股份有限公司 | 一种语音识别方法、装置、存储介质及设备 |
KR102517661B1 (ko) * | 2022-07-15 | 2023-04-04 | 주식회사 액션파워 | 텍스트 정보에서 타겟 단어에 대응하는 단어를 식별하는 방법 |
CN115862197A (zh) * | 2022-11-24 | 2023-03-28 | 德施曼机电(中国)有限公司 | 基于语音交互的电子锁功能设置方法及装置、设备、介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101317339B1 (ko) | 2009-12-18 | 2013-10-11 | 한국전자통신연구원 | 엔베스트 인식 단어 계산량 감소를 위한 2단계 발화검증 구조를 갖는 음성인식 장치 및 방법 |
US20170140753A1 (en) | 2015-11-12 | 2017-05-18 | Google Inc. | Generating target sequences from input sequences using partial conditioning |
US20180190268A1 (en) | 2017-01-04 | 2018-07-05 | Samsung Electronics Co., Ltd. | Speech recognizing method and apparatus |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6535850B1 (en) * | 2000-03-09 | 2003-03-18 | Conexant Systems, Inc. | Smart training and smart scoring in SD speech recognition system with user defined vocabulary |
KR101300839B1 (ko) * | 2007-12-18 | 2013-09-10 | 삼성전자주식회사 | 음성 검색어 확장 방법 및 시스템 |
KR101330671B1 (ko) * | 2012-09-28 | 2013-11-15 | 삼성전자주식회사 | 전자장치, 서버 및 그 제어방법 |
US9728185B2 (en) * | 2014-05-22 | 2017-08-08 | Google Inc. | Recognizing speech using neural networks |
KR102298457B1 (ko) * | 2014-11-12 | 2021-09-07 | 삼성전자주식회사 | 영상표시장치, 영상표시장치의 구동방법 및 컴퓨터 판독가능 기록매체 |
KR102371188B1 (ko) * | 2015-06-30 | 2022-03-04 | 삼성전자주식회사 | 음성 인식 장치 및 방법과 전자 장치 |
KR102386854B1 (ko) * | 2015-08-20 | 2022-04-13 | 삼성전자주식회사 | 통합 모델 기반의 음성 인식 장치 및 방법 |
CN105187656B (zh) * | 2015-09-23 | 2018-09-07 | 百度在线网络技术(北京)有限公司 | 通讯录联系人匹配方法和装置 |
CN105206274A (zh) * | 2015-10-30 | 2015-12-30 | 北京奇艺世纪科技有限公司 | 一种语音识别的后处理方法及装置和语音识别系统 |
CN108417202B (zh) * | 2018-01-19 | 2020-09-01 | 苏州思必驰信息科技有限公司 | 语音识别方法及系统 |
-
2018
- 2018-10-17 KR KR1020180123974A patent/KR102651413B1/ko active Active
-
2019
- 2019-10-15 US US16/601,940 patent/US20200126548A1/en not_active Abandoned
- 2019-10-16 CN CN201980068133.3A patent/CN112867986A/zh not_active Withdrawn
- 2019-10-16 EP EP19872395.9A patent/EP3824384A4/en not_active Withdrawn
- 2019-10-16 WO PCT/KR2019/013545 patent/WO2020080812A1/en unknown
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101317339B1 (ko) | 2009-12-18 | 2013-10-11 | 한국전자통신연구원 | 엔베스트 인식 단어 계산량 감소를 위한 2단계 발화검증 구조를 갖는 음성인식 장치 및 방법 |
US20170140753A1 (en) | 2015-11-12 | 2017-05-18 | Google Inc. | Generating target sequences from input sequences using partial conditioning |
US20180190268A1 (en) | 2017-01-04 | 2018-07-05 | Samsung Electronics Co., Ltd. | Speech recognizing method and apparatus |
Non-Patent Citations (3)
Title |
---|
Mei, Hongyuan, Mohit Bansal, and Matthew Walter. Listen, attend, and walk: Neural mapping of navigational instructions to action sequences. AAAI Conference on Artificial Intelligence.Vol.30.No.1.2016. |
Quintanilha, Igor Macedo. End-to-end speech recognition applied to brazilian portuguese using deep learning. Ph. D. dissertation, MSc dissertation. 2017. |
Serdyuk, Dmitriy, et al. Towards end-to-end spoken language understanding. 2018 IEEE International Conference on ICASSP. IEEE. 2018. |
Also Published As
Publication number | Publication date |
---|---|
EP3824384A1 (en) | 2021-05-26 |
EP3824384A4 (en) | 2021-08-25 |
US20200126548A1 (en) | 2020-04-23 |
CN112867986A (zh) | 2021-05-28 |
KR20200046172A (ko) | 2020-05-07 |
WO2020080812A1 (en) | 2020-04-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102651413B1 (ko) | 전자 장치 및 전자 장치의 제어 방법 | |
CN113811946B (zh) | 数字序列的端到端自动语音识别 | |
JP6637848B2 (ja) | 音声認識装置及び方法と電子装置 | |
KR102386854B1 (ko) | 통합 모델 기반의 음성 인식 장치 및 방법 | |
JP6556575B2 (ja) | 音声処理装置、音声処理方法及び音声処理プログラム | |
US10431201B1 (en) | Analyzing messages with typographic errors due to phonemic spellings using text-to-speech and speech-to-text algorithms | |
JP2021018413A (ja) | ストリーミングアテンションモデルに基づく音声認識復号化方法、装置、機器及びコンピュータ可読記憶媒体 | |
JP7544989B2 (ja) | ルックアップテーブルリカレント言語モデル | |
CN117043856A (zh) | 高效流式非递归设备上的端到端模型 | |
US11335325B2 (en) | Electronic device and controlling method of electronic device | |
US12254875B2 (en) | Multilingual re-scoring models for automatic speech recognition | |
WO2022203735A1 (en) | Reducing streaming asr model delay with self alignment | |
EP4218007A1 (en) | Fast emit low-latency streaming asr with sequence-level emission regularization | |
US11881211B2 (en) | Electronic device and controlling method of electronic device for augmenting learning data for a recognition model | |
US10770094B2 (en) | Routing audio streams based on semantically generated result sets | |
US11250853B2 (en) | Sarcasm-sensitive spoken dialog system | |
WO2023183201A1 (en) | Optimizing personal vad for on-device speech recognition | |
CN114255737B (zh) | 语音生成方法、装置、电子设备 | |
Prasanna et al. | Low cost home automation using offline speech recognition | |
CN118985024A (zh) | 不使用平行文本-音频数据的文本到语音合成 | |
JP2009025411A (ja) | 音声認識装置およびプログラム | |
CN114758646A (zh) | 语音交互方法、装置及电子设备 | |
CN113205797A (zh) | 虚拟主播生成方法、装置、计算机设备及可读存储介质 | |
JP6625961B2 (ja) | 発音辞書及び音響モデル生成装置、音声認識装置、方法及びプログラム | |
JP4877112B2 (ja) | 音声処理装置およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20181017 |
|
PG1501 | Laying open of application | ||
A201 | Request for examination | ||
PA0201 | Request for examination |
Patent event code: PA02012R01D Patent event date: 20211014 Comment text: Request for Examination of Application Patent event code: PA02011R01I Patent event date: 20181017 Comment text: Patent Application |
|
E902 | Notification of reason for refusal | ||
PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20230623 Patent event code: PE09021S01D |
|
E701 | Decision to grant or registration of patent right | ||
PE0701 | Decision of registration |
Patent event code: PE07011S01D Comment text: Decision to Grant Registration Patent event date: 20231222 |
|
PG1601 | Publication of registration |