KR20050049207A - 대화형 연속 음성인식 시스템 및 이를 이용한 음성끝점검출방법 - Google Patents
대화형 연속 음성인식 시스템 및 이를 이용한 음성끝점검출방법 Download PDFInfo
- Publication number
- KR20050049207A KR20050049207A KR1020030083115A KR20030083115A KR20050049207A KR 20050049207 A KR20050049207 A KR 20050049207A KR 1020030083115 A KR1020030083115 A KR 1020030083115A KR 20030083115 A KR20030083115 A KR 20030083115A KR 20050049207 A KR20050049207 A KR 20050049207A
- Authority
- KR
- South Korea
- Prior art keywords
- voice
- speech recognition
- speech
- recognition system
- conversation
- Prior art date
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 58
- 230000002452 interceptive effect Effects 0.000 claims abstract description 29
- 238000012805 post-processing Methods 0.000 claims abstract description 17
- 239000013598 vector Substances 0.000 claims abstract description 17
- 238000000034 method Methods 0.000 claims description 16
- 238000005259 measurement Methods 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000005236 sound signal Effects 0.000 claims description 3
- 230000009849 deactivation Effects 0.000 claims description 2
- 230000000877 morphologic effect Effects 0.000 claims description 2
- 238000012545 processing Methods 0.000 claims description 2
- 230000004044 response Effects 0.000 abstract description 6
- 230000003993 interaction Effects 0.000 abstract description 4
- 238000000605 extraction Methods 0.000 description 3
- 238000009432 framing Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 206010019133 Hangover Diseases 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10K—SOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
- G10K15/00—Acoustics not otherwise provided for
- G10K15/08—Arrangements for producing a reverberation or echo sound
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/227—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Machine Translation (AREA)
- Telephonic Communication Services (AREA)
Abstract
본 발명은 대화형 연속 음성인식 시스템 및 이를 이용한 음성끝점 검출방법에 관한 것으로, 상기 대화형 음성인식 시스템의 끝점 검출부, 후처리부, 대화 턴(dialogue turn)검출부의 상호작용을 통하여 대화체 연속 음성인식 시스템의 끝점 검출성능을 높임과 동시에 연속 음성인식 시스템의 응답 지연시간을 최적화하는 것이다.
이에 따라, 본 발명의 대화형 연속 음성인식 시스템은 음성입력 신호를 음성구간과 비음성 구간으로 구분하여 음성인식 시스템의 불필요한 계산량 부하를 막는 끝점 검출부와, 상기 음성입력 신호로부터 음성인식에 필요한 특징벡터들을 추출하는 특징벡터 추출부와, 상기 특징벡터 추출부에서 추출된 음성의 특징벡터를 기반으로 음성을 인식하는 음성 인식부와, 상기 음성 인식부의 출력정보를 기반으로 음성인식 결과를 검증하는 후처리부 및 상기 후처리부를 통하여 전달된 음성인식 결과를 기반으로 사용자의 의도를 파악하고, 다음 대화를 예측하는 대화 턴 검출부를 포함하여 구성된다.
Description
본 발명은 대화형 사용자 인터페이스 시스템을 위한 대화형 연속 음성인식 시스템 및 이를 이용한 연속음성의 끝점 검출방법에 관한 것으로, 더욱 상세하게는 대화체 음성인식 시스템의 끝점 검출부, 후처리부, 대화 턴(dialogue turn)검출부의 상호작용을 통하여 대화체 연속 음성인식 시스템의 끝점 검출성능을 높임과 동시에 연속 음성인식 시스템의 응답 지연시간을 최적화한다.
음성의 끝점 검출부는 주로 음성인식 시스템의 전처리부로 이용되는데, 입력신호를 음성과 비음성 구간으로 구분하여 음성인식 시스템의 불필요한 계산량 부하를 막고 음성인식 시스템의 인식성능에 많은 영향을 미친다.
일반적으로 고립단어 인식시스템에서는 사용자가 발성한 하나의 단어만을 인식대상으로 하는데 반하여, 대화체 연속 음성인식 시스템은 사용자가 발성한 대화체 연속음성을 인식대상으로 한다.
사용자가 발성한 음성이 대화체 문장일 경우, 음성데이터로부터 상기 문장이 어느 부분에서 끝이 났는지를 판단하는 것은 고립단어 인식시스템의 판단과 양상이 다르게 나타난다.
따라서, 기존의 고립단어 인식시스템에서 사용되는 음성의 끝점 검출방법을 대화체 음성인식 시스템에 적용할 경우 대화체 음성의 끝점을 정확히 검출하지 못하는 문제가 발생한다.
이러한, 문제의 주요원인은 대화체 음성의 경우, 대화체 문장사이의 음성의 포즈(pause)구간이 불규칙적으로 발생하고, 이러한 음성의 포즈구간이 고립단어의 경우에 비하여 상대적으로 길게 발생하기 때문이다.
즉, 사용자 본인이 하고자 하는 말을 상대적으로 긴 포즈구간이 없이 모두 발성한 경우를 제외하고는 대화체 음성시스템이 사용자의 발성 일부분을 인식하여 전체적인 대화형 시스템의 동작흐름에 악영향을 미치게 된다.
이 때문에, 긴 포즈구간을 감당하기 위한 음성의 끝점 검출부의 hangover time을 늘릴 경우에는 전체적인 지연시간이 늘어나게 되고, 동시에 전체 대화형 사용자 인터페이스 시스템의 응답시간이 지연되는 문제점이 있다.
따라서, 본 발명은 상술한 종래의 문제점을 해결하기 위한 것으로, 본 발명의 목적은 대화형 사용자 인터페이스 시스템을 위한 대화형 연속 음성인식 시스템에서 끝점 검출부, 후처리부, 대화 턴 검출부의 상호작용을 통하여 입력된 음성신호의 끝점검출 성능을 높임으로써 상기 연속 음성인식 시스템의 응답 지연시간을 최적화하고자 하는 대화형 연속 음성인식 시스템 및 이를 이용한 음성끝점 검출방법을 제공함에 있다.
상기와 같은 본 발명의 목적을 달성하기 위한 대화형 연속 음성인식 시스템은, 음성입력 신호를 음성구간과 비음성 구간으로 구분하여 음성인식 시스템의 불필요한 계산량 부하를 막는 끝점 검출부와, 상기 음성입력 신호로부터 음성인식에 필요한 특징벡터들을 추출하는 특징벡터 추출부와, 상기 특징벡터 추출부에서 추출된 음성의 특징벡터를 기반으로 음성을 인식하는 음성 인식부와, 상기 음성 인식부의 출력정보를 기반으로 음성인식 결과를 검증하는 후처리부 및 상기 후처리부를 통하여 전달된 음성인식 결과를 기반으로 사용자의 의도를 파악하고, 다음 대화를 예측하는 대화 턴 검출부를 포함하여 구성된다.
상기와 같은 본 발명의 목적을 달성하기 위한 대화형 연속 음성인식 시스템을 이용한 음성끝점 검출방법은, 끝점 검출모듈 활성 플래그가 온(FLAG ON)되어 입력음성 신호를 버퍼링하고, 상기 버퍼링된 입력신호로부터 일정구간 간격으로 프레이밍 하는 단계와, 상기 프레이밍한 입력신호로부터 음성의 시작점을 검출하는 단계와, 상기 음성의 시작점 검출 후, 연속되는 프레임 입력신호로부터 음성의 끝점을 검출하는 단계 및 상기 음성의 끝점 검출 후, 대화 턴이 검출될 때까지 상기 끝점 검출모듈을 초기화하여 상기 시작점과 끝점을 검출하는 동작을 반복적으로 수행하는 단계로 이루어진다.
이하, 본 발명에 따른 실시예를 첨부한 도면을 참조하여 상세히 설명하기로 한다.
도 1은 본 발명에 따른 대화형 연속 음성인식 시스템의 구성도이다.
도 1에 도시된 바와 같이 대화형 연속 음성인식 시스템은 음성입력 신호를 음성구간과 비음성 구간으로 구분하여 음성인식 시스템의 불필요한 계산량 부하를 막는 끝점 검출부(10), 상기 음성입력 신호로부터 음성인식에 필요한 특징벡터들을 추출하는 특징벡터 추출부(20), 상기 특징벡터 추출부(20)에서 추출된 음성의 특징벡터를 기반으로 음성을 인식하는 음성 인식부(30), 상기 음성 인식부(30)의 출력정보를 기반으로 음성인식 결과를 검증하는 후처리부(40), 상기 후처리부(40)를 통하여 전달된 음성인식 결과를 기반으로 사용자의 의도를 파악하고, 다음 대화를 예측하는 대화 턴 검출부(50)를 더 포함하여 구성되며, 상기 음성인식 결과 검증이란, 음성 인식부(30)의 출력정보를 기반으로 인식된 문장의 전체 또는 일부분이 신뢰성 있는 결과인가를 검증하는 것으로 상기 음성인식 시스템의 신뢰도와 밀접한 관계가 있다.
또한, 상기 음성 인식부는 발음사전, 음향모델, 탐색모듈, 언어모델로 구성된다.
도 2는 본 발명에 따른 대화형 연속 음성인식 시스템의 음성끝점 검출방법의 흐름도로써, 사용자의 음성이 대화형 사용자 인터페이스 시스템 통해 입력되면 끝점 검출모듈 활성 플래그(FLAG)가 온(ON)되어(S100) 입력음성 신호를 버퍼링하고(S102), 상기 버퍼링된 입력신호로부터 일정구간 간격으로 프레이밍을 한다(S103).
상기 프레이밍(Framing)한 입력신호로부터 먼저, 음성의 시작점을 검출하고(S104), 상기 음성의 시작점이 검출된 다음 연속되는 프레임 입력신호부터 음성의 끝점을 검출하게 된다(S105).
상기 음성의 끝점이 검출된 다음에는 끝점 검출모듈을 초기화하고(S106), 상기 음성의 시작점과 끝점을 검출하는 동작을 반복적으로 수행하게 되는데, 이때 대화체 연속 음성인식 시스템의 후처리부(40) 또는 대화 턴(dialogue turn)검출부(50)에서 끝점 검출모듈 활성 플레그 오프 신호를 발생시키면, 상기 음성의 끝점 검출모듈을 비활성화 하게 된다.
상기 끝점 검출모듈 활성화 플레그 오프 신호는 인식된 음성의 신뢰도가 임계값 이상으로 대화 턴이 검출되는 경우와, 상기 음성의 신뢰도가 임계값 이상이 아닌 경우를 발생하게 된다.
도 3은 본 발명에 따른 대화형 연속 음성인식 시스템의 후처리부와 대화 턴 검출부의 음성끝점 검출방법의 상세 흐름도로써, 상기 끝점 검출모듈 활성화 플레그 오프 신호에 따른 후처리부(40)와 대화 턴 검출부(50)의 끝점 검출부(10) 제어를 상세히 설명한다.
상기 후처리부(40)에 의해 추출된 음성인식 결과의 신뢰도가 측정 임계값 이상인가를 상기 후처리부(40)에서 판단한다(S200).
상기 신뢰도가 측정 임계값 이상일 경우에는, 상기 대화 턴 검출부(50)에서 사용자가 대화 턴을 바꿀 수 있을 정도로 충분히 발성을 하였는지를 확인하여 대화 턴을 검출한다(S201).
상기 대화 턴이 검출되었을 경우, 음성의 끝점 검출모듈 비활성화 플레그를 끝점 검출부(10)로 보내 상기 끝점 검출부(10)를 같은 방법으로 비활성화 시킨다(S202).
이때, 대화 턴은 대화형 인터페이스 시스템으로 넘어가게 되고 시스템이 응답 합성결과를 플레이한 후, 사용자의 음성입력을 받아들이기 위한 끝점 검출부(10)가 다시 활성화된다.
반면, 상기 신뢰도가 측정 임계값 이하인 경우, 상기 후처리부(40)에서 끝점 검출모듈을 비활성화 하여 상기 음성인식 시스템의 부하를 줄이면 대화를 이어나가게 하기 위한 멘트를 상기 대화형 인터페이스 시스템이 플레이한다.
그런 다음, 상기 사용자의 음성입력을 받아들이기 위한 끝점 검출부(10)가 다시 활성화되어 음성의 시작점과 끝점을 검출한다.
또한, 상기 인식된 음성의 신뢰도가 측정 임계값 이상인 경우 상기 대화 턴 검출부(50)에 의해 대화 턴을 검출하게 되는데, 상기 대화 턴 검출을 위해 사용형태소 분석, 구문 분석, 대화 분석 등의 대화 지식을 통하여 대화 턴을 검출하는 지식기반 방법과, 서비스 시나리오를 기반으로 구축된 대화 코퍼스의 통계적 처리를 통해 대화 턴을 검출하는 통계기반 방법 및 상기 지식기반 방법과 통계기반 방법의 대화 턴 검출 방법을 혼용한 하이브리드 방법을 통하여 대화 턴을 검출하게 된다.
상기 본 발명에 따른 대화형 연속 음성인식 시스템 및 이를 이용한 음성끝점 검출방법은 컴퓨터 프로그램으로 제작되어서 하드디스크, 플로피디스크, 광자기디스크, 시디 롬, 롬, 램 등의 기록매체에 저장될 수 있다.
이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 또한 설명하였으나, 본 발명은 상기한 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 누구든지 다양한 변형 실시가 가능한 것을 물론이고, 그와 같은 변경은 기재된 청구범위 내에 있게 된다.
이상에 설명한 바와 같이 본 발명에 의하면, 대화체 음성인식 시스템의 끝점 검출부, 후처리부, 대화 턴 검출부의 상호작용을 통하여 상기 대화체 음성인식 시스템의 끝점검출 성능을 높임과 동시에 연속 음성인식 시스템의 응답 지연시간을 최적화하는 효과가 있다.
도 1은 본 발명에 따른 대화형 연속 음성인식 시스템의 구성도,
도 2는 본 발명에 따른 대화형 연속 음성인식 시스템의 음성끝점 검출방법의 흐름도,
도 3은 본 발명에 따른 대화형 연속 음성인식 시스템의 후처리부와 대화 턴 검출부의 음성끝점 검출방법의 상세 흐름도이다.
<도면의 주요 부분에 대한 부호의 설명>
10 : 끝점 검출부 20 : 특징벡터 추출부
30 : 음성 인식부 40 : 후처리부
50 : 대화 턴 검출부
Claims (5)
- 음성입력 신호를 음성구간과 비음성 구간으로 구분하여 음성인식 시스템의 불필요한 계산량 부하를 막는 끝점 검출부;상기 음성입력 신호로부터 음성인식에 필요한 특징벡터들을 추출하는 특징벡터 추출부;상기 특징벡터 추출부에서 추출된 음성의 특징벡터를 기반으로 음성을 인식하는 음성 인식부;상기 음성 인식부의 출력정보를 기반으로 음성인식 결과를 검증하는 후처리부; 및상기 후처리부를 통하여 전달된 음성인식 결과를 기반으로 사용자의 의도를 파악하고, 다음 대화를 예측하는 대화 턴 검출부를 포함하여 구성되는 것을 특징으로 하는 대화형 연속 음성인식 시스템.
- 제 1항에 있어서, 상기 음성 인식부는발음사전, 음향모델, 탐색모듈, 언어모델로 구성되는 것을 특징으로 하는 대화형 연속 음성인식 시스템.
- (a)끝점 검출모듈 활성 플래그가 온(ON)되어 입력음성 신호를 버퍼링하고, 상기 버퍼링된 입력신호로부터 일정구간 간격으로 프레이밍 하는 단계;(b)상기 프레이밍한 입력신호로부터 음성의 시작점을 검출하는 단계;(c)상기 음성의 시작점 검출 후, 연속되는 프레임 입력신호로부터 음성의 끝점을 검출하는 단계; 및(d)상기 음성의 끝점 검출 후, 대화 턴이 검출될 때까지 상기 끝점 검출모듈을 초기화하여 상기 시작점과 끝점을 검출하는 동작을 반복적으로 수행하는 단계로 이루어지는 것을 특징으로 하는 대화형 연속 음성인식 시스템의 음성끝점 검출방법.
- 제 3항에 있어서, 상기 (c)단계는(e)상기 후처리부에서 음성인식 결과의 신뢰도가 측정 임계값 이상인가를 판단하는 단계;(f)상기 신뢰도가 측정 임계값 이상일 경우, 상기 대화 턴 검출부에서 대화 턴을 검출하는 단계;(g)상기 대화 턴이 검출되었을 경우, 음성의 끝점 검출모듈 비활성화 플레그를 끝점 검출부로 보내는 단계; 및(h)상기 신뢰도가 측정 임계값 이하인 경우, 상기 후처리부에서 끝점 검출모듈을 비활성화하여 상기 음성인식 시스템의 부하를 줄이고 사용자의 음성입력을 받아들이기 위한 끝점 검출부가 다시 활성화되는 단계로 이루어지는 것을 특징으로 하는 대화형 연속 음성인식 시스템을 이용한 음성끝점 검출방법.
- 제 4항에 있어서, 상기 (f)단계는형태소 분석, 구문 분석, 대화 분석 등의 대화 지식을 통하여 대화 턴을 검출하는 지식기반 방법과, 서비스 시나리오를 기반으로 구축된 대화 코퍼스의 통계적 처리를 통해 대화 턴을 검출하는 통계기반 방법 및 상기 지식기반 방법과 통계기반 방법의 대화 턴 검출 방법을 혼용한 하이브리드 방법에 의해 검출되는 것을 특징으로 하는 대화형 연속 음성인식 시스템을 이용한 음성끝점 검출방법.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020030083115A KR20050049207A (ko) | 2003-11-21 | 2003-11-21 | 대화형 연속 음성인식 시스템 및 이를 이용한 음성끝점검출방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020030083115A KR20050049207A (ko) | 2003-11-21 | 2003-11-21 | 대화형 연속 음성인식 시스템 및 이를 이용한 음성끝점검출방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20050049207A true KR20050049207A (ko) | 2005-05-25 |
Family
ID=37247766
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020030083115A KR20050049207A (ko) | 2003-11-21 | 2003-11-21 | 대화형 연속 음성인식 시스템 및 이를 이용한 음성끝점검출방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR20050049207A (ko) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100718147B1 (ko) * | 2005-02-01 | 2007-05-14 | 삼성전자주식회사 | 음성인식용 문법망 생성장치 및 방법과 이를 이용한 대화체음성인식장치 및 방법 |
KR20080061901A (ko) * | 2006-12-28 | 2008-07-03 | 주식회사 유진로봇 | 로봇의 입출력 장치에 의한 효율적인 음성인식 방법 및시스템 |
KR100899660B1 (ko) * | 2007-11-26 | 2009-05-27 | 한국전자통신연구원 | 운전 집중도 알림 장치 및 방법 |
CN103187051A (zh) * | 2011-12-28 | 2013-07-03 | 上海博泰悦臻电子设备制造有限公司 | 车载互动装置 |
KR20160013592A (ko) * | 2014-07-28 | 2016-02-05 | (주)복스유니버스 | 음성 특징 벡터를 이용한 화자 분리 시스템 및 방법 |
EP2342884B1 (en) | 2008-09-18 | 2018-12-05 | Koninklijke Philips N.V. | Method of controlling a system and signal processing system |
CN109725869A (zh) * | 2019-01-02 | 2019-05-07 | 百度在线网络技术(北京)有限公司 | 连续交互控制方法和装置 |
CN110428854A (zh) * | 2019-08-12 | 2019-11-08 | 腾讯科技(深圳)有限公司 | 车载端的语音端点检测方法、装置和计算机设备 |
WO2021103775A1 (zh) * | 2019-11-27 | 2021-06-03 | 深圳追一科技有限公司 | 语音意图识别方法、装置、计算机设备和存储介质 |
CN113380275A (zh) * | 2021-06-18 | 2021-09-10 | 北京声智科技有限公司 | 语音处理方法、装置、智能设备及存储介质 |
KR20240032596A (ko) | 2022-09-02 | 2024-03-12 | 숭실대학교산학협력단 | 생물학적 소리에 기반한 합성 음성 탐지 방법, 이를 수행하기 위한 기록 매체 및 장치 |
-
2003
- 2003-11-21 KR KR1020030083115A patent/KR20050049207A/ko not_active Application Discontinuation
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100718147B1 (ko) * | 2005-02-01 | 2007-05-14 | 삼성전자주식회사 | 음성인식용 문법망 생성장치 및 방법과 이를 이용한 대화체음성인식장치 및 방법 |
KR20080061901A (ko) * | 2006-12-28 | 2008-07-03 | 주식회사 유진로봇 | 로봇의 입출력 장치에 의한 효율적인 음성인식 방법 및시스템 |
KR100899660B1 (ko) * | 2007-11-26 | 2009-05-27 | 한국전자통신연구원 | 운전 집중도 알림 장치 및 방법 |
EP2342884B1 (en) | 2008-09-18 | 2018-12-05 | Koninklijke Philips N.V. | Method of controlling a system and signal processing system |
CN103187051A (zh) * | 2011-12-28 | 2013-07-03 | 上海博泰悦臻电子设备制造有限公司 | 车载互动装置 |
KR20160013592A (ko) * | 2014-07-28 | 2016-02-05 | (주)복스유니버스 | 음성 특징 벡터를 이용한 화자 분리 시스템 및 방법 |
CN109725869A (zh) * | 2019-01-02 | 2019-05-07 | 百度在线网络技术(北京)有限公司 | 连续交互控制方法和装置 |
CN109725869B (zh) * | 2019-01-02 | 2022-10-21 | 百度在线网络技术(北京)有限公司 | 连续交互控制方法和装置 |
CN110428854A (zh) * | 2019-08-12 | 2019-11-08 | 腾讯科技(深圳)有限公司 | 车载端的语音端点检测方法、装置和计算机设备 |
CN110428854B (zh) * | 2019-08-12 | 2022-05-06 | 腾讯科技(深圳)有限公司 | 车载端的语音端点检测方法、装置和计算机设备 |
WO2021103775A1 (zh) * | 2019-11-27 | 2021-06-03 | 深圳追一科技有限公司 | 语音意图识别方法、装置、计算机设备和存储介质 |
CN113380275A (zh) * | 2021-06-18 | 2021-09-10 | 北京声智科技有限公司 | 语音处理方法、装置、智能设备及存储介质 |
KR20240032596A (ko) | 2022-09-02 | 2024-03-12 | 숭실대학교산학협력단 | 생물학적 소리에 기반한 합성 음성 탐지 방법, 이를 수행하기 위한 기록 매체 및 장치 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3004883B2 (ja) | 終話検出方法及び装置並びに連続音声認識方法及び装置 | |
JP3284832B2 (ja) | 音声認識対話処理方法および音声認識対話装置 | |
US7801726B2 (en) | Apparatus, method and computer program product for speech processing | |
US9437186B1 (en) | Enhanced endpoint detection for speech recognition | |
US7069221B2 (en) | Non-target barge-in detection | |
US9818407B1 (en) | Distributed endpointing for speech recognition | |
JP5381988B2 (ja) | 対話音声認識システム、対話音声認識方法および対話音声認識用プログラム | |
JP4237713B2 (ja) | 音声処理装置 | |
CN110827795A (zh) | 语音输入结束判断方法、装置、设备、系统以及存储介质 | |
JP3886024B2 (ja) | 音声認識装置及びそれを用いた情報処理装置 | |
EP3739583B1 (en) | Dialog device, dialog method, and dialog computer program | |
JPH10501078A (ja) | 音声認識システムの言語モデルのサイズを適応させるための方法および装置 | |
KR20050049207A (ko) | 대화형 연속 음성인식 시스템 및 이를 이용한 음성끝점검출방법 | |
Selfridge et al. | Continuously predicting and processing barge-in during a live spoken dialogue task | |
Rose et al. | Integration of utterance verification with statistical language modeling and spoken language understanding | |
JP2007072331A (ja) | 音声対話方法および音声対話システム | |
JP3721948B2 (ja) | 音声始端検出方法、音声認識装置における音声区間検出方法および音声認識装置 | |
KR20210081166A (ko) | 다국어 음성 환경에서의 언어 식별 장치 및 방법 | |
JP2009025579A (ja) | 音声認識装置および音声認識方法 | |
JP5427140B2 (ja) | 音声認識方法、音声認識装置及び音声認識プログラム | |
JP2006039382A (ja) | 音声認識装置 | |
Kuroiwa et al. | Robust speech detection method for telephone speech recognition system | |
JP2006172110A (ja) | 応答データ出力装置、応答データ出力方法およびプログラム | |
JP3846500B2 (ja) | 音声認識対話装置および音声認識対話処理方法 | |
JP3285704B2 (ja) | 音声対話のための音声認識方法及び装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E601 | Decision to refuse application |