KR20060097647A - 음성 인식 방법 - Google Patents
음성 인식 방법 Download PDFInfo
- Publication number
- KR20060097647A KR20060097647A KR1020060021863A KR20060021863A KR20060097647A KR 20060097647 A KR20060097647 A KR 20060097647A KR 1020060021863 A KR1020060021863 A KR 1020060021863A KR 20060021863 A KR20060021863 A KR 20060021863A KR 20060097647 A KR20060097647 A KR 20060097647A
- Authority
- KR
- South Korea
- Prior art keywords
- voice
- speech
- pronunciation
- speech recognition
- sequence
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 238000010348 incorporation Methods 0.000 claims abstract description 3
- 230000037406 food intake Effects 0.000 claims description 6
- 238000002347 injection Methods 0.000 claims description 5
- 239000007924 injection Substances 0.000 claims description 5
- 230000000977 initiatory effect Effects 0.000 claims description 3
- 230000007704 transition Effects 0.000 claims description 2
- 230000003595 spectral effect Effects 0.000 claims 2
- 238000007664 blowing Methods 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 22
- 238000004458 analytical method Methods 0.000 description 14
- 230000006870 function Effects 0.000 description 11
- 238000000605 extraction Methods 0.000 description 9
- 238000012217 deletion Methods 0.000 description 5
- 230000037430 deletion Effects 0.000 description 5
- 230000015556 catabolic process Effects 0.000 description 4
- 238000006731 degradation reaction Methods 0.000 description 4
- 238000010183 spectrum analysis Methods 0.000 description 4
- 230000006866 deterioration Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Artificial Intelligence (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
- Electrically Operated Instructional Devices (AREA)
- Machine Translation (AREA)
- User Interface Of Digital Computer (AREA)
- Electric Clocks (AREA)
Abstract
본 발명의 음성 인식 방법은 이용자가 만들어낸 음성의 취입을 포함하고 있다. 이용자의 조작 또는 동작에 따라서 이러한 취입이 개시된다. 이어서, 취입된 음성의 시작부분이 존재하는지 누락하고 있는지의 여부가 판정된다. 음성 판정 유닛의 결과에 기초하여 인식 대상 단어의 발음 정보가 설정되며, 그 설정된 발음 정보를 이용하여 취입된 음성이 인식된다.
음성 인식, 음성 판정 유닛, 인식 대상 단어, 발음 정보, 참조 패턴
Description
도 1은 본 발명의 제1 실시예에 따른 음성 인식 방법이 탑재된 정보 장치의 하드웨어 구성의 블록도.
도 2는 본 발명의 제1 실시예에 따른 음성 인식 방법의 모듈 구성의 블록도.
도 3은 통상의 등록 비요구형 음성 인식 방법의 모듈 구성의 블록도.
도 4는 통상의 등록 요구형 음성 인식 방법의 모듈 구성의 블록도.
도 5는 본 발명의 제1 예시적인 실시예에 따른 음성 인식 방법의 전체 처리의 흐름도.
도 6a 및 도 6b는 발성을 개시하라는 커맨드를 입력하는 타이밍 차에 기인한 음성 생략의 개략도.
도 7은 인식 대상 단어의 일례를 도시한 도면.
도 8은 도 7의 인식 대상 단어를, 제1 발음 계열을 삭제한 일례를 도시한 도면.
도 9는 도 7의 인식 대상 단어를, 제1 및 제2 발음 계열을 삭제한 일례를 도시한 도면.
도 10은 도 7의 인식 대상 단어를, 제1 내지 제4 발음 계열을 삭제한 일례를 도시한 도면.
도 11은 도 7의 인식 대상 단어를, 제1 내지 제4 발음 계열을 삭제한 모든 조합의 일례를 도시한 도면.
도 12는 음소 /t/를 3 상태의 히든 마르코프 모델(HMM)로 모델화한 예를 도시한 도면.
도 13은 인식 대상 단어의 일례로서, 도 7의 인식 대상 단어의 발음 정보를 HMM의 상태 계열로 표현한 도면.
도 14는 도 13의 인식 대상 단어를, 제1 상태 계열을 삭제한 일례를 도시한 도면.
도 15a, 도 15b, 도 15c는 발음 계열의 삭제 및 상태 계열의 삭제 간의 차이를 설명하는 개략도.
도 16a, 도 16b, 도 16c는 발음 정보가 참조 패턴 계열의 삭제에 의해 어떻게 설정되는지를 설명하는 개략도.
도 17은 음성 인식 처리에 취입된 음성의 판정 및 발음 정보의 설정을 포함하는 음성 인식 방법의 모듈 구성의 블록도.
<도면의 주요 부분에 대한 부호의 설명>
104: 외부 저장 장치
105: 음성 입력 장치
106: 디스플레이 장치
107: 보조 입력 장치
108: 보조 출력 장치
201: 음성 취입 유닛
202: 취입된 음성 판정 유닛
203: 발음 정보 설정 유닛
204: 음성 인식 유닛
301: 음성 입력 유닛
302: 음성 특징 파라미터 추출 유닛
303: 탐색 유닛
304: 결과 출력 유닛
305: 발음 사전
306: 음향 모델
307: 언어 모델
401: 음성 입력 유닛
402: 음성 특징 파라미터 추출 유닛
403: 탐색 유닛
404: 결과 출력 유닛
405: 참조 패턴
본 발명은, 버튼 누름과 같은 음성 개시 커맨드의 입력을 수반한 음성 인식 을 수행하여, 버튼을 누르기 전에 음성이 만들어질 수 있는 고정밀도의 음성 인식을 실현하기 위한 방법에 관한 것이다.
음성 인식을 수행할 때, 주위 잡음에 기인한 에러를 방지하기 위해, 이용자의 입과 마이크로폰 간의 거리 및 입력 레벨을 적절하게 설정하고, 음성 개시 커맨드를 (통상 버튼을 누름으로써) 적절하게 입력할 필요가 있다. 이들이 적절하게 행해지지 않으면, 인식 성능의 상당한 저하를 초래할 것이다. 그러나, 이용자가 이러한 설정 또는 입력을 항상 적절하게 유지할 수는 없기 때문에, 이러한 경우의 성능 저하를 방지하기 위한 대책이 필요하게 된다. 특히, 예를 들어, 버튼을 누르기 전에 음성이 만들어지는 등과 같이, 간혹 음성 개시 커맨드가 정확하게 입력되지 않는 경우가 있다. 그러한 경우에는, 음성 개시 커맨드가 입력된 후에 마이크로폰을 통해 음성을 취득하기 때문에, 음성의 시작부분이 생략될 것이다. 그 생략된 음성에 기초하여 종래의 음성 인식을 수행할 경우, 음성 개시 커맨드가 정확하게 입력되는 경우와 비교하여, 인식율이 크게 떨어질 것이다.
이러한 문제를 고려하여, 일본특허공보 제2829014호에서는, 인식 처리 개시 커맨드가 입력된 후에 취입된 음성 데이터를 저장하는 데이터 버퍼외에도, 항상 일정 길이의 음성을 취입하는 링 버퍼를 제공하는 방법을 개시하고 있다. 그리고, 커맨드가 입력된 후, 데이터 버퍼에 의해 취입된 음성을 이용하여 음성의 헤드를 검출한다. 음성의 헤드가 검출되지 않을 경우, 링 버퍼에 저장되어 있는 커맨드 입력전의 음성을 추가로 사용함으로써 음성 헤드의 검출을 수행한다. 이 방법에 서, 링 버퍼가 음성의 취입 처리를 지속적으로 수행해야 하기 때문에, 데이터 버퍼만을 이용하는 경우와 비교하면, 추가적인 CPU 부하를 요구한다. 즉, 이동 장치와 같은 배터리 구동 장치에 사용하기에 반드시 적절한 방법은 아니다.
또한, 일본특허공보 제3588929호에서는 단어의 시작부분에 반음절 또는 단음절 생략되어 있는 단어를 인식 대상으로 하는 방법을 개시하고 있다. 이 방법으로, 잡음 환경에서의 음성 인식률의 저하를 방지할 수 있다. 또한, 일본특허공보 제3588929호에서는 헤드 부분이 생략된 단어를 잡음 레벨에 따라서 인식 대상의 단어로 해야 하는지를 판정하는 제어를 수행하는 방법을 개시하고 있다. 이 방법으로, 단어 시작부분에 반음절 또는 단음절의 종류 또는 잡음 레벨에 따라, 단어 시작부분에 반음절 또는 단음절 생략되어 있는지의 여부에 관한 판정이 수행된다. 생략된 것으로 판정된 경우, 생략되지 않은 단어는 인식 대상의 단어로 지정되지 않는다. 부가적으로, 단어의 시작부분이 생략되고 있는지의 여부가 판정되면, 이용자의 조작 또는 동작에 의해 입력된 음성 시작 커맨드를 정확하게 수행하고 있는지의 여부는 고려하지 않는다. 따라서, 일본특허공보 제3588929호에서는, 단어의 시작부분에서의 생략은 1음절까지이며, 조용한 환경에서는 단어의 시작부분을 생략하지 않는다. 결과적으로, 버튼을 누르기 전에 음성이 만들어진 경우, 예를 들어, 조용한 분위기에서 2음절 정도의 음성이 생략된 경우에는, 인식 성능의 저하가 방지될 수 없다.
상기 문제에 관하여, 본 발명의 목적은 음성의 시작부분이 누락 또는 생략된 경우에, 간단하고 쉬운 처리로 인식 성능의 저하를 방지하는 방법을 제공하는 것이 다. 그러한 생략은 음성 개시 커맨드가 이용자에 의해 부적절하게 입력된 경우에 발생한다.
본 발명의 일양상은, 이용자 입력에 따라서 이용자가 만들어낸 음성의 취입을 개시하는 단계와, 취입된 음성의 시작부분이 누락되고 있는지의 여부를 판정하는 단계와, 상기 판정 단계의 결과에 기초하여 인식 대상 단어의 발음 정보를 설정하는 단계와, 상기 설정된 발음 정보를 이용하여 취입된 음성을 인식하는 단계를 포함하는 음성 인식 방법이다.
본 발명의 또 다른 양상은, 이용자 입력에 따라서 이용자가 만들어낸 음성의 취입을 개시하는 단계와, 상기 음성의 취입이 상기 이용자가 만들어낸 음성 도중에 개시되는지의 여부를 판정하는 단계와, 상기 판정 단계의 결과에 기초하여 인식 대상 단어의 발음 정보를 설정하는 단계와, 상기 설정된 발음 정보를 이용하여 상기 취입된 음성을 인식하는 단계를 포함하는 음성 인식 방법이다.
본 발명의 또 다른 양상은, 이용자 입력에 따라서 이용자가 만들어낸 음성의 취입을 개시하도록 구성된 음성 취입 유닛과, 상기 취입된 음성의 시작부분이 누락되고 있는지의 여부를 판정하도록 구성된 판정 유닛과, 상기 판정 유닛의 결과에 기초하여 인식 대상 단어에 대한 발음 정보를 설정하도록 구성된 설정 유닛과, 상기 설정된 발음 정보를 이용하여 상기 취입된 음성을 인식하도록 구성된 음성 인식 유닛을 포함하는 음성 인식 장치이다.
본 발명의 또 다른 양상은, 이용자 입력에 따라서 이용자가 만들어낸 음성의 취입을 개시하도록 구성된 음성 취입 유닛과, 상기 음성의 취입이 상기 이용자의 음성 도중에 개시되는지의 여부를 판정하는 판정 유닛과, 상기 판정 유닛의 결과에 기초하여 인식 대상 단어의 발음 정보를 설정하도록 구성된 설정 유닛과, 상기 설정된 발음 정보를 이용하여 상기 취입된 음성을 인식하도록 구성된 음성 인식 유닛을 포함하는 음성 인식 장치이다.
본 발명의 다른 특징들은 첨부 도면을 참조하여 예시적인 실시예에 대한 다음의 상세한 설명으로부터 명백해질 것이다.
명세서에 통합되어 일부를 구성하고 있는 첨부 도면은 본 발명의 예시적인 실시예를 설명하며, 상세한 설명과 함께 본 발명의 원리들을 설명해 줄 것이다.
<실시예>
이하 도면을 참조하여 본 발명의 예시적인 실시예를 상세하게 설명한다.
(제1 실시예)
도 1은 본 발명의 제1 실시예에 따른 음성 인식 장치의 블록도이다. CPU(101)는 ROM(102)에 저장되거나 외부 저장 장치(104)로부터 RAM(103)에 로딩된 제어 프로그램에 따른 음성 인식 장치의 블록도이다. ROM(102)은 각종 파라미터 및 CPU(101)에 의해 실행되는 제어 프로그램을 저장하고 있다. RAM(103)은 각종 제어 기능을 수행할 때의 작업 영역을 제공하며, CPU(101)에 의해 실행되는 제어 프로그램을 저장하고 있다. 도 5의 흐름도에 도시된 방법은, 바람직하게는 CPU(101)에 의해 실행되는 프로그램이며, 이는 ROM(102), RAM(103) 또는 저장 장치(104)에 저장된다.
참조번호 104는 하드디스크, 플로피(등록상표) 디스크, CD-ROM, DVD-ROM, 메모리 카드와 같은 외부 저장 장치를 나타낸다. 외부 저장 장치(104)가 하드디스크인 경우에는, CD-ROM 또는 플로피(등록상표) 디스크 등으로부터 설치된 각종 프로그램을 저장한다. 마이크로폰과 같은 음성 입력 장치(105)는 음성 인식을 수행할 음성을 취입한다. CRT 또는 LCD와 같은 디스플레이 장치(106)는 처리 내용의 설정을 수행하고, 입력 정보를 디스플레이하고, 처리 결과를 출력한다. 버튼, 텐키, 키보드, 마우스 또는 펜과 같은 보조 입력 장치(107)는 이용자가 만들어낸 음성을 취입하기 시작하라는 명령을 제공하는데 사용된다. 스피커와 같은 보조 출력 장치(108)는 음성 인식 결과를 소리(voice)로 확인하는데 이용된다. 버스(109)는 상기 모든 장치들을 접속한다. 인식 대상 음성은 음성 입력 장치(105)를 통해 입력될 수도 있으며, 다른 장치 또는 유닛에 의해 획득될 수도 있다. 다른 장치 또는 유닛에 의해 획득된 대상 음성은 ROM(102), RAM(103), 외부 저장 장치(104) 또는 네트워크를 통해 접속된 외부 장치에 보유된다.
도 2는 음성 인식 방법의 모듈 구성의 블록도이다. 음성 취입 유닛(201)은 음성 입력 장치(105)인 마이크로폰을 통해 입력된 음성을 취입한다. 음성 취입을 개시하라는 명령은 보조 입력 장치(107)의 버튼을 누르는 것과 같은 이용자 조작에 의해 제공된다. 취입된 음성 판정 유닛(202)은 음성 취입 유닛에 의해 취입된 음성의 시작 또는 시작부분이 누락 또는 생략되고 있는지를 판정한다. 발음 정보 설정 유닛(203)은 취입된 음성 판정 유닛(202)의 결과에 기초하여, 대상 단어의 발음 정보를 설정한다. 음성 인식 유닛(204)은 발음 정보 설정 유닛(203)에 의해 설정 된 발음 정보를 이용하여 음성 취입 유닛(201)에 의해 취입된 음성을 인식한다.
도 3은 비등록 음성 또는 화자 독립형 음성(speaker-independent speech)을 인식할 때에 이용되는 일반적인 음성 인식 방법의 모듈의 블록도이다. 음성 입력 유닛(301)은 음성 입력 장치(105)를 통해 입력된 음성을 인식한다. 음성 특징 파라미터 추출 유닛(302)은 음성 입력 유닛(301)에 의해 입력된 음성에 스펙트럼 분석을 수행하여, 특징 파라미터를 추출한다. 발음 사전(305)은 인식 대상 단어의 발음 정보를 보유하고 있다. 음향 모델(306)은 음소 모델(또는 음절 모델 또는 단어 모델)을 보유하고 있으며, 인식 대상 단어의 참조 패턴은 발음 사전(305)의 발음 정보에 따라서 음향 모델을 이용하여 구성된다. 언어 모델(307)은 단어 리스트 및 단어 접속 확률(또는 문법 제약)을 보유한다. 탐색 유닛(303)은 발음 사전(305)으로부터 언어 모델(307)을 이용하여 구성되는 참조 패턴과, 음성 특징 파라미터에 의해 추출 유닛(302)에 의해 얻어지는 음성의 특징 파라미터 간의 거리를 계산한다. 탐색 유닛(303)은 우도(likelihood)를 계산하거나, 탐색 처리를 수행한다. 결과 출력 유닛(304)은 탐색 유닛(303)에 의해 얻어진 결과를 디스플레이 장치(106)에 디스플레이하거나, 그 결과를 보조 출력 장치(108)에 음성으로 출력하거나, 소정의 조작을 수행하기 위해 인식 결과를 출력한다. 발음 정보 설정 유닛(203)에 의한 발음 정보의 설정은 발음 사전(305)의 설정에 대응한다.
도 5는 음성 인식 방법의 전체 처리의 흐름도이다. 흐름도를 이용하여 전체 처리를 상세하게 설명한다. 단계 S501에서, 음성 개시 커맨드 입력을 대기한다. 이 커맨드는 이용자의 조작 또는 동작에 따라서 입력된다. 커맨드 입력은 사용자 로 하여금 예를 들어, 텐키, 키보드 또는 스위치 등의 버튼을 누르거나, 마우스를 클릭하거나, 터치 패널을 누름으로써 음성 개시 명령을 제공하도록 하는 임의의 수단을 이용할 수 있다. 부가적으로, 적외선 센서를 포함하는 광 센서, 촉각 센서, 초음파 센서 등의 센서를 이용하면, 음성 인식 장치에 근접하고 있는 이용자의 동작을 검지할 수 있다. 이러한 이용자 동작이 음성 개시 커맨드로서 간주되면, 센서에 의한 검출을 음성 개시 커맨드로서 이용할 수 있다. 단계 S501에서의 커맨드는 단계 S502의 마이크로폰을 통해 음성 취입을 트리거한다. 단계 S504에서, 취입된 음성의 시작부분이 생략되고 있는지의 여부를 판정하여, 이 판정에 필요한 음성 분석을 단계 S503에서 수행한다.
도 6a 및 도 6b는 음성 개시 커맨드를 입력하는 타이밍 차에 기인한 음성 생략의 개략도이다. 횡축은 시간 눈금이며, 시각 S에서 음성이 시작된다. 도 6a는 음성을 개시하라는 커맨드가 시각 P(P<S)에서 입력되는 경우이다. 시각 P(또는 P 직후)에서 음성 취입이 개시될 수 있기 때문에, 음성은 생략되지 않으며 적절하게 취입된다. 한편, 도 6b는 음성을 개시하라는 커맨드가 시각 Q(S<Q)에서 입력되는 경우이다. 시각 Q(또는 Q 직후)에서 음성 취입이 개시되기 때문에, 음성의 시작부분이 생략된다. 음성 분석 및 음성의 시작부분이 생략되는지의 여부 판정은 다음의 방법으로 수행된다.
음성 분석 및 판정을 수행하기 위한 여러가지 방법이 있다. 쉽고 간편한 한 방법은 취입된 음성 파형(예컨대, 300 샘플)의 헤드 부분을 이용하여 파형 파워를 계산하여, 그 결과를 소정의 임계값과 비교하는 것이다. 그 결과가 임계값을 초과 하는 경우에는, 음성의 시작부분이 생략되고 있는 것이라고 판정될 수 있다. 영교차율, 분석, 스펙트럼 분석 또는 기본 주파수 분석과 같은 다른 분석을 수행함으로써 판정을 행할 수도 있다.
영교차율은 취입된 음성 데이터를 코드(예를 들어, 16비트의 signed short 연산의 경우, -32768과 32767 사이의 값을 취함)로 표현하고, 그 코드가 변화한 횟수를 카운트함으로써 얻어질 수 있다. 이 영교차율은 음성 파형의 헤드 부분에 대해 얻어지며, 그 결과는 상술된 파형 파워인 임계값과 비교된다. 따라서, 음성의 시작부분은 결과가 임계값보다 큰 경우에는 생략되는 것으로, 결과가 임계값보다 작거나 같은 경우에는 생략되지 않는 것으로 판정될 수 있다.
스펙트럼 분석은, 예를 들어 음성 인식 특징 파라미터 추출 유닛(302)의 음성 인식의 특징 파라미터 추출과 동일한 방식으로 수행될 수 있다. 다음으로, 추출된 특징 파라미터를 이용하여 음성 모델과 비음성 모델의 우도(또는 확률)를 획득하여, 음성 모델의 우도가 비음성 모델의 우도보다 크면, 음성이 생략되고 있다고 판정한다. 음성 모델의 우도가 비음성 모델의 우도보다 작은 경우에는, 생략되고 있지 않다고 판정한다. 음성 모델과 비음성 모델은 음성 부분의 특징 파라미터 및 비음성 부분의 특징 파라미터로부터 미리 통계 모델로서 준비되어 있다. 이 모델들은 어떤 기존의 방법, 예를 들면 GMM(Gaussian Mixture Model)에 의해 생성될 수 있다. 또한, 음성 특징 파라미터 추출 유닛(302)의 음성 인식의 특징 파라미터 추출과는 다른 분석에 의해 획득된 다른 스펙트럼을 나타내는 특징 파라미터를 이용한 방법을 이용할 수도 있다.
기본 주파수 분석에 대해서는, 자기 상관 기술(autocorrelation technique) 또는 캡스트럼 기술(Cepstrum technique)과 같은 기존의 분석 기술을 이용할 수 있다. 생략은, 기본 주파수 값을 직접적으로 이용하는 대신에, 주기성에 관련된 값을 이용하여 판정한다. 보다 정확하게는, 예를 들면, 캡스트럼 기술에 기초한 기본 주파수 분석의 경우, 큐프렌시(quefrency)(대수 진폭 스펙트럼의 역이산 푸리에 변환) 시의 계열의 소정의 범위 내(사람의 소리의 피치의 범위 내)의 최대값을 이용할 수 있다. 이 값은 음성 파형의 헤드 부분에 대해 획득되어, 파형 파워의 경우에서와 같이 임계값과 비교된다. 그 값이 임계값보다도 큰 경우에는 음성이 생략된 것으로 판정하고, 그 값이 임계값보다 작은 경우에는 음성이 생략되지 않는 것으로 판정한다. 그 외에도, 기본 주파수 대신에 고조파 구조를 획득하도록 분석을 수행하는 방법을 이용할 수 있으며, 그 결과는 특징 파라미터로서 이용된다.
음성이 단계 S504에서 생략된 것으로 판정되면, 단계 S505에서 생략된 음성의 발음 정보를 설정한다. 이어서, 단계 S506에서 이 발음 정보를 이용하여 음성 인식을 수행한다. 음성이 단계 S504에서 생략되지 않은 것으로 판정되면, 단계 S506에서 통상의 음성 인식을 수행한다. S505에서 수행된 처리를 도 7 내지 도 11을 참조하여 설명한다. S505의 처리시, 인식 대상 단어는 "Tokyo", "Hiroshima", "Tokushima", "Tu"이다. 도 7은 인식 대상 단어의 예이며, 단어 ID, 표기, 발음(음소)의 정보를 유지하고 있다. 발음(음소) 계열("Tokyo"의 경우에는, /t o o k y o o/의 7음소)에 따라서 음향 모델(306)(예를 들어, 음소 HMM)에 접속함으로써 음성 인식 처리의 참조 패턴을 생성한다. 도 8은 제1 음소가 도 7의 발음 정보로부 터 삭제된 경우의 인식 대상 단어를 도시한다. 예를 들면, "Tokyo"의 경우에는, 제1 음소 /t/가 삭제되어, 인식 대상 단어가 /o o k y o o/가 된다. 도 9 및 도 10은 제2 및 제4 음소가 삭제된 경우의 인식 대상 단어를 도시한다. "Tu"의 경우, 발음 계열은 /ts u/의 2음소이다. 그러므로, 2 이상의 음소가 삭제되면 발음 계열이 없어져 버릴 것이다. 이러한 경우에는, 무음 모델(SIL)을 발음 계열로서 할당한다. 부가적으로, 도 10의 "Hiroshima" 및 "Tokushima"의 경우에는, 처음 4개의 음소가 삭제되면, 동일한 발음 계열(/shima/)이 될 것이다. 단계 S504에서 음성이 생략되지 않는 것으로 판정되면, 단계 S506에서 단지 도 7의 대상 단어에 대해서만 음성 인식을 수행한다. 한편, 단계 S504에서 음성이 생략된 것으로 판정되면, 단계 S505에서, 도 7의 인식 대상 단어에 추가하여 도 8 내지 도 10의 대상 단어에 대해서도 음성 인식을 수행한다. 도 8 및 도 10의 대상 단어에서, 발음 계열의 헤드 부분이 삭제되었다. 단계 S503의 음성 분석과 단계 S504의 음성 생략 판정을 수행함으로써, 음성이 생략되고 있는지의 여부가 판정될 수 있다. 그러나, 생략된 음성의 길이 또는 음소의 수를 추정할 수는 없다. 따라서, 추가되어야 할 대상 단어의 삭제된 음소의 적절한 수에 대해 미리 결정할 필요가 있다. 그 수는 경험적으로 설정될 수도 있고, 또는 이용자의 조작 또는 동작에 따라 생략된 음성의 경향을 고려하여 설정될 수도 있으며, 또는 인식 성능을 고려하여 설정될 수도 있다. 제1 내지 제4 음소의 발음 계열이 삭제된 단어의 모든 조합이 인식 대상이 될 수 있다. 이러한 경우, 도 11에 도시된 바와 같은 대산 단어는 음성 생략에 대한 발음 정보와 같이 설정된다.
단계 S503에서의 스펙트럼 분석 또는 기본 주파수 분석은 음성 인식 처리에서의 음성 특징 파라미터 추출과 동일하거나 유사한 처리이다. 그러므로, 이 처리들은 음성 인식 유닛(204)에 포함될 수도 있고, 음성 인식 유닛(204) 내에 구성되어 있는 것으로서 실행될 수도 있다. 도 17은 음성 인식 처리시 취입된 음성 판정 및 발음 정보 설정을 포함하는 음성 인식 방법의 모듈 구성의 블록도이다. 취입된 음성 판정 유닛(202) 및 발음 정보 설정 유닛(203)은 취입된 음성 판정 유닛(603) 및 발음 정보 설정 유닛(604)으로서 도 3의 처리에 각각 포함된다. 음성 입력 유닛(601) 내지 언어 모델(609)은 도 2 및 도 3의 것과 동일한 것이므로, 그 설명은 생략한다.
또한, 음성 분석은 첫 음성 프레임만을 이용하여 단계 S503에서 반드시 수행될 필요는 없으나, 복수 프레임(예를 들면, 처음 5개의 프레임)에 대한 정보가 이용될 수도 있다. 부가적으로, 음성이 생략되고 있는지를 판정하기 위해, 본 발명은 단계 S504에 도시된 바와 같이, 임계값이 비교될 때 소정의 값을 이용하는 것으로 한정되지는 않는다. 예를 들어, 첫 프레임과 10번째 프레임의 파형 파워를 비교하는 등의 다른 처리를 수행할 수도 있다. 이 경우, 첫 프레임의 파형 파워가 10번째 프레임보다 훨씬 작을 경우(예를 들어, 10% 미만일 경우), 어떤 음성 생략도 없는 것으로 판정한다.
단계 S504에, 음성이 생략되고 있는지의 여부를 판정하는 예를 제공했다. 그러나, 본 발명은 이 예에 한정되는 것은 아니고, 음성 취입이 이용자의 음성 도중에 개시되는지의 여부를 판정하도록 구성될 수 있다.
상기 실시예에 따르면, 이용자가 음성 개시 커맨드를 정확한 타이밍에 입력하지 않아도, 인식 성능의 저하를 방지할 수 있다. 결과적으로, 음성 인식 장치를 조작하는데 익숙하지 않은 이용자라도 조작 수행시 쉽게 여길 수 있게 된다.
(제2 실시예)
제1 실시예에서는, 인식 대상 단어의 발음을 음소화하고, 판독을 위한 발음 계열이 삭제되어, 단계 S505에서 그 생략된 음성에 대한 발음 정보를 설정했다. 그러나, 본 발명은 본 실시예에 제한되는 것이 아니다. 인식 대상 단어의 발음을 음소에 비해 보다 상세한 발음 계열을 이용하여 표현할 수 있으며, 그 상세화된 발음 계열을 삭제할 수도 있다. 보다 자세히 말하면, 히든 마르코프 모델(HMM:Hidden Markov Model)에 기초하여 음성 인식을 수행할 때, 음소는 통상적으로 복수의 상태로 모델화된다. 이 상태 계열은 상세화된 발음 계열로 간주되어, 상태 레벨에서 삭제된다. 이러한 방식으로, 음소 레벨에서의 삭제에 비해 보다 정밀하게 발음 정보를 설정할 수 있다. 도 12는 음소/t/가 HMM의 3가지 상태(t1, t2, t 3)로 모델화된 예이다. 도 7의 발음을 그러한 상태 계열로 설명할 경우, 도 13에 도시된 바와 같은 표현이 가능해진다. 이 경우, 도 13의 상태 계열에서 제1 상태 계열을 삭제하면, 도 14를 얻을 수 있다.
도 15a, 도 15b 및 도 15c는 발음(음소) 계열의 삭제와 상태 계열의 삭제의 차이를 설명하는 개략도이다. 모든 음소가 HMM의 3가지 상태로 모델화되는 경우, "Tokyo"의 발음 계열인 /t o o k y o o/는 도 15a에 도시된 바와 같이 HMM의 링크로 표현된다. 제1 음소(/t/)가 삭제되면, 도 15b에 도시된 바와 같이 /t/의 3가지 HMM 상태가 모두 삭제된다. 그러나, "Tokyo"의 상세화된 발음 계열이 HMM의 상태 계열로 표현되면, 도 15c에 도시된 바와 같이 /t/의 HMM의 제1 상태 t1만을 삭제할 수 있다. 즉, 음소 레벨 대신에 상태 레벨이 삭제됨으로써, 보다 상세화된 발음 정보가 설정될 수 있다. 대안으로, 상술된 HMM 대신에 일반적인 상태 천이 모델을 이용하여도 동일한 처리를 수행할 수 있다.
(제3 실시예)
상기 실시예에 따른 발음 정보는 인식 대상 단어가 발음 계열 또는 상세화된 발음 계열로서 표현될 수 있는 경우에 설정될 수 있다. 그러나, 상기 설정은 널리 이용되고 있는 음소 HMM에 기초한 불특정 화자 음성 인식(비등록 요구형의 음성 인식 방법)에도 이용될 수 있다. 보다 구체적으로는, 특정 화자 음성 인식(등록 요구형 음성 인식 방법)에서는 참조 패턴으로부터 음소 또는 상태 계열을 식별할 수 없다. 특정 화자 음성 인식에서는, 음성 인식을 이용하기 전에 참조 패턴이 음성에 의해 등록된다. 따라서, 상기 실시예에서 설명된 방법은 이용할 수 없다. 그러나, 참조 패턴의 특징 파라미터 계열을 직접 이용하면, 생략된 음성에 대한 발음 정보를 설정하는 것이 가능해진다.
도 4는 등록 요구형의 음성 인식 방법의 모듈 구성을 도시한 블록도이다. 음성 입력 유닛(401)에서 결과 출력 유닛(404)까지의 블록들은 음성 입력 유닛(301)에서 결과 출력 유닛(304)까지의 블록과 동일하기 때문에, 이 유닛들의 설명은 생략한다. 인식 대상 단어는 음성에 의해 미리 등록된다. 참조 패턴(405)은 그 등록된 음성의 특징 파라미터 계열로서 보유된다. 12차 켑스트럼과 그 12차 캡 스트럼의 1차 회귀 계수인 델타켑스트럼(c1~c12, Δc1~Δc12)으로 특정 파라미터 계열이 유지되어 있다고 가정한다. 이 경우, "Tokyo"라는 단어에 대한 등록된 음성의 특징 파라미터 계열은, 도 16a(T1은 등록된 음성을 분석할 때의 프레임 수임)에 도시된 바와 같이 참조 패턴 계열(24차원의 벡터 계열)로서 보유된다. 음성이 단계 S504에서 생략되고 있다고 판정되면, 도 16b(첫 프레임이 삭제됨) 또는 도 16c(첫 프레임과 둘째 프레임이 삭제됨)에 도시된 바와 같이, 참조 패턴으로부터 처음 몇개의 프레임이 삭제된다. 그 삭제된 프레임을 포함한 특징 파라미터 계열의 음성 인식에 의해, 음성의 시작부분이 생략된 음성 입력에 대해서도 거의 저하 없이 음성 인식을 수행할 수 있다.
또한, 본 발명의 목적은 상기 실시예의 기능을 실현하는 소프트웨어의 프로그램 코드를 저장하고 있는 저장 매체를 시스템 또는 장치에 공급하고, 그 시스템 또는 장치의 컴퓨터(또는 CPU 또는 MPU)에 의해 저장 매체에 저장된 프로그램 코드를 검색 및 실행함으로써 달성될 수 있다.
이 경우, 저장 매체로부터 판독된 프로그램 코드 자체는 상기 실시예의 기능을 실현하여, 그 프로그램 코드를 저장하는 저장 매체는 본 발명을 구성할 수 있게 된다.
프로그램 코드를 공급하기 위한 저장 매체의 예들로서는, 플렉시블 디스크, 하드디스크, 광 디스크, 광 자기 디스크, CD- ROM, CD-R, 자기 테이프, 불휘발성 메모리 카드 및 ROM을 들 수 있다.
또한, 컴퓨터에 의해 검색된 프로그램 코드를 실행함으로써 상기 실시예의 기능을 실현할 뿐만 아니라, 본 발명은, 컴퓨터에서 가동중인 운영체제(OS)가 그 프로그램 코드의 명령에 따라 실제 처리의 일부 또는 전부를 수행하여, 그 처리가 상기 실시예의 기능들을 실현하는 경우까지도 포함하고 있다.
더구나, 프로그램 코드가 저장 매체로부터 검색되어, 컴퓨터에 삽입된 기능 확장 보드 또는 컴퓨터에 접속된 기능 확장 유닛 내의 메모리에 로딩된 후, 그 기능 확장 보드 또는 기능 확장 유닛 유닛 내의 CPU가 그 프로그램 코드의 명령에 따라 실제 처리의 일부 또는 전부를 수행하여, 그 처리가 상기 실시예의 기능들까지 실현하는 경우까지 포함하고 있다.
본 발명은 하드웨어는 물론 하드웨어와 소프트웨어의 조합에 의해서도 구현될 수 있다.
본 발명을 실시예들을 참조하여 설명하였지만, 본 발명이 기술된 실시예들에만 제한되는 것이 아님을 이해해야 한다. 이하의 청구범위는 실시예들에 대한 모든 변경들, 등가 구조들 및 기능들을 포함하도록 가장 넓게 해석되어야 한다.
본 발명은 음성의 시작부분이 누락 또는 생략되더라도, 간단하고 쉬운 공정으로 음성 인식 성능의 저하를 방지할 수 있다.
Claims (13)
- 음성 인식 방법으로서,이용자 입력에 따라서 이용자가 만들어낸 음성의 취입을 개시하는 단계와;취입된 음성의 시작부분이 누락되고 있는지의 여부를 판정하는 단계와;상기 판정 단계의 결과에 기초하여 인식 대상 단어(target word to be recognized)의 발음 정보를 설정하는 단계와;상기 설정된 발음 정보를 이용하여 취입된 음성을 인식하는 단계를 포함하는 음성 인식 방법.
- 음성 인식 방법으로서,이용자 입력에 따라서 이용자가 만들어낸 음성의 취입을 개시하는 단계와;상기 음성의 취입이 상기 이용자가 만들어낸 음성 도중에 개시되는지의 여부를 판정하는 단계와;상기 판정 단계의 결과에 기초하여 인식 대상 단어의 발음 정보를 설정하는 단계와;상기 설정된 발음 정보를 이용하여 상기 취입된 음성을 인식하는 단계를 포함하는 음성 인식 방법.
- 제1항에 있어서,상기 판정 단계에서의 음성의 시작부분이 누락되고 있는지의 여부의 판정은, 음성 파형의 파워, 영교차율(zero-crossing rate), 스펙트럼 정보 및 고조파 구조를 나타내는 특징 파라미터 중 적어도 하나에 대한 정보를 이용하여 행해지는 음성 인식 방법.
- 제1항에 있어서,상기 발음 정보는 인식 대상 단어의 판독에 관련된 발음 계열(pronunciation sequence), 발음 계열에 관련된 상세 발음 계열, 및 인식 대상 단어에 관련된 참조 패턴 계열 중 적어도 하나인 음성 인식 방법.
- 제4항에 있어서,상기 상세 발음 계열은 상태 천이 모델로 모델화된 발음 계열의 상태 계열인 음성 인식 방법.
- 제4항에 있어서,상기 참조 패턴 계열은 등록 요구형의 음성 인식 장치에서의 등록 음성의 특징 파라미터 계열인 음성 인식 방법.
- 제1항에 있어서,상기 음성을 취입하는 단계는, 이용자의 조작에 따라서 음성의 취입을 개시 하는 음성 인식 방법.
- 제1항에 있어서,상기 음성을 취입하는 단계는, 센서에 의해 검지된 이용자의 동작에 따라서 음성의 취입을 개시하는 음성 인식 방법.
- 컴퓨터로 하여금 제1항 또는 제2항의 음성 인식 방법을 실행하도록 하는 컴퓨터 실행가능 명령을 저장한 컴퓨터 판독가능 매체.
- 음성 인식 장치로서,이용자 입력에 따라서 이용자가 만들어낸 음성의 취입을 개시하도록 구성된 음성 취입 유닛과;상기 취입된 음성의 시작부분이 누락되고 있는지의 여부를 판정하도록 구성된 판정 유닛과;상기 판정 유닛의 결과에 기초하여 인식 대상 단어에 대한 발음 정보를 설정하도록 구성된 설정 유닛과;상기 설정된 발음 정보를 이용하여 상기 취입된 음성을 인식하도록 구성된 음성 인식 유닛을 포함하는 음성 인식 장치.
- 음성 인식 장치로서,이용자 입력에 따라서 이용자가 만들어낸 음성의 취입을 개시하도록 구성된 음성 취입 유닛과;상기 음성의 취입이 상기 이용자의 음성 도중에 개시되는지의 여부를 판정하는 판정 유닛과;상기 판정 유닛의 결과에 기초하여 인식 대상 단어의 발음 정보를 설정하도록 구성된 설정 유닛과;상기 설정된 발음 정보를 이용하여 상기 취입된 음성을 인식하도록 구성된 음성 인식 유닛을 포함하는 음성 인식 장치.
- 제10항에 있어서,상기 판정 유닛에서 상기 음성의 시작부분이 누락되고 있는지의 여부의 판정은, 음성 파형의 파워, 영교차율, 스펙트럼 정보 또는 고조파 구조를 나타내는 특징 파라미터 중 적어도 하나에 대한 정보를 이용하여 행해지는 음성 인식 장치.
- 제10항에 있어서,상기 설정 유닛 내의 발음 정보는, 인식 대상 단어의 판독에 관련된 발음 계열, 발음 계열에 관련된 상세 발음 계열, 및 인식 대상 단어에 관련된 참조 패턴 계열 중 적어도 하나인 음성 인식 장치.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JPJP-P-2005-00065355 | 2005-03-09 | ||
JP2005065355A JP4667082B2 (ja) | 2005-03-09 | 2005-03-09 | 音声認識方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20060097647A true KR20060097647A (ko) | 2006-09-14 |
KR100742888B1 KR100742888B1 (ko) | 2007-07-25 |
Family
ID=36250777
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020060021863A KR100742888B1 (ko) | 2005-03-09 | 2006-03-08 | 음성 인식 방법 |
Country Status (8)
Country | Link |
---|---|
US (1) | US7634401B2 (ko) |
EP (1) | EP1701338B1 (ko) |
JP (1) | JP4667082B2 (ko) |
KR (1) | KR100742888B1 (ko) |
CN (1) | CN100587806C (ko) |
AT (1) | ATE401644T1 (ko) |
DE (1) | DE602006001764D1 (ko) |
ES (1) | ES2310893T3 (ko) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4282704B2 (ja) * | 2006-09-27 | 2009-06-24 | 株式会社東芝 | 音声区間検出装置およびプログラム |
JP4950930B2 (ja) * | 2008-04-03 | 2012-06-13 | 株式会社東芝 | 音声/非音声を判定する装置、方法およびプログラム |
KR20130133629A (ko) | 2012-05-29 | 2013-12-09 | 삼성전자주식회사 | 전자장치에서 음성명령을 실행시키기 위한 장치 및 방법 |
US8577671B1 (en) | 2012-07-20 | 2013-11-05 | Veveo, Inc. | Method of and system for using conversation state information in a conversational interaction system |
US9799328B2 (en) * | 2012-08-03 | 2017-10-24 | Veveo, Inc. | Method for using pauses detected in speech input to assist in interpreting the input during conversational interaction for information retrieval |
CN103971685B (zh) * | 2013-01-30 | 2015-06-10 | 腾讯科技(深圳)有限公司 | 语音命令识别方法和系统 |
PT2994908T (pt) * | 2013-05-07 | 2019-10-18 | Veveo Inc | Interface de entrada incremental de discurso com retorno em tempo real |
US20160063990A1 (en) * | 2014-08-26 | 2016-03-03 | Honeywell International Inc. | Methods and apparatus for interpreting clipped speech using speech recognition |
US9854049B2 (en) | 2015-01-30 | 2017-12-26 | Rovi Guides, Inc. | Systems and methods for resolving ambiguous terms in social chatter based on a user profile |
JP6804909B2 (ja) * | 2016-09-15 | 2020-12-23 | 東芝テック株式会社 | 音声認識装置、音声認識方法及び音声認識プログラム |
JP6972287B2 (ja) * | 2016-09-15 | 2021-11-24 | 東芝テック株式会社 | 音声認識装置、音声認識方法及び音声認識プログラム |
US10283117B2 (en) * | 2017-06-19 | 2019-05-07 | Lenovo (Singapore) Pte. Ltd. | Systems and methods for identification of response cue at peripheral device |
US10586529B2 (en) | 2017-09-14 | 2020-03-10 | International Business Machines Corporation | Processing of speech signal |
JP7092708B2 (ja) * | 2019-05-20 | 2022-06-28 | ヤフー株式会社 | 情報処理プログラム、情報処理装置及び情報処理方法 |
JP7404664B2 (ja) * | 2019-06-07 | 2023-12-26 | ヤマハ株式会社 | 音声処理装置及び音声処理方法 |
US12118984B2 (en) | 2020-11-11 | 2024-10-15 | Rovi Guides, Inc. | Systems and methods to resolve conflicts in conversations |
US11545143B2 (en) | 2021-05-18 | 2023-01-03 | Boris Fridman-Mintz | Recognition or synthesis of human-uttered harmonic sounds |
Family Cites Families (35)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4761815A (en) * | 1981-05-01 | 1988-08-02 | Figgie International, Inc. | Speech recognition system based on word state duration and/or weight |
US4712242A (en) * | 1983-04-13 | 1987-12-08 | Texas Instruments Incorporated | Speaker-independent word recognizer |
US5774851A (en) * | 1985-08-15 | 1998-06-30 | Canon Kabushiki Kaisha | Speech recognition apparatus utilizing utterance length information |
US4882757A (en) * | 1986-04-25 | 1989-11-21 | Texas Instruments Incorporated | Speech recognition system |
JP2882791B2 (ja) * | 1986-10-03 | 1999-04-12 | 株式会社リコー | パターン比較方式 |
JP2829014B2 (ja) | 1989-01-12 | 1998-11-25 | 株式会社東芝 | 音声認識装置及び方法 |
JP2708566B2 (ja) * | 1989-09-06 | 1998-02-04 | 株式会社日立製作所 | 音声認識制御装置 |
DE4031421C2 (de) * | 1989-10-05 | 1995-08-24 | Ricoh Kk | Musteranpassungssystem für eine Spracherkennungseinrichtung |
JP3004749B2 (ja) * | 1990-05-14 | 2000-01-31 | 株式会社リコー | 標準パターン登録方法 |
DE69128990T2 (de) * | 1990-09-07 | 1998-08-27 | Toshiba Kawasaki Kk | Sprecherkennungsvorrichtung |
US5692104A (en) * | 1992-12-31 | 1997-11-25 | Apple Computer, Inc. | Method and apparatus for detecting end points of speech activity |
DE4306508A1 (de) * | 1993-03-03 | 1994-09-08 | Philips Patentverwaltung | Verfahren und Anordnung zum Ermitteln von Wörtern in einem Sprachsignal |
US5765130A (en) * | 1996-05-21 | 1998-06-09 | Applied Language Technologies, Inc. | Method and apparatus for facilitating speech barge-in in connection with voice recognition systems |
US5835890A (en) * | 1996-08-02 | 1998-11-10 | Nippon Telegraph And Telephone Corporation | Method for speaker adaptation of speech models recognition scheme using the method and recording medium having the speech recognition method recorded thereon |
JP3588929B2 (ja) | 1996-08-27 | 2004-11-17 | 日産自動車株式会社 | 音声認識装置 |
US6167374A (en) * | 1997-02-13 | 2000-12-26 | Siemens Information And Communication Networks, Inc. | Signal processing method and system utilizing logical speech boundaries |
EP0867856B1 (fr) | 1997-03-25 | 2005-10-26 | Koninklijke Philips Electronics N.V. | "Méthode et dispositif de detection d'activité vocale" |
JPH10319991A (ja) * | 1997-05-20 | 1998-12-04 | Sony Corp | 電子機器の音声認識起動方法及び装置 |
EP1083545A3 (en) * | 1999-09-09 | 2001-09-26 | Xanavi Informatics Corporation | Voice recognition of proper names in a navigation apparatus |
JP4520555B2 (ja) * | 1999-09-09 | 2010-08-04 | クラリオン株式会社 | 音声認識装置および音声認識ナビゲーション装置 |
US6389394B1 (en) * | 2000-02-09 | 2002-05-14 | Speechworks International, Inc. | Method and apparatus for improved speech recognition by modifying a pronunciation dictionary based on pattern definitions of alternate word pronunciations |
JP4880136B2 (ja) * | 2000-07-10 | 2012-02-22 | パナソニック株式会社 | 音声認識装置および音声認識方法 |
US7277853B1 (en) * | 2001-03-02 | 2007-10-02 | Mindspeed Technologies, Inc. | System and method for a endpoint detection of speech for improved speech recognition in noisy environments |
US7308404B2 (en) * | 2001-09-28 | 2007-12-11 | Sri International | Method and apparatus for speech recognition using a dynamic vocabulary |
JP2003330491A (ja) * | 2002-05-10 | 2003-11-19 | Nec Corp | 音声認識装置および音声認識方法ならびにプログラム |
KR100474253B1 (ko) * | 2002-12-12 | 2005-03-10 | 한국전자통신연구원 | 단어의 첫 자음 발성을 이용한 음성인식 방법 및 이를 저장한 기록 매체 |
US7024360B2 (en) * | 2003-03-17 | 2006-04-04 | Rensselaer Polytechnic Institute | System for reconstruction of symbols in a sequence |
US7343289B2 (en) * | 2003-06-25 | 2008-03-11 | Microsoft Corp. | System and method for audio/video speaker detection |
US20050033571A1 (en) * | 2003-08-07 | 2005-02-10 | Microsoft Corporation | Head mounted multi-sensory audio input system |
CA2473195C (en) * | 2003-07-29 | 2014-02-04 | Microsoft Corporation | Head mounted multi-sensory audio input system |
KR100577387B1 (ko) | 2003-08-06 | 2006-05-10 | 삼성전자주식회사 | 음성 대화 시스템에서의 음성 인식 오류 처리 방법 및 장치 |
JP3890326B2 (ja) * | 2003-11-07 | 2007-03-07 | キヤノン株式会社 | 情報処理装置、情報処理方法ならびに記録媒体、プログラム |
JP4516863B2 (ja) * | 2005-03-11 | 2010-08-04 | 株式会社ケンウッド | 音声合成装置、音声合成方法及びプログラム |
TWI319152B (en) * | 2005-10-04 | 2010-01-01 | Ind Tech Res Inst | Pre-stage detecting system and method for speech recognition |
JP4282704B2 (ja) * | 2006-09-27 | 2009-06-24 | 株式会社東芝 | 音声区間検出装置およびプログラム |
-
2005
- 2005-03-09 JP JP2005065355A patent/JP4667082B2/ja not_active Expired - Fee Related
-
2006
- 2006-02-17 EP EP06250864A patent/EP1701338B1/en not_active Not-in-force
- 2006-02-17 AT AT06250864T patent/ATE401644T1/de not_active IP Right Cessation
- 2006-02-17 ES ES06250864T patent/ES2310893T3/es active Active
- 2006-02-17 DE DE602006001764T patent/DE602006001764D1/de active Active
- 2006-03-06 US US11/368,986 patent/US7634401B2/en not_active Expired - Fee Related
- 2006-03-08 KR KR1020060021863A patent/KR100742888B1/ko not_active IP Right Cessation
- 2006-03-09 CN CN200610057222A patent/CN100587806C/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CN1831939A (zh) | 2006-09-13 |
US7634401B2 (en) | 2009-12-15 |
ES2310893T3 (es) | 2009-01-16 |
ATE401644T1 (de) | 2008-08-15 |
JP2006251147A (ja) | 2006-09-21 |
JP4667082B2 (ja) | 2011-04-06 |
CN100587806C (zh) | 2010-02-03 |
DE602006001764D1 (de) | 2008-08-28 |
EP1701338B1 (en) | 2008-07-16 |
KR100742888B1 (ko) | 2007-07-25 |
EP1701338A1 (en) | 2006-09-13 |
US20060206326A1 (en) | 2006-09-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100742888B1 (ko) | 음성 인식 방법 | |
EP2048655B1 (en) | Context sensitive multi-stage speech recognition | |
JP4237713B2 (ja) | 音声処理装置 | |
JP5200712B2 (ja) | 音声認識装置、音声認識方法及びコンピュータプログラム | |
JP2003316386A (ja) | 音声認識方法および音声認識装置および音声認識プログラム | |
US20070136060A1 (en) | Recognizing entries in lexical lists | |
JP6699748B2 (ja) | 対話装置、対話方法及び対話用コンピュータプログラム | |
JP2018013549A (ja) | 発話内容認識装置 | |
US20030220792A1 (en) | Speech recognition apparatus, speech recognition method, and computer-readable recording medium in which speech recognition program is recorded | |
JP2008052178A (ja) | 音声認識装置と音声認識方法 | |
JP2996019B2 (ja) | 音声認識装置 | |
JP3633254B2 (ja) | 音声認識システムおよびそのプログラムを記録した記録媒体 | |
JP4094255B2 (ja) | コマンド入力機能つきディクテーション装置 | |
JP2003044078A (ja) | 発声速度正規化分析を用いた音声認識装置 | |
JP2010204442A (ja) | 音声認識装置、音声認識方法、音声認識プログラムおよびプログラム記録媒体 | |
JP2011039468A (ja) | 電子辞書で音声認識を用いた単語探索装置及びその方法 | |
JP4749990B2 (ja) | 音声認識装置 | |
KR100404852B1 (ko) | 언어모델적응기능을가진음성인식장치및그제어방법 | |
JP2010230852A (ja) | コマンド認識装置 | |
KR100677224B1 (ko) | 안티워드 모델을 이용한 음성인식 방법 | |
JP2004309654A (ja) | 音声認識装置 | |
JP2008225001A (ja) | 音声認識装置および音声認識方法,音声認識用プログラム | |
JP2008286930A (ja) | 音声対話装置 | |
Koo et al. | The development of automatic speech recognition software for portable devices | |
JP2002140088A (ja) | 音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
G170 | Re-publication after modification of scope of protection [patent] | ||
FPAY | Annual fee payment |
Payment date: 20130626 Year of fee payment: 7 |
|
FPAY | Annual fee payment |
Payment date: 20140625 Year of fee payment: 8 |
|
FPAY | Annual fee payment |
Payment date: 20150625 Year of fee payment: 9 |
|
LAPS | Lapse due to unpaid annual fee |