KR100742408B1 - 화자 종속 음성 인식 방법 및 음성 인식 시스템 - Google Patents
화자 종속 음성 인식 방법 및 음성 인식 시스템 Download PDFInfo
- Publication number
- KR100742408B1 KR100742408B1 KR1020057017953A KR20057017953A KR100742408B1 KR 100742408 B1 KR100742408 B1 KR 100742408B1 KR 1020057017953 A KR1020057017953 A KR 1020057017953A KR 20057017953 A KR20057017953 A KR 20057017953A KR 100742408 B1 KR100742408 B1 KR 100742408B1
- Authority
- KR
- South Korea
- Prior art keywords
- utterance
- speech
- command
- speech recognition
- assigned
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 230000001419 dependent effect Effects 0.000 title claims abstract description 10
- 238000000605 extraction Methods 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 238000004891 communication Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- User Interface Of Digital Computer (AREA)
- Electrically Operated Instructional Devices (AREA)
- Machine Translation (AREA)
- Telephonic Communication Services (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
본 발명은 사용자의 발성들이 학습되는 음성 인식 시스템의 사용을 수반하는 화자 종속 음성 인식 방법에 관한 것이며, 학습된 발성들에는 명령들이 할당된다. 본 발명의 목적은 시간-절약 방식으로 새로운 명령들의 학습(5)을 실행하는 것이다. 이를 위해, 발성이 인식되지 않는 경우(3)에 음성 인식 시스템은 사용자에게 발성을 새로운 명령에 즉시 할당하는(9) 기회를 제공한다.
Description
본 발명은 음성 인식 시스템을 사용하는 화자 종속 음성 인식 방법 및 상기 방법을 수행하기 위한 음성 인식 시스템에 관한 것이며, 상기 음성 시스템에서 사용자의 발성(voice utterance)들은 학습되어(trained) 상기 학습된 발성들에 명령들이 할당된다.
종래기술에 따라, 상기 방법은 음성 인식 모드와 학습 모드로 분할된다. 음성 인식 모드에서는, 사용자의 발성들이 검출되고, 그 결과 상기 발성에 할당된 명령은 발성이 상기 명령에 속하면서 이전에 레코딩되어 저장된 발성과 충분히 일치하는 경우에 데이터베이스 내에서 발견된다. 음성 인식 모드에서는, 새로운 발성과 새로운 명령 간의 새로운 할당은 불가능하다. 대신에, 상기 프로세스들은 사용자가 발성들을 말하고 개별 발성이 레코딩된 후에 각각의 개별 발성에 명령을 할당하는 학습 모드에서 발생한다. 할당된 명령들은 예를 들면, 가입자들에 대한 통신 네트워크로의 다이얼링 프로세스들 또는 음성 제어 명령들이 될 수 있다.
종래기술에 따른 방법은 사용자가 매 시간마다 음성 인식 모드에서 학습 모드로 활발히 스위칭할 필요하기 때문에 상기 새로운 명령들의 학습이 복잡해지는 문제점을 갖는다. 이는 음성 인식 시스템의 시장 도입(a market acceptance)에 악영향을 미친다.
이를 기초로 하여, 본 발명은 화자 종속 음성 인식 방법 및 상기 방법을 위한 음성 인식 시스템을 상술하는 것을 목적으로 하며, 새로운 명령들은 시간이 절약되는 방식으로 학습 될 수 있다.
상기 목적은 전술된 형태의 방법과 관련하여 발성이 인식되지 않는 경우에 음성 인식 시스템이 발성을 새로운 명령에 즉시 할당할 수 있는 기회를 사용자에게 제공하도록함으로써 달성된다.
상기 방법을 실행할 때, 음성 인식 시스템은 항상 음성 인식 모드가 되어야 하지만, 발성이 인식되지 않은 경우에 새로운 명령의 할당을 즉시 수행하기 위해 추가 선택이 가능하다. 상기 방식에서, 새로운 명령들의 학습은 음성 인식 자체에 통합될 수 있고, 발성이 인식되지 않을 때 발생할 수 있다. 만약, 예를 들어 사용자가 음성 인식 시스템을 위해 새로운 명령을 학습하길 원하는 상황이 발생하면, 지금까지 사용되지 않은 발성을 똑똑히 말하는 것으로 충분하며, 그 후에 음성 인식 시스템은 새로운 발성이 인식되지 않았다는 사실을 발견하여 상기 발성을 새로운 명령에 할당하는 추가선택을 제공한다. 할당이 수행된 후에, 명령은 즉시 실행될 수 있다.
바람직한 실시예에서, 음성 인식 시스템에 의해 발성이 인식되지 않는 경우에, 사용자는 선택적으로 발성을 반복하거나 발성에 새로운 명령을 할당한다. 상기 실시예는 발성이 원하는 명령이 이미 할당된 발성에 대하여 유사 범위를 벗어날 수 있다는 것을 고려한다. 상기 경우에, 새로운 발성을 새로운 명령에 할당하도록 의도되지는 않는다. 대신에, 상기 발성은 이미 학습된 명령에 링크되기 위해 반복되어야 한다.
음성 인식 시스템의 초기 상태를 고려하면, 임의의 발성에 어떤 명령도 할당되지 않은 경우에는 음성 인식 시스템이 작동된 후에 즉시 새로운 명령의 학습을 제공하는 방법을 제공하는 것이 바람직하다. 이는 음성 인식 시스템이 제 1 발성을 자연스럽게 인식하지 못하여 새로운 명령을 학습하는 추가 선택을 제공하는 경우에 자동으로 발생한다.
또다른 실시예에서, 만약 음성 인식 시스템에 의해 이미 학습된 명령에 대하여 발성이 인식되지 않은 경우에, 사용자는 상기 명령을 선택하여 상기 명령에 발성을 할당하는 것이 제공될 수 있다. 이는 발성들 및 그와 연관있는 학습된 명령들간의 할당들을 포함하는 데이터 베이스 내에 "불량" 버전의 발성이 존재하여 음성 인식이 자주 실패하는 경우를 말한다. 상기 경우에 이미 학습된 명령에 새로운 발성을 할당하는 것이 가능하다.
발성의 인식을 위해, 발성에 할당되는 음성 패턴이 바람직하게 생성된다. 발성의 본질적인 음성 특징들의 추출을 기초로 하는 음성 패턴들이 상기 경우에 음성 패턴들과 학습된 명령들간의 할당을 포함하는 데이터 베이스 내에서 사용된다. 레코딩이 수행된 후에, 각각의 발성은 음성 패턴으로 변환되고, 상기 음성 패턴은 예를 들어 상기 음성 패턴이 인식가능한지, 즉, 상기 음성 패턴이 데이터 베이스 내의 음성 패턴과 유사 범위 내에 있는지의 여부를 결정하기 위해 추가 처리된다.
이와 관련하여, 명령이 발성에 할당되기 전에, 상기 발성이 명령이 그 발성에 할당되기 이전의 이미 저장된 발성들과 유사한지의 여부를 검사하는 것이 바람직하다. 이는 연관된 발성들이 각각의 경우에 서로 너무 유사하기 때문에 음성 인식 동안 서로 다른 명령들 사이에서 혼동이 발생하는 것을 방지한다. 이를 위해, 예를 들어, 음성 패턴에 대하여 추출된 특징들을 사용하여 허용가능한 유사 범위가 정의된다.
전술된 목적은 음성 인식 시스템과 관련하여 음성의 화자 종속 인식을 위한 음성 인식 시스템에 의해 달성되며, 상기 음성 인식 시스템은 음성 인식 시스템의 사용자의 발성을 레코딩하기 위한 음성 레코딩 장치, 발성들과 명령들간의 할당을 포함하는 데이터 베이스에 접속하여 발성에 할당된 명령을 발견하기 위한 검색 엔진, 발성으로 인해 발견된 명령을 변환하기 위한 변환 장치를 포함하며, 상기 음성 인식 시스템은 발성이 인식되지 않은 경우에 음성 인식 시스템이 발성을 새로운 명령에 즉시 할당할 수 있는 기회를 사용자에게 제공하는 방식으로 설계된다.
상기 음성 인식 시스템은 전술된 방법이 실행되도록 하며, 공지된 음성 인식 시스템들과 비교하여 새로운 명령들의 학습이 음성 인식 모드에서 가능하다는 점에서 구별된다.
음성 레코딩 장치는 바람직하게 발성이 임시로 저장되는 메모리에 접속되며, 상기 메모리는 데이터베이스 내에서 발성들을 판독하기 위해 데이터 베이스에 접속된다. 이는 공지된 음성 인식 시스템들에서는 그렇지않은데, 그 이유는 공지된 음성 인식 시스템의 경우에, 음성 인식 모드에서 발성이 검색 엔진의 동작을 위해 임시로 저장되지만, 그후에 사용된 메모리가 데이터베이스내의 발성을 판독하기 위해 설계/링크되지 않는데 반하여, 데이터 베이스가 학습 모드를 위해 직접 접속되기 때문이다.
바람직하게, 발성으로부터 음성 패턴을 생성하기 위한 특징 추출 장치는 음성 레코딩 장치와 메모리 사이에 제공되며, 음성 패턴은 발성을 대신한다.
음성 인식 시스템의 추가의 장점들 및 특징들은 화자 종속 음성 인식 방법의 설명에 의해 전술된 바 있다.
하기의 내용에서, 본 발명의 예시적인 실시예는 도면을 참조로 하여 더 상세히 설명될 것이다.
도 1은 화자 종속 음성 인식 방법의 흐름도를 도시한다.
음성 인식 시스템에 의한 화자 종속 음성 인식 방법은 도 1을 참조로 하여 설명될 것이다. 예를 들어, 디스플레이 장치를 구비한 컴퓨터 시스템으로서 구현되는 음성 인식 시스템의 시작 후에, 발성의 레코딩을 위한 동작("푸시-투-토크" 동작)을 포함하는 적절한 사용자 인터페이스가 먼저 사용자에게 디스플레이된다. 제 1 단계(1)에서, 사용자/화자의 발성은 적절한 음성 레코딩 장치에 의해 레코딩된다. 제 2 단계(2)에서, 발성의 음성 패턴이 특징 추출 장치에 의해 생성되며, 상기 음성 패턴은 음성 특징들의 추출된 특징의 조합에 의해 정의된다. 음성 패턴은 메모리에 임시로 저장된다.
제 3 단계(3)에서, 검색 엔진은 생성된 음성 패턴이 음성 패턴들과 명령들간의 할당들을 포함하는 데이터베이스에 포함되는지를 질문하기 위해 사용된다. 상 기 데이터베이스에는 음성 인식 시스템의 학습 모드에서의 컨텐츠들이 제공되며, 학습 모드는 음성 인식의 프로세스에 통합된다. 만약 음성 패턴이 데이터베이스 내에 이미 존재하는 것으로 인식되고, 연관된 명령이 발견되면, 상기 명령은 제 4 단계(4)에서 실행되고, 그후에 음성 인식 시스템의 동작 프로세스는 종료한다. 단계(1)로부터 단계(4)까지의 시퀀스는 현재 설명되는 실시예에서 자동적이다.
만약 생성된 음성 패턴이 제 3 단계(3)에서 인식되지 않으면, 사용자는 새로운 명령을 인식되지 않은 음성 패턴 또는 인식되지 않은 발성에 할당할 것인지에 대한 추가선택을 컴퓨터 시스템의 사용자 인터페이스를 통해 수신한다. 이는 방법의 제 5 단계(5)에서 발생한다. 이 시점에서, 만약 새로운 명령의 할당이 요구되거나 자동으로 수행되면, 음성 인식 시스템은 학습 모드로 스위칭된다. 제 5 단계(5)에 대한 대안으로서, 사용자는 사용자 인터페이스의 도움으로 새로운 발성의 레코딩을 트리거하고, 따라서 프로세스는 발성을 반복하기 위해 제 1 단계(1)로 복귀할 수 있다.
만약 인식되지 않은 음성 패턴으로의 새로운 명령의 할당이 선택되면, 제 1 단계로부터의 인식되지 않은 발성에 상응하는 발성이 제 6 단계(6)에서 레코딩된다. 이후에 제 7 단계(7)에서는, 제 6 단계(6)에서 레코딩된 발성으로부터 전술된 제 2 단계(2)에서와 같은 방식으로 음성 패턴이 생성된다.
제 8 단계(8)에서는, 제 7 단계(7)로부터의 새로운 음성 패턴과 제 2 단계(2)로부터의 음성 패턴 사이에 유사도 검사가 수행된다. 만약 두 음성 패턴들 사이에 일치하는 정도가 원하는 대로 획득되지 못하면, 방법은 제 2 단계(2)와 제 7 단계(7)에서 생성된 음성 패턴들의 유사도에 대하여 만족할만한 결과를 획득할 때까지 다시 시작한다. 상기 프로세스 동안 제 3 단계(3) 및 제 5 단계(5)가 스킵될 수 있다.
제 8 단계(8)에서, 새롭게 레코딩된 발성의 음성 패턴이 데이터 베이스 내에 이미 존재하는 음성 패턴들과 비교하여 충분히 구별되는지의 여부를 관찰하기 위해 유사도 검사가 수행된다. 만약, 구별되지 않는다면, 사용자는 새로운 명령에 대한 할당을 위해 다른 발성을 사용하도록 요구될 수 있다. 방법은 상기 새로운 발성을 사용하여 다시 시작한다.
이후에, 제 9 단계(9)에서는, 음성 인식 시스템의 사용자 인터페이스의 도움으로 사용자의 적절한 선택에 의해 제 2 단계(2)에서 생성된 음성 패턴에 명령이 할당된다. 상기 목적을 위해, 제 2 단계(2)에서 임시로 저장되었던 음성 패턴이 메모리로부터 판독되며, 제 7 단계(7)에서 생성된 음성 패턴과 적절히 조합되고(예를 들면, 두 음성 패턴들의 개별 특성을 평균함으로써), 새로운 명령과 함께 데이터 베이스에 기록된다.
최종 단계(10)에서, 새롭게 할당된 명령이 실행되고, 통합된 학습 모드를 사용하는 음성 인식 프로세스가 종료된다.
제 4 단계(4) 및 최종 단계(10)에서 발생된 명령의 실행은 상기 명령을 변환하기 위한 변환 장치의 도움으로 수행되는 것이 강조되어야 한다. 상기 명령은 예를 들어, 통신 네트워크 내에서 전화번호의 다이얼링 또는 네트워크에 접속된 장치들을 제어하는 음성 명령이 될 수 있다.
본 발명의 간략한 실시예에서, 선행하는 단계들(6 내지 8)의 수행은 명령이 제 9 단계(9)에 따라 할당되는 경우에는 생략될 수 있다. 상기 방식에서, 명령들은 제 5 단계(5)에서의 질문 이후에 즉시 할당된다. 또한, 상기 방법의 수행 동안 새롭게 학습된 명령의 즉각적인 실행(제 10단계(10))이 면제될 수 있다.
Claims (20)
- 사용자의 발성(voice utterance)들이 학습되어 상기 학습된 발성들에 명령들이 할당되는 음성 인식 시스템을 통한 화자 종속 음성 인식 방법으로서,발성이 인식되지 않은 경우에, 상기 음성 인식 시스템은 상기 발성을 새로운 명령에 즉시 할당할 수 있는 기회를 상기 사용자에게 제공하는 것을 특징으로 하는 화자 종속 음성 인식 방법.
- 제 1항에 있어서, 상기 음성 인식 시스템에 의해 상기 발성이 인식되지 않은 경우에, 상기 사용자가 선택적으로 상기 발성을 반복하거나 상기 발성에 새로운 명령을 할당할 수 있는 것을 특징으로 하는 화자 종속 음성 인식 방법.
- 제 1항 또는 제 2항에 있어서,임의의 발성에 아직 어떤 명령도 할당되지 않은 경우에, 상기 음성 인식 시스템이 작동된 후에 새로운 명령의 학습을 제공하는 것을 특징으로 하는 화자 종속 음성 인식 방법.
- 제 1항 또는 제 2항에 있어서,상기 음성 인식 시스템에 의해 이미 학습된 명령에 대하여 발성이 인식되지 않은 경우에, 상기 사용자는 상기 명령을 선택하여 발성을 상기 명령에 할당할 수 있는 것을 특징으로 하는 화자 종속 음성 인식 방법.
- 제 1항 또는 제 2항에 있어서,발성의 인식을 위해, 상기 발성에 할당되는 음성 패턴이 생성되는 것을 특징으로 하는 화자 종속 음성 인식 방법.
- 제 1항 또는 제 2항에 있어서,명령이 발성에 할당되기 전에, 상기 발성이 이전에 저장된 발성들과 유사한지의 여부를 결정하는 검사가 수행되는 것을 특징으로 하는 화자 종속 음성 인식 방법.
- 음성 인식 시스템의 사용자의 발성을 레코딩하기 위한 음성 레코딩 장치,상기 발성에 할당된 명령을 찾기 위해 상기 발성들과 명령들 간의 할당을 포함하는 데이터베이스에 액세스하도록 설계된 검색 엔진, 및상기 발성으로 인해 찾아진 상기 명령을 변환하기 위한 변환 장치를 포함하는,화자 종속 음성 인식을 위한 음성 인식 시스템으로서,상기 음성 인식 시스템은 상기 발성이 인식되지 않는 경우에, 상기 음성 인식 시스템이 상기 발성을 새로운 명령에 즉시 할당할 수 있는 기회를 상기 사용자에게 제공하는 방식으로 설계되는 것을 특징으로 하는 음성 인식 시스템.
- 제 7항에 있어서, 상기 음성 레코딩 장치는 상기 발성이 임시로 저장된 메모리에 접속되고, 상기 메모리는 상기 데이터베이스에 접속되어 상기 데이터베이스 내에서 상기 발성을 판독하는 것을 특징으로 하는 음성 인식 시스템.
- 제 7항 또는 제 8항에 있어서, 상기 발성으로부터 음성 패턴을 생성하기 위한 특징 추출 장치가 상기 음성 레코딩 장치와 상기 메모리 사이에 제공되며, 상기 음성 패턴은 상기 발성을 대신하는 것을 특징으로 하는 음성 인식 시스템.
- 제 3항에 있어서,상기 음성 인식 시스템에 의해 이미 학습된 명령에 대하여 발성이 인식되지 않은 경우에, 상기 사용자는 상기 명령을 선택하여 상기 발성을 상기 명령에 할당할 수 있는 것을 특징으로 하는 화자 종속 음성 인식 방법.
- 제 3항에 있어서,발성의 인식을 위해, 음성 패턴이 생성되어 상기 발성에 할당되는 것을 특징으로 하는 화자 종속 음성 인식 방법.
- 제 4항에 있어서,발성의 인식을 위해, 음성 패턴이 생성되어 상기 발성에 할당되는 것을 특징으로 하는 화자 종속 음성 인식 방법.
- 제 10항에 있어서,발성의 인식을 위해, 음성 패턴이 생성되어 상기 발성에 할당되는 것을 특징으로 하는 화자 종속 음성 인식 방법.
- 제 3항에 있어서,명령이 발성에 할당되기 전에, 상기 발성이 이전에 저장된 발성들과 유사한지의 여부를 결정하는 검사가 수행되는 것을 특징으로 하는 화자 종속 음성 인식 방법.
- 제 4항에 있어서,명령이 발성에 할당되기 전에, 상기 발성이 이전에 저장된 발성들과 유사한지의 여부를 결정하는 검사가 수행되는 것을 특징으로 하는 화자 종속 음성 인식 방법.
- 제 10항에 있어서,명령이 발성에 할당되기 전에, 상기 발성이 이전에 저장된 발성들과 유사한지의 여부를 결정하는 검사가 수행되는 것을 특징으로 하는 화자 종속 음성 인식 방법.
- 제 5항에 있어서,명령이 발성에 할당되기 전에, 상기 발성이 이전에 저장된 발성들과 유사한지의 여부를 결정하는 검사가 수행되는 것을 특징으로 하는 화자 종속 음성 인식 방법.
- 제 11항에 있어서,명령이 발성에 할당되기 전에, 상기 발성이 이전에 저장된 발성들과 유사한지의 여부를 결정하는 검사가 수행되는 것을 특징으로 하는 화자 종속 음성 인식 방법.
- 제 12항에 있어서,명령이 발성에 할당되기 전에, 상기 발성이 이전에 저장된 발성들과 유사한지의 여부를 결정하는 검사가 수행되는 것을 특징으로 하는 화자 종속 음성 인식 방법.
- 제 13항에 있어서,명령이 발성에 할당되기 전에, 상기 발성이 이전에 저장된 발성들과 유사한지의 여부를 결정하는 검사가 수행되는 것을 특징으로 하는 화자 종속 음성 인식 방법.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE10313310.0 | 2003-03-25 | ||
DE10313310A DE10313310A1 (de) | 2003-03-25 | 2003-03-25 | Verfahren zur sprecherabhängigen Spracherkennung und Spracherkennungssystem dafür |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20060014369A KR20060014369A (ko) | 2006-02-15 |
KR100742408B1 true KR100742408B1 (ko) | 2007-07-24 |
Family
ID=33015971
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020057017953A KR100742408B1 (ko) | 2003-03-25 | 2004-03-03 | 화자 종속 음성 인식 방법 및 음성 인식 시스템 |
Country Status (8)
Country | Link |
---|---|
US (1) | US7835913B2 (ko) |
EP (1) | EP1606794B1 (ko) |
JP (2) | JP4437119B2 (ko) |
KR (1) | KR100742408B1 (ko) |
CN (1) | CN100559464C (ko) |
DE (2) | DE10313310A1 (ko) |
ES (1) | ES2278308T3 (ko) |
WO (1) | WO2004086360A1 (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101427528B1 (ko) | 2013-06-10 | 2014-08-07 | 이장호 | 외국어 동영상 컨텐츠를 이용한 대화형 외국어 학습 방법 및 그것을 위한 장치 |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4639094B2 (ja) * | 2005-02-04 | 2011-02-23 | 株式会社日立製作所 | 音声認識システム、音声認識装置及び音声認識プログラム |
US7697827B2 (en) * | 2005-10-17 | 2010-04-13 | Konicek Jeffrey C | User-friendlier interfaces for a camera |
DE602007004620D1 (de) | 2007-10-01 | 2010-03-18 | Harman Becker Automotive Sys | Sprachgesteuerte Einstellung von Fahrzeugteilen |
US8374872B2 (en) * | 2008-11-04 | 2013-02-12 | Verizon Patent And Licensing Inc. | Dynamic update of grammar for interactive voice response |
KR101556594B1 (ko) * | 2009-01-14 | 2015-10-01 | 삼성전자 주식회사 | 신호처리장치 및 신호처리장치에서의 음성 인식 방법 |
US8977547B2 (en) * | 2009-01-30 | 2015-03-10 | Mitsubishi Electric Corporation | Voice recognition system for registration of stable utterances |
CN102347060A (zh) * | 2010-08-04 | 2012-02-08 | 鸿富锦精密工业(深圳)有限公司 | 电子记录装置及方法 |
CN102682767B (zh) * | 2011-03-18 | 2015-04-08 | 株式公司Cs | 一种应用于家庭网络的语音识别方法 |
US8818810B2 (en) | 2011-12-29 | 2014-08-26 | Robert Bosch Gmbh | Speaker verification in a health monitoring system |
KR101284594B1 (ko) * | 2012-10-26 | 2013-07-10 | 삼성전자주식회사 | 영상처리장치 및 그 제어방법, 영상처리 시스템 |
CN104238379B (zh) * | 2013-06-07 | 2017-07-28 | 艾默生过程控制流量技术有限公司 | 变送器、现场仪表以及用于控制变送器的方法 |
TWI536366B (zh) * | 2014-03-18 | 2016-06-01 | 財團法人工業技術研究院 | 新增口說語彙的語音辨識系統與方法及電腦可讀取媒體 |
KR102371697B1 (ko) * | 2015-02-11 | 2022-03-08 | 삼성전자주식회사 | 음성 기능 운용 방법 및 이를 지원하는 전자 장치 |
DE102018103965A1 (de) * | 2018-02-22 | 2019-08-22 | Schuler Pressen Gmbh | Verfahren zur Mensch-Maschine-Kommunikation mittels einer Mensch-Maschine-Schnittstelle und Vorrichtung hierfür |
RU2744063C1 (ru) | 2018-12-18 | 2021-03-02 | Общество С Ограниченной Ответственностью "Яндекс" | Способ и система определения говорящего пользователя управляемого голосом устройства |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5774841A (en) | 1995-09-20 | 1998-06-30 | The United States Of America As Represented By The Adminstrator Of The National Aeronautics And Space Administration | Real-time reconfigurable adaptive speech recognition command and control apparatus and method |
KR20000047589A (ko) * | 1998-12-16 | 2000-07-25 | 포만 제프리 엘 | 음성 커맨드 인식 컴퓨터 시스템에서 디스플레이 상에피드백을 제시하는 방법 및 장치 |
KR20010060005A (ko) * | 1999-12-31 | 2001-07-06 | 이계철 | 가우시안 확률밀도 표현 방법 및 그를 얻기 위한 음성인식 훈련 방법 |
Family Cites Families (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5764800A (en) * | 1980-10-09 | 1982-04-20 | Sanyo Electric Co | Voice recognizing device |
JPS57102699A (en) | 1980-12-18 | 1982-06-25 | Matsushita Electric Ind Co Ltd | Voice recognizer |
JPS584198A (ja) | 1981-06-30 | 1983-01-11 | 株式会社日立製作所 | 音声認識装置における標準パタ−ン登録方式 |
JPS61133996A (ja) * | 1984-12-05 | 1986-06-21 | 株式会社リコー | 音声認識装置 |
JPS62206596A (ja) * | 1986-03-07 | 1987-09-11 | 株式会社東芝 | 音声認識システム |
JP2838848B2 (ja) * | 1989-02-10 | 1998-12-16 | 株式会社リコー | 標準パターン登録方式 |
JPH07109560B2 (ja) * | 1990-11-30 | 1995-11-22 | 富士通テン株式会社 | 音声認識装置 |
JP3314481B2 (ja) * | 1993-10-12 | 2002-08-12 | 松下電器産業株式会社 | 構内交換電話装置 |
JPH0749697A (ja) * | 1994-06-03 | 1995-02-21 | Fujitsu Ten Ltd | 音声認識装置 |
US5852801A (en) * | 1995-10-04 | 1998-12-22 | Apple Computer, Inc. | Method and apparatus for automatically invoking a new word module for unrecognized user input |
US5719921A (en) * | 1996-02-29 | 1998-02-17 | Nynex Science & Technology | Methods and apparatus for activating telephone services in response to speech |
US5832429A (en) * | 1996-09-11 | 1998-11-03 | Texas Instruments Incorporated | Method and system for enrolling addresses in a speech recognition database |
US6295391B1 (en) * | 1998-02-19 | 2001-09-25 | Hewlett-Packard Company | Automatic data routing via voice command annotation |
DE19825760A1 (de) * | 1998-06-09 | 1999-12-16 | Nokia Mobile Phones Ltd | Verfahren zum Zuweisen einer auswählbaren Möglichkeit zu einem Stellmittel |
JP2000029585A (ja) * | 1998-07-08 | 2000-01-28 | Canon Inc | 音声コマンド認識画像処理装置 |
US6185530B1 (en) * | 1998-08-14 | 2001-02-06 | International Business Machines Corporation | Apparatus and methods for identifying potential acoustic confusibility among words in a speech recognition system |
US6208972B1 (en) * | 1998-12-23 | 2001-03-27 | Richard Grant | Method for integrating computer processes with an interface controlled by voice actuated grammars |
JP2000259172A (ja) | 1999-03-11 | 2000-09-22 | Canon Inc | 音声認識装置と音声データの認識方法 |
US6487530B1 (en) * | 1999-03-30 | 2002-11-26 | Nortel Networks Limited | Method for recognizing non-standard and standard speech by speaker independent and speaker dependent word models |
US6327566B1 (en) * | 1999-06-16 | 2001-12-04 | International Business Machines Corporation | Method and apparatus for correcting misinterpreted voice commands in a speech recognition system |
JP4314680B2 (ja) * | 1999-07-27 | 2009-08-19 | ソニー株式会社 | 音声認識制御システム及び音声認識制御方法 |
DE19942869A1 (de) | 1999-09-08 | 2001-03-15 | Volkswagen Ag | Verfahren und Einrichtung zum Betrieb einer sprachgesteuerten Einrichtung bei Kraftfahrzeugen |
US6587824B1 (en) * | 2000-05-04 | 2003-07-01 | Visteon Global Technologies, Inc. | Selective speaker adaptation for an in-vehicle speech recognition system |
DE10122828A1 (de) * | 2001-05-11 | 2002-11-14 | Philips Corp Intellectual Pty | Verfahren zum Training oder zur Adaption eines Spracherkenners |
JP2003241790A (ja) * | 2002-02-13 | 2003-08-29 | Internatl Business Mach Corp <Ibm> | 音声コマンド処理システム、コンピュータ装置、音声コマンド処理方法およびプログラム |
-
2003
- 2003-03-25 DE DE10313310A patent/DE10313310A1/de not_active Ceased
-
2004
- 2004-03-03 US US10/550,481 patent/US7835913B2/en not_active Expired - Fee Related
- 2004-03-03 WO PCT/EP2004/002137 patent/WO2004086360A1/de active IP Right Grant
- 2004-03-03 KR KR1020057017953A patent/KR100742408B1/ko not_active IP Right Cessation
- 2004-03-03 DE DE502004002300T patent/DE502004002300D1/de not_active Expired - Lifetime
- 2004-03-03 CN CNB2004800078941A patent/CN100559464C/zh not_active Expired - Fee Related
- 2004-03-03 EP EP04716578A patent/EP1606794B1/de not_active Expired - Lifetime
- 2004-03-03 JP JP2005518261A patent/JP4437119B2/ja not_active Expired - Fee Related
- 2004-03-03 ES ES04716578T patent/ES2278308T3/es not_active Expired - Lifetime
-
2009
- 2009-06-24 JP JP2009149711A patent/JP2009211103A/ja active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5774841A (en) | 1995-09-20 | 1998-06-30 | The United States Of America As Represented By The Adminstrator Of The National Aeronautics And Space Administration | Real-time reconfigurable adaptive speech recognition command and control apparatus and method |
KR20000047589A (ko) * | 1998-12-16 | 2000-07-25 | 포만 제프리 엘 | 음성 커맨드 인식 컴퓨터 시스템에서 디스플레이 상에피드백을 제시하는 방법 및 장치 |
KR20010060005A (ko) * | 1999-12-31 | 2001-07-06 | 이계철 | 가우시안 확률밀도 표현 방법 및 그를 얻기 위한 음성인식 훈련 방법 |
Non-Patent Citations (1)
Title |
---|
EUROSPEECH 1999 pp.927-930 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101427528B1 (ko) | 2013-06-10 | 2014-08-07 | 이장호 | 외국어 동영상 컨텐츠를 이용한 대화형 외국어 학습 방법 및 그것을 위한 장치 |
WO2014200223A1 (ko) * | 2013-06-10 | 2014-12-18 | Lee Jang Ho | 외국어 동영상 컨텐츠를 이용한 대화형 외국어 학습 방법 및 그것을 위한 장치 |
Also Published As
Publication number | Publication date |
---|---|
CN1764943A (zh) | 2006-04-26 |
KR20060014369A (ko) | 2006-02-15 |
ES2278308T3 (es) | 2007-08-01 |
EP1606794A1 (de) | 2005-12-21 |
JP4437119B2 (ja) | 2010-03-24 |
DE502004002300D1 (de) | 2007-01-25 |
US20070100632A1 (en) | 2007-05-03 |
DE10313310A1 (de) | 2004-10-21 |
US7835913B2 (en) | 2010-11-16 |
JP2006514753A (ja) | 2006-05-11 |
EP1606794B1 (de) | 2006-12-13 |
WO2004086360A1 (de) | 2004-10-07 |
JP2009211103A (ja) | 2009-09-17 |
CN100559464C (zh) | 2009-11-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100742408B1 (ko) | 화자 종속 음성 인식 방법 및 음성 인식 시스템 | |
CN1249667C (zh) | 声控服务 | |
US7072834B2 (en) | Adapting to adverse acoustic environment in speech processing using playback training data | |
KR100976643B1 (ko) | 자동 음성 인식 시스템용 적응형 콘텍스트 | |
US20060215821A1 (en) | Voice nametag audio feedback for dialing a telephone call | |
US8428944B2 (en) | System and method for performing compensated speech recognition | |
JP2001509285A (ja) | 話者依存及び話者非依存音声認識を用いた多局ネットワークの音声制御された機能を作動する方法及び装置 | |
US5752230A (en) | Method and apparatus for identifying names with a speech recognition program | |
WO2000068933A1 (en) | Adaptation of a speech recognition system across multiple remote sessions with a speaker | |
US20070203701A1 (en) | Communication Device Having Speaker Independent Speech Recognition | |
US20080033724A1 (en) | Method for generating a context-based voice dialogue output in a voice dialog system | |
US6243677B1 (en) | Method of out of vocabulary word rejection | |
US20150310853A1 (en) | Systems and methods for speech artifact compensation in speech recognition systems | |
US7881932B2 (en) | VoiceXML language extension for natively supporting voice enrolled grammars | |
US7844459B2 (en) | Method for creating a speech database for a target vocabulary in order to train a speech recognition system | |
US20010056345A1 (en) | Method and system for speech recognition of the alphabet | |
CN109767775A (zh) | 语音控制方法、装置和空调 | |
CN1217314C (zh) | 由有限的用户圈用语音控制启动可在设备内执行的动作的方法 | |
US7587322B2 (en) | Robust speech recognition with data bank accession organized by semantic attribute | |
EP1185976B1 (en) | Speech recognition device with reference transformation means | |
JP2000509836A (ja) | 自動言語認識 | |
JP4741777B2 (ja) | データベースのエントリを決定する方法 | |
JP2003177788A (ja) | 音声対話システムおよびその方法 | |
JPWO2019030810A1 (ja) | 音声認識装置および音声認識方法 | |
US20060080097A1 (en) | Voice acknowledgement independent of a speaker while dialling by name |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20120614 Year of fee payment: 6 |
|
FPAY | Annual fee payment |
Payment date: 20130618 Year of fee payment: 7 |
|
LAPS | Lapse due to unpaid annual fee |