KR20080107376A - 화자 독립 음성 인식을 구비한 통신 장치 - Google Patents

화자 독립 음성 인식을 구비한 통신 장치 Download PDF

Info

Publication number
KR20080107376A
KR20080107376A KR1020087020244A KR20087020244A KR20080107376A KR 20080107376 A KR20080107376 A KR 20080107376A KR 1020087020244 A KR1020087020244 A KR 1020087020244A KR 20087020244 A KR20087020244 A KR 20087020244A KR 20080107376 A KR20080107376 A KR 20080107376A
Authority
KR
South Korea
Prior art keywords
feature vector
vector
likelihood
phonological
representative feature
Prior art date
Application number
KR1020087020244A
Other languages
English (en)
Inventor
디트마르 루비쉬
Original Assignee
인텔렉츄얼 벤처스 펀드 21 엘엘씨
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 인텔렉츄얼 벤처스 펀드 21 엘엘씨 filed Critical 인텔렉츄얼 벤처스 펀드 21 엘엘씨
Publication of KR20080107376A publication Critical patent/KR20080107376A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/12Speech classification or search using dynamic programming techniques, e.g. dynamic time warping [DTW]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/26Devices for calling a subscriber
    • H04M1/27Devices whereby a plurality of signals may be stored simultaneously
    • H04M1/271Devices whereby a plurality of signals may be stored simultaneously controlled by voice recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Telephonic Communication Services (AREA)
  • Telephone Function (AREA)

Abstract

보이스 다이얼링 기능을 갖는 통신 장치의 음성 인식을 수행하기 위한 기술이 제공된다. 음성 인식 모드의 보이스 입력 수신시, 입력 특징 벡터는 보이스 입력으로부터 발생된다. 또한, 음운 단위의 발성 시간의 우도를 나타내는 입력 특징 벡터로부터 우도 벡터 시퀀스가 계산된다. 워핑 동작에서, 우도 벡터 시퀀스는 음운 단어 모델에 비교되고, 단어 모델 매치 우도는 그 단어 모델로부터 계산된다. 최상의 단어 모델의 결정 후, 최상의 매칭 단어 모델로부터 합성된 이름에 대응하는 전화번호가 다이얼링 동작에서 다이얼링된다.

Description

화자 독립 음성 인식을 구비한 통신 장치{COMMUNICATION DEVICE HAVING SPEAKER INDEPENDENT SPEECH RECOGNITION}
본 출원은 본 명세서에서 그 전체가 참조로서 인용되는 2006년 2월 14일 출원된 미국 가출원 제60/773,577호를 35 U.S.C. §119(e) 하에서 우선권 주장한다.
본 명세서에서 설명하는 기술은 일반적으로 통신 장치 및 이와 같은 통신 장치의 화자 독립 음성 인식 기술에 관한 것이다.
이동 전화기에는 자동 핸즈 프리 다이얼링과 같은 특별한 기능이 수행되도록 하는 화자 독립 이름 다이얼링 기능이 구비되어 왔다. 이동 전화기 환경에서, 음성 인식을 이용하는 핸즈 프리 다이얼링은 사용자가 운전 중에 착신자의 이름 또는 전화번호를 말함으로써 전화를 걸 수 있도록 하는데 특히 유용하다. 이동 전화기는 사용자의 음성을 음성 인식 수단에 의해 추가 처리되는 특징 데이터로 변환한다. 사용자에 의해 발성된 착신자의 이름 또는 전화번호를 인식하기 위하여, 이와 같은 이동 전화기는 인식될 이름 또는 전화번호의 발음(utterance)에 대한 사전 훈련을 요구한다. 통상적으로, 사용자 음성의 특징 데이터는 등록 또는 훈련 프로세스 동안에 사용자에 의해 미리 기록된 이름들에 대응하는 미리 저장된 특징 데이터의 상이한 세트들에 비교된다. 매치되는 기록이 발견되면, 이름에 대응하는 전화번호가 이동 전화기에 의해 자동으로 다이얼링된다.
종래에는, 보이스(voice) 인식 기능을 갖는 이동 전화기를 이용하여 보이스 다이얼링을 하기 전에, 인식되어야 할 이름들의 발음이 등록 프로세스 동안에 사전 훈련되어야한다. 훈련 단계에서, 사용자는 인식될 이름 및 명령을 발성해야 하고, 이동 전화기에 의해 대응 발음이 기록되고 저장된다. 통상적으로, 사용자는 음성 인식 수단이 원하는 이름 또는 명령의 상이한 기록된 발음 샘플들로부터 오디오 특징 데이터를 발생하게 하기 위해서는 원하는 이름 및 명령을 수차례 발성해야 한다. 이러한 인식 프로세스의 훈련 단계는 사용자에게는 매우 불편하고, 따라서 보이스 다이얼링 특징은 대부분의 사용자들에 의해 매우 만족스럽게 수용되지는 못한다.
인식 프로세스에서 이전에 훈련되지 않았던 이름을 가진 새로운 사람의 전화 번호는, 이러한 이름에 대한 오디오 특징 데이터가 기록되고 저장되지 않았기 때문에 보이스 다이얼링될 수 없다는 것이 추가 단점으로 밝혀졌다. 따라서, 이러한 이름에 대해 등록 프로세스가 다시 한번 수행되어야 하고, 이는 사용자에게 상당한 수고를 요한다.
보이스 다이얼링 기능성을 갖는 이와 같은 이동 전화기의 잡음 일관성(noise consistency)이 그다지 높지 않다는 것이 추가로 밝혀졌다. 이는 사용자가 자동차 운전 중에 보이스 다이얼링 통화를 시도할 때 이동 전화기의 주변이 매우 시끄럽다는 것이 문제이다.
훈련 단계에서 기록 및 저장된 미리 기록된 특징 데이터가 특정 사용자의 발 음에 대응하기 때문에, 보이스 다이얼링 동안 음성 인식 프로세스에서의 특징 비교는 화자/사용자 의존적이다. 이동 전화기에 의해 특징 데이터가 미리 기록된 이름이 다른 후속 사용자에 의해 발성된다면, 인식 속도는 상당히 느릴 것이다. 또한 이러한 경우, 후속 사용자에 의해 발성된 새로 기록된 이름의 발음이 등록된 후에, 원래의 사용자가 그 이름을 발성하는 경우, 전화기는 이름을 인식하지 못할 것이다.
사용자의 추가 불편 사항은, 훈련 단계 동안 잡음에 의해 영향을 덜 받는 발성된 이름의 특징 데이터를 발생시키기 위해서는 이동 전화기 주변이 저잡음 레벨에 있어야 한다는 것이 요구된다는 것이다. 그러나, 등록 및 인식 프로세스 동안의 상이한 잡음 레벨에 기인하여, 이동 전화기의 알려진 잡음 일관성은 상당히 낮고, 인식 실패 또는 인식 에러가 야기될 수 있다. 이는 원하지 않는 상대에게 전화가 걸리거나 또는 과도한 발음 불인식(non-recognition)을 야기할 수 있다.
예컨대, 이동 전화기, 셀룰러 폰, 스마트 폰 등과 같이 핸즈 프리 보이스 다이얼링 기능을 갖는 통신 장치의 향상된 음성 인식을 수행하는 장치 및 방법이 제공된다. 일부 실시예에서, 통신 장치는 음성 인식 모드를 제공한다. 음성 인식 모드에서, 원하는 착신자의 이름, 전화번호, 또는 전화 명령과 같은 사용자의 입력 음성은 특징 데이터로 변환된다. 특징 데이터로부터 우도 벡터(likelihood vector) 시퀀스가 얻어진다. 각각의 우도 벡터의 성분은 사용자의 입력 음성에 대응하여 음운(phonetic) 단위의 발음이 발생할 우도(가능성)를 나타낸다. 우도 벡터의 시퀀스는 다수의 음운 단어 모델들과 비교된다. 음운 단어 모델은 전화번호부 또는 전화 명령의 엔트리들에 대응하고, 음운 단위와 같은 단어 하위-모델의 샘플들이다. 우도 벡터 시퀀스와 음운 단어 모델들을 비교함으로써 워핑(warping) 기술이 적용될 수 있다. 워핑 동작의 결과로서, 음운 단어 모델에 대한 단어 모델 매치 우도가 계산되고, 입력 음성과 가장 유사한 단어 모델(본 명세서에서는 "최상의 매칭 단어 모델"로 언급됨)이 결정된다. 그 다음, 인식된 이름, 번호, 또는 전화 명령은 최상의 매칭 단어 모델로부터 합성된다. 이름, 번호, 또는 전화 명령이 합성된 후, 몇몇 애플리케이션에서는 대응 번호를 다이얼링하거나 또는 대응 명령을 수행하는 자동 다이얼링 동작이 수행될 수 있다. 입력 특징 데이터로부터의 우도 벡터 시퀀스의 직접적인 계산, 및 예컨대 통신 장치의 엔트리들로부터 획득되는 음운 단어 모델과 우도 벡터 시퀀스와의 비교는 믿을 수 있고 효과적인 음성 인식을 제공한다.
또한, 적용된 음성 인식에서, 인식되어야할 이름에 대한 미리 기록되고 미리 저장된 특징 데이터는 필요하지 않다. 대응하는 이름이 이용 가능하다면, 보이스 다이얼링 기능을 이용하여 많은 새로운 전화번호부 엔트리가 다이얼링될 수 있다. 예를 들어, 대응하는 이름은 음운 단어 모델을 얻을 수 있는 서면 형태로 이용 가능할 수도 있다.
도 1은 일 실시예에 따라 음성 인식을 수행하는 장치의 블럭도이다.
도 2는 일 실시예에 따른 통신 장치의 음성 인식 프로세스를 도시한 흐름도이다.
도 3, 4a, 4b, 및 5는 다양한 실시예에 따라 통신 장치의 음성 인식 프로세스에서 수행된 동작을 더 상세히 도시한 흐름도이다.
도 6 및 7은 다양한 실시예에 따라 음성 인식 프로세스를 수행하도록 구성된 통신 장치의 블럭도이다.
기술되는 실시예(들) 및 "일 실시예", "하나의 실시예", "일례의 실시예" 등에 대한 본 명세서의 참조는, 기술되는 실시예(들)이 특정한 특징, 구조, 또는 특성을 포함할 수 있지만, 모든 실시예들이 그러한 특정한 특징, 구조, 또는 특성을 반드시 포함할 필요는 없다는 것을 나타낸다. 또한, 이와 같은 문구들은 반드시 동일한 실시예를 언급하는 것은 아니다. 또한, 특정한 특징, 구조, 또는 특성이 실시예와 연관되어 기술될 때, 명확하게 기술되거나 또는 그렇지 않은 다른 실시예들과 연관되어 이와 같은 특징, 구조, 또는 특성을 초래하는 것은 당업자의 지식 범위에 속한다는 것이 이해된다.
이제 다양한 실시예들을 첨부한 도면들을 참조하여 기술할 것이다. 아래의 설명에서, 잘 알려진 기능 또는 구성들에 대한 불필요한 상세한 설명으로 본 발명의 본질이 흐려질 수 있기 때문에, 그러한 잘 알려진 기능 또는 구성에 대해서는 상세히 설명하지 않겠다.
일부 실시예에서, 사용자 및 음운 단어 모델에 의해 발성된 발음의 매치 우도를 최대화하기 위하여 워핑 동작이 수행된다. 단어 모델은, 예컨대 원하는 착신자의 이름, 번호, 또는 전화 명령과 같은 인식되어야할 단어의 음운 표시이다. 일 반적으로, 단어 모델들은 단어 하위 모델들로 분리되고, 각각의 단어 하위 모델은 단어 모델에서의 자신의 위치로 특정된다.
워핑 동작의 일부 실시예에서, 단어 모델에 대한 단어 모델 매치 우도는, 단어 모델 벡터의 시퀀스를 포함하는 단어 모델에 대해 입력 음성에 대응하는 우도 벡터의 시퀀스를 연속적으로 워핑함으로써 계산된다. 단어 모델 벡터의 성분은 각각의 단어 모델 위치에서 특정 하위 모델을 찾을 기대치를 나타낸다.
일례에서, 워핑 동작에 의해, 우도 벡터에 대한 단어 모델 벡터의 할당이 달성된다. 우도 벡터와 할당된 단어 모델 벡터의 스칼라 곱들의 합은 최대화되지만, 단어 모델 벡터뿐만 아니라 우도 벡터 양자 모두의 순차적 순서는 유지된다. 고려중인 각각의 단어에 대해, 이러한 최대화된 스칼라 벡터 합이 단어 모델 매치 우도로서 계산된다. 이름 또는 명령으로부터의 최상의 매칭 단어 모델에 대응하는 가장 높은 단어 모델 매치 우도가 종합되어, 음성 인식 결과가 획득된다.
인식 프로세스에서 이용되는 우도 벡터들은, 대응하는 특징 데이터의 입력 음성에서 음운 단위가 발성되었던 이러한 음운 단위에 대한 우도의 표시로서 이해될 수 있다. 우도 벡터의 계산을 위해, 음운 단어 모델의 하위 모델로서 제공되는 음운 단위의 우도 분포를 포함하는 음성 언어의 특정한 내적 표시가 이용될 수 있다.
일부 실시예에서, 음운 우도 분포는 현재의 화자 및 주변 잡음의 특성에 관하여 업데이트될 수 있다.
일부 실시예에서, 보이스 다이얼링 기능을 갖는 통신 장치가 제공되고, 이 통신 장치는 화자 독립 음성 인식을 수행한다.
일부 실시예에서, 컴퓨터 프로그램 및 메모리 장치가 제공되는데, 이들은 통신 장치상에서 실행될 때, 통신 장치가 예컨대 통신 장치의 핸즈 프리 보이스 다이얼링 기능을 가능하게 하는 화자 독립 음성 인식을 수행하게 하는 컴퓨터 프로그램 코드를 포함한다.
일부 실시예에서, 음성 인식 기술은 음향적으로 전송된 음성 신호를 인식하기 위해 이용된다. 이러한 음성 신호는, 예컨대 음성 인식을 수행하는 방법을 수행하거나 또는 음성 인식을 수행하는 장치를 포함하는 핸즈 프리 보이스 다이얼링 기능을 갖는 이동 전화기와 같은 통신 장치의 인접한 엔드유저로부터 온다. 음성 인식은 또한 통신 장치를 제어하기 위하여 이용될 수도 있다. 예를 들어, 음성 인식 기술은 한정된 처리 전력이 이용 가능한 상황에서 통신 장치의 기능을 제어하는데 이용될 수 있다. 음성 인식 기술은 또한 예컨대 자동차 장치, 유사 윈도우 윈더(window winder) 장치, 무선 수신기 장치, 네비게이션 시스템의 장치, 이동 전화기 장치, 또는 심지어 자동차 스스로 제어하기 위한 장치와 같은 장치의 기능을 제어하기 위해 이용될 수 있다.
도 1을 참조하면, 도면 부호 100은 이동 전화기 또는 셀룰러 폰과 같은 통신 장치의 일부로서 음성 인식을 수행하는 장치를 표시한다. 무선 주파수(RF) 컴포넌트, 듀얼 톤 멀티-주파수(DTMF; dual tone multi-frequency) 컴포넌트 등과 같은 종래의 전화기들에서 통상 발견되는 추가 기능의 블럭들은 표시의 간결함을 위해 도면에서 생략되었다. 동작시에, 마이크로폰(10)을 통한 아날로그 보이스 신호 입 력은, 예컨대 아날로그 대 디지털(A/D) 변환기 및 펄스 코드 변조기(PCM)(양자 모두 도시 안됨)에 의해 디지털 보이스 입력 신호로 변환된다. 이러한 디지털 입력 신호는 보코더(20)에 전달된다.
마이크로프로세서와 같은 제어기(40)는 통신 장치의 기본 동작을 제어하고, 예컨대 음성 인식 모드로 들어가는 제어 기능 또는 음성 인식 결정 후 및/또는 사용자 요청시에 인식될 이름에 대응하는 번호를 다이얼링하는 제어 기능을 수행한다.
예를 들어, 보이스 인식 모드(즉, 음성 인식 모드)를 활성화하기 위하여 버튼(도 1에 도시 안됨)을 누른 후, 제어기(40)는 통신 장치를 보이스 인식 모드에 둔다. 그 다음, 보코더(20)에 의해 디지털 입력 신호가 처리되는데, 보코더(20)는 디지털 입력 신호를 동일한 길이의 부분들로 나누고 프레임이라 불리는 이러한 부분들로부터 스펙트럼 특징 데이터를 추출한다. 스펙트럼 특징 데이터는 입력 특징 벡터로서 언급되는 로그 성분 또는 비-로그 성분을 갖는 스펙트럼 특징 벡터로 변환된다. 예로서, 특징 데이터는 초당 200 바이트일 수 있고 스펙트럼 또는 켑스트럼 파라미터, 신호 진폭 및/또는 진폭 변화, 또는 이들의 조합으로 표시될 수 있다. 이와 같은 특징 추출 기술은 종래 기술에 잘 알려져 있다. 따라서, 특징 데이터가 디지털 입력 음성으로부터 추출되고 입력 특징 벡터로 변환되는 방법에 대한 상세한 설명은 본 명세서에서는 생략하겠다.
원하는 착신자의 이름, 번호, 또는 전화 명령과 같은 통신 장치에 의해 인식될 단어들은 전화번호부(90)에 저장된다. 전화번호부(90)는 플래시 메모리 또는 EEPROM 등과 같은 비휘발성 메모리 또는 가입자 인터페이스 모듈(SIM) 카드에서 구현될 수 있다. 전화번호부는 통상적으로 이동국 시리얼 넘버 및 통신 장치의 제조를 표시하는 코드 등을 포함하는 메모리 저장 가입자 정보를 포함한다. 일례에서, 비휘발성 메모리는 인식될 단어의 하위 모델로서 제공되는 알파벳 문자의 음소 또는 음운 표시와 같은 음운 단위의 우도 분포를 포함하는 음성 언어의 특정한 내적 표시를 포함한다. 우도 분포의 계산은 아래에서 더 설명된다. 간단히 말해, 우도 분포는 주어진 특징 벡터에 대응하는 발음에서, 음운 단위가 발성될 우도를 계산하기 위한 파라미터화(parameterization)로서 이용되는 특징 공간의 통계 분포를 나타낸다.
제어기(40)는 아래에서 추가 설명되는 자소 대 음소(G2P; grapheme to phoneme) 번역을 이용함으로써 인식될 단어들로부터 음운 단어 모델을 생성한다. 통신 장치의 사용자 동작 동안에 적용되는 다양한 임시 데이터를 저장하기 위한, 예컨대, RAM과 같은 휘발성 메모리이거나 또는 전화번호부(90)를 저장하는 것과 유사한 비휘발성 메모리일 수 있는 제1 메모리(50)에 음운 단어 모델들이 저장될 수 있다.
음운 단어 모델들은 음소와 같은, 선택된 언어의 단어 하위 모델(즉, 음운 단위)로 구성된다. 따라서, 각각의 단어 모델 벡터가 각각의 단어 모델 위치에서 각각의 음운 단위를 발견할 기대치를 나타내는 성분들을 포함하는 단어 모델 벡터의 시퀀스로서 음운 단어 모델이 정의될 수 있다. 도 1에서 볼 수 있는 바와 같이, 2개의 단어 모델 벡터 시퀀스(51 및 52)가 예시로서 제1 메모리(50)에 도시된다.
음성 인식 모드에서, 선택된 언어의 내적 표시의 우도 분포에 기초하여 각각의 입력 특징 벡터에 대해 대응하는 우도 벡터가 계산된다. 우도 벡터의 성분은, 특징 데이터 프레임에서, 각각의 음운 단위가 발성될 우도를 나타낸다. 따라서, 각각의 우도 벡터의 차원은 선택된 언어에서 사용되는 음운 단위의 수에 대응한다.
음성 인식은 음성 인식 컴포넌트(30)에 의해 수행된다. 음성 인식 컴포넌트(30)는 보코더(20)로부터 입력된 특징 벡터로부터 우도 벡터의 시퀀스를 계산하는 우도 벡터 계산 컴포넌트(60)를 포함한다. 우도 벡터 계산 컴포넌트(60)로부터 출력된 우도 벡터 시퀀스는 음성 인식 컴포넌트(30)의 워퍼(warper)(70)에 전달된다. 워퍼(70)는 제1 메모리(50)에 의해 하나씩 순차적으로 이용 가능한 단어 모델 벡터 시퀀스(51, 51)로 우도 벡터 시퀀스(61)를 워핑한다. 워핑 프로세스의 결과는 우도 벡터에 대한 단어 모델 벡터의 할당이다. 이는 우도 벡터와 할당된 단어 모델 벡터의 스칼라 곱들의 합이 최대화되도록 행해질 수 있다. 또한, 단어 모델 벡터뿐만 아니라 우도 벡터 양자 모두의 순차적 순서는 유지된다. 이후, 최대화된 스칼라 벡터 합은 고려중인 각각의 단어(즉, 음운 단어 모델)에 대해 계산된다. 가장 큰 합이 최상의 매칭 단어에 대응하고, 스칼라 벡터 합의 값은 단어 모델의 매칭 순위를 나타낸다.
워퍼에 의한 워핑 프로세스의 원리는 각각의 단어 모델에 대해 단어 모델 매치 우도가 최대화되는 것이다. 일례로서, 이는 2개의 이웃한 위치에서 행해진다. 워핑 기술에 따라, 일정한 시간 간격에 관련된 일련의 매칭 우도 벡터들이 각각의 단어 모델의 하위 모델 벡터에 비교된다. 이러한 하위 모델 벡터들 각각은 각각의 단어 모델의 각각의 단어 하위 모델의 그 위치에서의 존재 또는 비존재를 의미할 수 있다. 따라서, 특정 위치에서의 하위 모델 벡터의 단일 성분은 그 위치에서 단어 모델의 특정 단어 하위 모델에 대한 기대치를 나타내는 것으로 이해될 수 있다. 최적의 프로세스에서, 인접한 단어 하위 모델들의 매치 우도는 그 위치 또는 그 옆 위치의 단어 하위 모델에 할당될 시간 프레임의 우도 벡터에 대하여 이러한 인접한 단어 하위 모델들 간의 경계를 옮김으로써 최대화된다.
우도 벡터 시퀀스에 대한 최상의 매칭 단어 모델을 결정하는데 사용되는 적용된 워핑 기술에 대한 추가의 상세한 설명은, 본 명세서에서 그 전부가 참조로서 인용되는 동일 출원인의 유럽 특허 출원(EP 02012336.0, 2002년 6월 4일 출원) "음성 인식 방법 및 시스템"에 제공된다.
추가로, 또는 대안으로서, 음성 인식 장치(30)는 인식된 이름 또는 명령으로서 최상의 매칭 단어 모델로부터의 이름을 합성하는 합성기(도 1에 도시 안됨)를 포함할 수 있다. 그 다음, 이러한 인식된 이름은 사용자에게 음성 인식이 완료되었음을 알려주기 위하여 출력될 수 있다. 예를 들어, 인식된 이름의 합성된 보이스 데이터는 보코더(20)에 공급되어, PCM 신호로 변환된 다음 디지털 대 아날로그(D/A) 변환기(도 1에 도시안됨)에 제공된다. D/A 변환기에서 아날로그 신호로의 PCM 신호의 변환 후, 신호는 가청신호로 증폭되고 확성기(15)를 통해 출력될 수 있다. 따라서, 예컨대 사용자가 통신 장치(100)의 음성 인식 모드에서 착신자의 이름을 발음하고, 음성 인식 장치(30)가 그 이름을 전화번호부(90)에 있는 이름의 음운 단어 모델에 대응하는 이름으로 인식할 때, 이와 같은 인식이 사용자에게 보고된 다. 예를 들어, 이러한 보고는 인식된 이름을 재생함으로써 행해질 수 있다. 그 다음, 제어기(40)는 자동 다이얼링을 수행하거나 또는 다이얼링을 진행하기 전에 사용자에 의한 구두확인(verbal confirmation) 명령(예컨대 "다이얼" 또는 "예") 또는 버튼 누름을 대기할 수 있다.
일부 실시예에서, 우도 벡터 계산 컴포넌트(60), 워퍼(70), 및 가능한 경우 합성기를 갖는 음성 인식 장치(30)는 한 세트의 하드웨어 소자, 예컨대 제어기(40)와 같은 마이크로프로세서상에서 구동되는 소프트웨어 프로그램, 또는 하드웨어와 소프트웨어의 조합을 통해 구현될 수 있다. 소프트웨어로 구현될 때, 음성 인식의 기능은 도 1에 도시된 바와 같은 별도의 회로 컴포넌트를 필요로 하지 않고 SIM 카드와 같은 비휘발성 메모리 내에 포함될 수 있다.
도 2를 참조하면, 보이스 다이얼링 기능을 갖는 통신 장치의 음성 인식 프로세스(200)가 도시된다. 블럭(210)에서, 예컨대 통신 장치(100)와 같은 통신 장치상의 키 또는 버튼을 누름으로써 음성 인식 모드로 들어간다. 예를 들어, 사용자는 음성 인식 모드로 들어가기 위하여 통신 장치상의 적당한 키를 누를 수 있다. 이러한 키 입력은 예컨대 통신 장치(100)의 제어기(40)에 의해 검출되고, 제어기(40)는 음성 인식 모드로 들어간다.
블럭(220)에서, 최근에 기록된 입력 특징 데이터의 입력 특징 벡터로부터 우도 벡터 시퀀스가 발생된다. 우도 벡터 시퀀스를 발생하기 위하여 선택된 언어의 음운 단위의 우도 분포가 이용된다. 예를 들어, 현재의 사용자의 국적에 기초하여 언어가 선택될 수 있다. 우도 분포를 제공하는 언어의 특정한 내적 표시는 통신 장 치 상의 스위칭 후에 이동 통신 링크를 통해 서비스 제공자로부터 통신 장치로 전송될 수 있다.
블럭(230)에서, 우도 벡터 시퀀스를 단어 모델 벡터의 시퀀스에 대해 워핑함으로써 우도 벡터 시퀀스가 음운 단어 모델에 비교된다. 음운 단어 모델은 통신 장치의 전화번호부에 있는 이름들의 서면 표시(written representation)로부터 얻을 수 있다. 예를 들어, 이는 선택된 언어의 음운 단위에 기초한 자소 대 음소 번역을 이용하여 행해질 수 있다.
워핑 동작의 결과로서, 최상의 매칭 단어 모델, 또는 최상의 매칭 단어 모델의 리스트가 결정된다. 이러한 최상의 매칭 단어 모델에 대응하는 이름들은 음향 출력을 위해 이러한 이름들을 합성하거나 또는 통신 장치의 내장된 디스플레이 장치상에 하나 이상의 이름들을 가능성 있는 순서대로의 디스플레이함으로써 표시된다. 그 다음, 사용자는 예컨대 버튼을 누르거나 또는 보이스 명령을 발음함으로써 인식된 이름을 선택할 수 있다. 이는 통신 장치가 인식된 이름에 대응하는 번호를 다이얼링하도록 허용한다.
도 3에는 우도 분포가 주변 잡음 레벨과 현재의 사용자의 개인적 화자 특성에 관하여 업데이트되는 프로세스(300)가 도시된다. 통신 장치의 주변 잡음 및 현재 화자의 특성은 도 3을 참조하여 설명되는 바와 같이, 우도 분포를 업데이트하는데 사용되는 추가의 특징 벡터를 도입함으로써 고려될 수 있다. 주변 잡음을 표시하는 하나의 벡터를 잡음 특징 벡터라 하고, 현재의 화자의 특성을 표시하는 다른 벡터를 화자 특성 적응 벡터라 한다. 이러한 벡터 모두는 아래에 도 4a, 4b, 5를 참조하여 더 설명되는 바와 같이 음성의 내적 표시에 영향을 준다.
블럭(310)에서, 입력 특징 벡터들은 상술한 바와 같이, 음성 인식 모드의 보이스 입력으로부터 발생된다. 또한, 입력 특징 벡터 발생과 유사한 방식으로, 잡음 특징 벡터 또한 블럭(310)에서 발생된다. 잡음 특징 벡터들은 입력 특징 벡터와 동일한 스펙트럼 특성들을 가질 수 있고, 잡음 입력에 속하고 보이스 입력에는 속하지 않는 입력 특징 데이터 프레임으로부터 발생된다. 보이스와 잡음 간의 구별은 상이한 기준에 기초할 수 있다. 제한을 두려는 것이 아닌 예시로서의 한가지 기준은, 음성 인식 모드로 들어간 후에, 사용자가 보이스 입력을 발성하지 않는 것이다. 추가로, 또는 대안으로서, 무선 수신기 또는 음악 재생기가 스위치 오프되었을 때 음성 인식 모드로 들어간 이후와 음성 메시지 이전에 기록되는 잡음 입력으로부터 잡음 특징 벡터가 계산될 수 있다. 예를 들어, 통신 장치에 의해 출력될 수 있는 보이스 메시지는 "통화를 원하시면 이름을 말하여 주십시오"일 수 있다. 다른 가능한 기준은, 보이스 또는 잡음 입력의 통상적인 분포에 기초하여 현재의 입력 벡터가 입력 특징 벡터인지 또는 잡음 특징 벡터인지를 판단하기 위한 입력 특징 벡터의 스펙트럼 전력 분포의 평가일 수 있다.
하나의 실시예에 따라, 현재의 사용자에 의해 발성된 대응하는 보이스 입력으로부터 발생된 입력 특징 벡터가 제공되고, 화자 특성 적응 벡터가 이용될 수 있다. 화자 특성 적응 벡터가 이용 가능하지 않다면, 디폴트 특성 적응 벡터가 이용될 수 있다. 일례에서, 디폴트 특성 적응 벡터의 모든 성분은 0이다. 다른 예에서, 통신 장치는 현재의 사용자에 대한 화자 특성 적응 벡터가 저장되고, 그 다음 사용 될 수 있는 SIM 카드와 같은 비휘발성 메모리를 포함한다.
일부 실시예에서, 몇몇 화자 특성 적응 벡터들이 통신 장치에 저장되거나 또는 서비스 제공자로부터 예컨대 이동 통신 링크를 통해 요청될 수 있다. 이러한 경우, 사용자는 이와 같은 벡터의 리스트로부터 가장 적합한 화자 특성 적응 벡터를 선택할 수 있다. 예를 들어, 이러한 리스트는 강한 액센트 등을 갖거나 또는 갖지 않는 남성 및 여성 사용자들에 대한 벡터를 포함할 수 있다.
화자 특성 적응 벡터뿐만 아니라 잡음 특징 벡터 모두는 입력 특징 벡터와 동일한 차원 및 스펙트럼 특성들을 갖는 스펙트럼 벡터일 수 있다.
블럭(320)에서, 우도 분포를 현재의 주변 잡음 레벨 및 현재 사용자의 음운 특성에 적응시킴으로써 우도 분포가 업데이트된다. 인식 속도를 향상시키기 위하여 한 벡터의 우도 벡터와 동일한 벡터의 특징 벡터의 성분 값들이 변경되는 방식으로 잡음 특징 벡터 및 화자 특성 적응 벡터가 우도 분포를 변경할 수 있다. 업데이트 동작은 아래에서 더 기술된다.
블럭(330)에서, 우도 벡터 시퀀스는 업데이트된 우도 분포에 기초하여 현재의 입력 특징 벡터로부터 발생된다: 블럭(340)에서, 예컨대 상기 설명한 바와 같은 워핑 동작이 수행된다. 동작중에 결정된 최상의 매칭 단어 모델에 기초하여, 프로세스(300)는 블럭(350)으로 진행된다. 블럭(350)에서, 최상의 매칭 단어 모델에 대응하는 이름을 선택함으로써 인식 결과가 결정된다.
다른 경로로, 프로세스(300)는 블럭(340)으로부터 현재의 화자 특성 적응 벡터가 계산되는 블럭(360)으로 분기된다. 이러한 계산 동작은 (워핑 기술에 관하여 참조되는 상기 계류중인 특허 출원뿐만 아니라 도 1을 참조하여 상술된) 워핑 동작에 의하여 수행된 우도 벡터에 대한 각각의 단어 모델 벡터의 할당에 기초하여 행해진다. 그 다음, 후속하는 인식 사이클에서 우도 분포를 업데이트하기 위하여 새로 계산된 화자 특징 적응 벡터가 이용될 수 있다.
일례에서, 우도 분포의 업데이트 동작(프로세스 300의 블럭 320)이 도 4a 및 4b를 참조하여 더 상세히 설명된다. 통신 장치(100)의 전화번호부(90)는 선택된 언어에 요구되는 음운 단위(음소)의 대표 특징 벡터를 포함한다. 이러한 대표 특징 벡터는 상술한 입력 특징 벡터와 동일한 차원 및 스펙트럼 특성들을 갖는 스펙트럼 벡터이다(이와 관련하여, 여기서 "동일한 스펙트럼 특성들"이란, 이러한 벡터들의 동일한 위치상의 성분들이 동일한 주파수 범위의 특징을 나타내고, 유사한 진폭 참조 시스템으로 측정된다는 것을 의미한다).
음운 단위의 대표 특징 벡터는 각각의 음소를 나타내는 보이스 샘플들로부터 무잡음 환경에서 먼저 기록될 수 있다. 예로서, 각각의 음소에 대해서는 100개의 대표 벡터의 세트가 충분할 수 있고, 언어는 통상 50보다 많지 않은 상이한 음소들을 요구한다. 따라서, 선택된 언어의 내적 표시를 정의하기 위해서는 약 5,000개의 대표 특징 벡터면 충분할 수 있다.
도 4a를 참조하면, 프로세스(400a)에서는 하나 이상의 화자 특성 적응 벡터(420A)가 언어의 특정 음소(410)의 대표 특징 벡터와 연산동작(415)에서 곱해진다. 일부 실시예에서, 곱셈 연산(415)은 대표 특징 벡터(410)를 화자 특성 적응 벡터(420A)와 믹스하기 위한 믹서같이 기능한다. 일례에서, 제1 변경된 대표 특징 벡 터로 불리는 제1 믹싱 연산동작(415)의 결과는 훨씬 더 많이 변경된 대표 특징 벡터를 생성하기 위하여 화자 특성 적응 벡터(420A)와 다시 믹스될 수 있다. 연산동작(435)에서, 잡음 특징 벡터는 제1 변경된 대표 특징 벡터 또는 더 변경된 대표 특징 벡터 각각에 가산된다. 잡음 특징 벡터는 한 세트의 잡음 특징 벡터(430)로부터의 무작위 샘플이거나 또는 잡음 특징 벡터(430)의 평균에 기초한 무작위 샘플일 수 있다. 잡음 특징 벡터의 평균이란, 연산동작(435)에서 잡음 특징 벡터(430)로서 이용되는 평균화된 잡음 특징 벡터를 생성하기 위하여 이용 가능한 잡음 특징 벡터들 중 적어도 일부 벡터의 성분이 평균화된 것을 의미한다. 그 다음 블럭(440)에서, 음운 단위의 우도 분포를 계산하기 위하여 계산된 제2의 변경된 대표 특징 벡터가 이용된다. 이러한 계산으로부터의 결과는 잡음 및 화자 정정된 우도 분포(450)이다.
도 4b를 참조하면, 사용자가 명령 또는 원하는 착신자의 이름을 발성하기 전, 한 세트의 잡음 특징 벡터(430)를 생성하기 위하여 주변 잡음이 기록되고 처리되는 프로세스(400b)가 도시되어 있다. 대표 특징 벡터(410)와 같이, 잡음 특징 벡터(430)는 비-로그 성분을 갖는 스펙트럼 벡터일 수 있다. 대표 특징 벡터(410)와 잡음 특징 벡터(430)의 각각의 성분을 더함으로써, 대표 특징 벡터(410) 각각은 잡음 특징 벡터(430)들 중 하나와 합산된다. 예를 들어, 대표 특징 벡터(410)의 각각의 성분은 잡음 특징 벡터의 세트로부터 무작위로 선택된 잡음 특징 벡터(430)들 중 하나의 벡터의 각각의 성분과 합산된다. 다른 예로서, 대표 특징 벡터(410)의 각각의 성분은 평균화된 잡음 특징 벡터의 각각의 성분과 합산된다. 합 벡터의 각 각의 성분의 로그는 연산동작(425)에서 취해지고, 이러한 합 벡터는 블럭(426)에서 로그화된다. 이러한 로그 합 벡터는 로그 성분을 갖는 화자 특성 적응 벡터(420B)와 연산동작(427)에서 결합된다. 결과적으로, 한 세트의 변경된 로그 대표 특징 벡터들이 계산된다. 블럭(440)에서, 로그 특징 공간에서의 음소의 통계 분포는, 예컨대 다차원 가우스 맞춤(Gauss fit)을 이용함으로써 파라미터화를 통해 변경된 로그 대표 특징 벡터로부터 계산된다. 가우스 분포가 작은 세트의 파라미터, 즉 특징 공간의 각각의 차원의 예상 값 및 표준 편차에 의해 잡음 및 화자 정정된 음운 우도 분포를 모델링할 수 있다고 가정한다. 이러한 파라미터화는 우도 벡터, 또는 입력 특징 벡터와 같은 임의의 주어진 로그 특징 벡터가 그로부터 계산될 수 있는 업데이트된 음운 우도 분포라고도 불리는 업데이트된 잡음 및 화자 정정된 음운 우도 분포들(450)을 나타낸다. 그 다음, 이렇게 업데이트된 음운 우도 분포(450)는 추가 음성 인식 프로세스에서 사용될 수 있다.
잡음 및 화자 정정된 우도 분포는 한 세트의 잡음 정정된 대표 특징 벡터 및 화자 정정된 대표 특징 벡터로서 고려될 수 있고, 한 세트의 잡음 정정된 대표 특징 벡터 및 화자 정정된 대표 특징 벡터의 각각의 대표 특징 벡터는 각각의 음운 단위에 대응한다. 이러한 대표 특징 벡터들은 상술한 바와 같이, 각각의 음소에 대한 100개의 대표 특징 벡터와 같이 하나의 특정한 음운 단위에 대한 복수의 대표 특징 벡터에 대해 평균화된다.
도 5를 참조하면, 프로세스(500)는 화자 특성 적응 벡터의 계산을 도시한다. 도 4a의 흐름도 400A 또는 도 4b의 흐름도 400B에 따른 우도 분포의 계산에 따라, 화자 특성 적응 벡터는 비-로그 특징 벡터(420A) 또는 로그 특징 벡터(420B)의 형태로 계산될 수 있다. 인식 사이클 후에, 예컨대, 워핑 동작으로부터의 결과로서, 우도 벡터에 대한 최상의 매칭 단어 하위 모델의 할당은 화자 특성 적응 벡터를 업데이트하기 위해 사용된다. 각각의 우도 벡터가 각각의 입력 특징 벡터에 대응할 수 있기 때문에, 최상의 매칭 단어 하위 모델은 또한 이러한 대응하는 입력 특징 벡터에 할당될 수 있다. 이는 최상의 매칭 단어 하위 모델이 워핑 결과로서 그 각각에 할당되는 입력 특징 벡터에 따라 보이스 입력 발음이 세그먼트들로 분할될 수 있다는 것을 의미한다. 바꿔 말하면, 블럭(510)에서, 음운 단위는 이전에 처리된 보이스 입력의 각각의 입력 특징 벡터에 할당된다. 차이 연산(530)에서, 할당된 음운 단위의 분포의 중심과 앞서 언급한 입력 특징 벡터에 대응하는 우도 벡터의 분포의 중심 사이의 값에 기초하여 차이 벡터가 각각의 입력 특징 벡터에 대해 계산된다. 차이 벡터는 워핑 결과의 음운 단위에 할당된 입력 특징 벡터의 각각의 성분과 각각의 음운 단위의 대표 특징 벡터의 각각의 성분 사이의 차이를 계산함으로써 결정된다.
일례에서, 할당된 음운 단위의 분포의 중심은 이러한 각각의 음운 단위의 평균화된 대표 특징 벡터(520)이다.
그 다음 블럭(540)에서, 이러한 차이 벡터 각각은 음소 특정 방식으로 평균화된다. 결과적으로, 최상의 매칭 단어 하위 모델로서 할당되는 이러한 음운 단위에 기초하여, 각각의 음운 단위에 대해 평균화된 차이 벡터가 계산된다. 블럭(550)에서, 평균화된 차이 벡터에 대한 평균이 계산된다. 미리 선택된 음소의 평균화된 차이 벡터에 대한 이러한 평균이 화자 특성 적응 벡터(560)이다. 따라서, 화자 특성 적응 벡터는 각각의 인식 사이클 후에 업데이트될 수 있다. 그러나, 각각의 10번째 인식 사이클 후의 화자 특성 적응 벡터의 업데이트는 충분할 수 있거나 또는 화자 특성 적응 벡터는 현재의 사용자가 바뀐 후에 업데이트 될 수 있다.
도 6 및 도 7은 다양한 실시예들에 따라 음성 인식 프로세스를 수행하도록 구성된 통신 장치에 대한 블럭도이다. 먼저 도 6을 참조하면, 보이스 다이얼링 기능을 갖는, 예컨대 이동 전화기 또는 셀룰러 폰과 같은 통신 장치에서 음성 인식을 수행하는 장치(600)가 도시된다. 예를 들어, 음운 단어 모델(51, 52)은 예컨대 SIM 카드 또는 통신 장치의 다른 메모리 상에 저장된 전화번호부(90)의 이름 엔트리들로부터 발생된다. 단어 모델(51, 52)을 발생시키기 위해 수행된 이러한 음운 단어 모델의 계산은 자소 대 음소 번역(G2P)(620)을 이용하여 수행될 수 있고, 전화번호부에 저장된 이름들의 텍스트 대 음성 변환으로서 수행될 수 있다. 번역 또는 변환 동작(620)에서, 선택된 언어의 음운 단위는 음운 단어 모델들이 그로부터 수집될 수 있는 단어 하위 모델로서 사용될 수 있다. 예를 들어, 규칙 기반 방식으로 수행되거나 또는 간단히 고려중인 이름의 문자 또는 문자의 조합을 이러한 문자 또는 문자의 조합에 대한 음운 단위로 교체하는 상이한 G2P 번역기가 존재한다. 단어 모델(51, 52)은, 예컨대 통신 장치의 RAM 메모리인 메모리(50) 또는 SIM 카드상의 다른 부분에 저장될 수 있다.
음성 인식 모드는 예컨대 사용자가 버튼을 누른 후에 입력된다. 추가 실시예에 따라, 그리고 통신 장치에 따라, 음성 인식 모드는 다른 모드 및/또는 예컨대 사용자에 의해 발행된 대응 요청을 검출하는 제어기(도 6에 도시 안됨)에 의한 명령을 통해 입력된다. 일례에서, 통신 장치는 내장된 확성기(15)를 통해 발성된 명령을 출력한다. 발성된 명령은, 예컨대, 사용자에게 자신이 전화를 걸고 싶은 사람의 이름을 말하게 하는 "통화하고 싶다면 이름을 말해주십시오" 일 수 있다. 그 다음, 사용자에 의해 발성된 이름은 마이크로폰(10)에 의해 보이스 입력으로서 기록되고, 보코더(20)에 전송된다. 보코더(20)는 보이스 입력으로부터 입력 특징 벡터를 계산하고 이러한 입력 특징 벡터를 우도 벡터 계산 컴포넌트(60)에 전송한다. 우도 분포(610)에 기초하여, 우도 벡터 계산 컴포넌트(60)는 입력 특징 벡터들로부터 우도 벡터 시퀀스(61)를 계산한다. 그 다음, 우도 벡터 시퀀스(61)는 메모리(50)에 저장되는 단어 모델(51, 52)을 생성하기 위하여 워퍼(70)에 의해 워핑된다. 워핑 동작에서, 고려중인 단어 모델에 대한 단어 모델 매치 우도가 계산된다. 단어 모델 매치 우도는 상층에 가장 높은 단어 모델 매치 우도를 갖는 개개의 순서로 정렬된다. 그 다음, 가장 높은 단어 모델 매치 우도가 계산되었던 최상의 매칭 단어 모델이 인식 결과이다. 다른 실시예에 따라, 인식 결과로서, 최상의 매칭 단어 모델의 리스트가 제시될 수 있다.
확성기(15)를 통한 음향 출력에 대한 최상의 매칭 단어 모델에 대응하는 하나 이상의 최상의 매칭 이름들을 합성하는 음성 합성기(650)에 인식 결과가 전송될 수 있다. 다른 예에 따라, 통신 장치(600)의 디스플레이(670) 상에 최상의 매칭 단어 모델에 대응하는 하나 이상의 최상의 매칭 이름들을 순서대로 디스플레이함으로써 사용자에게 인식 결과가 제시될 수 있다. 바꿔 말하면, 인식 결과는 내장된 출 력 장치 또는 별도의 출력 장치(660)를 이용하여 사용자에게 제시될 수 있다.
추가로, 또는 대안으로서, 사용자는 최상의 매칭 이름의 리스트로부터 이름을 선택할 수 있거나, 또는 하나의 최상의 매칭 단어가 자신이 전화 걸기 원하는 사람의 이름임을 단지 확인할 수도 있다. 일례에서, 사용자의 선택은 디스플레이(670) 상에 강조되거나 및/또는 확성기(150)를 통해 합성된 단어로서 출력된다. 그 다음, 사용자는 발성된 명령 및/또는 스크롤 버튼 누름(hit)에 의해 단어 선택을 변경할 수 있고, 그 다음, 새로 선택된 단어는 강조되거나 또는 합성된 단어로서 음향 출력된다. 선택된 단어가 사용자가 전화 걸기 원하는 사람의 이름임을 확인하기 위하여, 사용자는 "다이얼" 또는 "예"와 같은 명령을 발성하거나, 또는 통신 장치상의 개개의 버튼을 누를 수 있다. 발성된 명령은 통신 장치에서 이용 가능한 통신 장치 명령의 리스트로부터 발생된 워핑 동작의 단어 모델을 이용함으로써 발성된 이름의 보이스 입력과 동일한 방식으로 인식될 수 있다.
사용자에 의한 확인 후, 다이얼장치(dialer)(640)는 선택된 이름에 대응하는 번호를 다이얼링하고, 예컨대 제어기(도 6에 도시 안됨)에 의해 보이스 인식 모드는 종료된다.
일부 실시예에서, 통신 장치는 또한 사용자에게 인식 결과를 제시하지 않거나 또는 인식 결과가 제시된 직후에 최상의 매칭 단어 모델에 대응하는 번호를 자동으로 다이얼링할 수 있다. 예를 들어, 이는 음성 합성기(650)에 의해 합성된 각각의 단어를 출력하고 이에 따라 대응하는 번호를 다이얼링함으로써 행해질 수 있다. 일례에서, 대응하는 번호는 인식 결과가 사용자에게 제시됨과 동시에 또는 그 직후에 다이얼장치(640)에 의해 다이얼링된다. 그 다음, 음성 합성기(650) 또는 디스플레이(670)에 의해 출력된 합성된 단어가 올바르지 않거나 또는 사용자가 다이얼링하려고 의도한 단어가 아님을 사용자가 인식한 경우, 사용자는 예컨대 통신 장치에 연관된 개개의 키를 누름으로써 다이얼링 프로세스를 저지할 수 있다.
도 7을 참조하면, 보이스 다이얼링 기능을 갖는 통신 장치의 음성 인식을 수행하는 장치(700)가 도시된다. 장치(700)에서, 우도 분포(610)가 예컨대 상기 동작(320)에 관하여 설명한 바와 같이 화자 특성 및 잡음에 기초하여 업데이트된다는 점만 제외하면 장치(700)는 도 6에 도시된 장치(600)와 유사하다. 또한, 장치(700)는 도 6에 도시된 바와 같은 음성 합성기(650)를 포함하지 않는다. 따라서, 인식 결과(630)는 올바른 결과일 우도가 가장 큰 순서대로 하나 이상의 이름들로서 사용자에게 제시될 수 있고, 이 결과는 내장된 디스플레이(670) 상에 디스플레이된다.
도 7을 다시 참조하면, 음성 인식 모드로 들어간 후, 통신 장치는 사용자에게 자신이 전화 걸기 전화는 이름을 말하도록 하기 위하여 발성된 명령을 확성기(15)를 통해 출력할 수 있다. 통신 장치의 핸즈 프리 동작 모드에서, 확성기 간섭은 간섭 제거기(710)를 이용함으로써 마이크로폰(10)에 의해 기록된 입력 신호로부터 제거된다. 확성기(15)가 주변 잡음으로서의 발성된 명령 없이 사용중일 때 주변 잡음이 기록될 수 있도록, 간섭 제거기(710)는 에코 제거(echo cancellation)를 수행하고, 마이크로폰(10)에 의해 검출된 입력 신호로부터 확성기를 통해 출력된 발성된 명령을 제거한다. 사용자가 듣고 있는 발성된 명령이 통신 장치에 의해 출력되는 동안 주변 잡음이 기록되기 때문에, 사용자가 발성하지 않는 시간 동안, 순 수 잡음 신호가 마이크로폰(10)에 의해 기록될 수 있는 확률이 높다. 잡음 처리기(720)는 기록된 잡음 신호로부터 한 세트의 잡음 특징 벡터를 계산할 수 있다.
일부 실시예에서, 잡음 특징 벡터는 또한 보코더(20)에 의해 기록된 잡음 입력으로부터 계산될 수 있고, 그 다음 인식 프로세스에서 더 사용되는 평균화된 잡음 특징 벡터를 계산하는 잡음 처리기(720)에 전송될 수 있다. 통신 장치(700)에서, 우도 분포(610)는 잡음 처리기(720)로부터 제공되는 잡음 특징 벡터를 이용하여, 화자 적응 유닛(730)에 의해 제공된 현재의 화자의 특성을 기초로 업데이트될 수 있다. 업데이팅 프로세스의 상세한 설명은 상기 도 3, 4a, 4b, 및 5를 참조하여 기술되었다. 화자 적응 유닛(730)에서, 워핑 동작의 결과로서 워퍼(70)에 의해 제공된 우도 벡터에 대한 하위 모델의 할당으로부터 화자 특성 적응 벡터가 계산될 수 있다. 따라서, 후속되는 인식 결과를 지속적으로 향상시키기 위하여 우도 분포(610)는 앞서 기록된 발음의 인식 결과에 의해 업데이트된다.
당업자들은 도 1, 6, 및 7에 도시된 기능 블럭들이 임의의 의미있는 조합으로 결합될 수 있다는 것을 이해할 것이다.
상술한 다양한 실시예들은 인식될 단어의 특징 데이터가 기록되고 미리 저장되어야 하는 등록 프로세스를 필요로 하지 않는 충분한 음성 인식을 허용한다. 또한, 기술한 다양한 실시예들은 주변 잡음 및 현재의 화자 특성을 이용함으로써 통신 장치의 보이스 다이얼 모드의 인식 에러율을 줄이고, 보이스 인식 누락 확률을 더 감소시키기에 적합하다. 게다가, 상술한 다양한 실시예들은 선택된 언어의 내적 표시 및 그들의 인식 프로세스로서 음운 단위 및 음운 단위의 우도 분포를 이용함 으로써 상이한 언어에 대해 쉽게 적응할 수 있고, 예컨대 전화번호부 엔트리로서 오직 문서 표시만 이용 가능하고 음운 특징 데이터는 이용 가능하지 않은 새로운 단어를 인식할 수 있다.
결론
본 발명의 다양한 실시예들이 상기 기술되었지만, 이 실시예들은 예시로서만 제시된 것이고 제한을 두려는 것은 아님을 이해해야 한다. 형태에 있어서의 다양한 변경 및 세부 사항들에 있어서의 다양한 변경이 본 발명의 정신 및 범위를 벗어나지 않고 행해질 수 있음이 당업자들에게는 명백할 것이다. 따라서, 본 발명의 범위 및 정신은 상술한 예시적 실시예들 중 어느 실시예에 의해서도 제한되지 않아야 하며, 후속되는 청구항 및 이들의 등가물에 따라서만 정의되어야 한다.
발명의 상세한 설명 및 요약 부분이 아닌 실시예 부분이 청구 범위를 해석하는데 이용되도록 의도되었음을 이해해야 한다. 상세한 설명 및 요약 부분은 그 모두는 아니지만 본 발명의 하나 이상의 예시적 실시예들을 발명자(들)에 의해 고려된 바와 같이 설명할 수 있고, 따라서, 본 발명 및 첨부한 청구항들을 어떤 방식으로든 제한하려고 의도되지 않는다.

Claims (36)

  1. 보이스 다이얼링 기능을 갖는 통신 장치의 음성 인식을 수행하는 방법에 있어서,
    a) 음성 인식 모드로 들어가는 단계;
    b) 상기 음성 인식 모드의 보이스 입력의 수신시, 보이스 입력으로부터 입력 특징 벡터들을 발생시키는 단계;
    c) 음운 단위들의 발음 시간의 우도(가능성; likelihood)를 나타내는 입력 특징 벡터들로부터 우도 벡터 시퀀스를 계산하는 단계;
    d) 상기 우도 벡터 시퀀스를 음운 단어 모델들에 대해 워핑(warping) 하는 단계;
    e) 상기 음운 단어 모델들로부터 단어 모델 매치 우도를 계산하는 단계; 및
    f) 상기 단어 모델 매치 우도 중 최상의 매칭 단어 모델을 인식 결과로서 결정하는 단계
    를 포함하는 음성 인식 수행 방법.
  2. 제1항에 있어서, 상기 음운 단위들은 상기 음운 단어 모델들에 대한 단어 하위 모델들로서 제공되고, 상기 음운 단어 모델들 각각은 단어 모델 벡터들의 시퀀스를 포함하며, 상기 단어 모델 벡터의 성분은 상기 음운 단어 모델의 각각의 위치에서 상기 음운 단위들 중 개개의 하나를 찾을 기대치를 나타내는 것인, 음성 인식 수행 방법.
  3. 제1항에 있어서, 상기 우도 벡터들 각각은 선택된 언어의 내적 표시를 이용하여 상기 각각의 입력 특징 벡터로부터 계산되는 것인, 음성 인식 수행 방법.
  4. 제3항에 있어서, 상기 내적 언어 표시는 특징 공간의 대표 특징 벡터들의 통계 분포를 나타내는 상기 음운 단위들의 특징 벡터들 중 대표 특징 벡터로부터 계산된 우도 분포를 포함하는 것인, 음성 인식 수행 방법.
  5. 제4항에 있어서, 상기 우도 분포의 계산은 등록 모드에서 수행되고,
    상이한 화자에 의해 발성된 보이스 입력 샘플들을 무잡음 환경에서 기록하는 단계;
    상기 선택된 언어에 요구되는 음운 단위들에 대응하는 상기 보이스 입력 샘플들 중 일부를 선택하는 단계; 및
    상기 선택된 일부의 샘플들로부터 상기 대표 특징 벡터를 발생시키는 단계
    를 포함하는 음성 인식 수행 방법.
  6. 제4항에 있어서,
    현재의 사용자에 대한 화자 특성 적응 벡터를 결정하고, 상기 화자 특성 적응 벡터를 상기 대표 특징 벡터에 반영함으로써 상기 우도 분포를 업데이트하는 단 계를 더 포함하는 음성 인식 수행 방법.
  7. 제4항에 있어서,
    상기 통신 장치 주변의 잡음을 측정하는 단계;
    상기 측정된 잡음으로부터의 잡음 특징 벡터를 처리하는 단계; 및
    상기 잡음 특징 벡터를 상기 대표 특징 벡터에 결합시킴으로써 상기 우도 분포를 업데이트하는 단계
    를 더 포함하는 음성 인식 수행 방법.
  8. 제7항에 있어서, 상기 잡음 특징 벡터, 상기 화자 특성 적응 벡터, 및 상기 대표 특징 벡터는 스펙트럼 벡터이고, 상기 우도 분포를 업데이트하는 단계는,
    상기 화자 특성 적응 벡터를 상기 각각의 대표 특징 벡터와 곱셈하여, 제1 변경된 대표 특징 벡터를 발생시키는 단계;
    상기 잡음 특징 벡터를 상기 제1 변경된 대표 특징 벡터에 가산하여, 제2 변경된 대표 특징 벡터를 발생시키는 단계; 및
    특징 공간의 상기 제2 변경된 대표 특징 벡터의 통계 분포를 업데이트된 우도 분포로서 결정하는 단계
    를 포함하는 것인, 음성 인식 수행 방법.
  9. 제7항에 있어서, 상기 입력 특징 벡터, 상기 잡음 특징 벡터, 상기 화자 특 성 적응 벡터, 및 상기 대표 특징 벡터는 스펙트럼 벡터이고, 상기 잡음 특징 벡터 및 상기 대표 특징 벡터는 비-로그 성분을 갖고, 상기 입력 특징 벡터 및 상기 화자 특성 적응 벡터는 로그 성분을 가지며,
    상기 우도 분포를 업데이트하는 단계는,
    상기 잡음 특징 벡터를 상기 대표 특징 벡터 각각에 가산하여, 제1 변경된 대표 특징 벡터를 발생시키는 단계;
    상기 제1 변경된 대표 특징 벡터의 각각의 성분을 로그화하는 단계;
    상기 화자 특성 적응 벡터를 상기 로그화된 제1 변경된 대표 특징 벡터에 가산하여, 제2 변경된 대표 특징 벡터를 발생시키는 단계; 및
    특징 공간의 상기 제2 변경된 대표 특징 벡터의 통계 분포를 우도 분포로서 결정하는 단계
    를 포함하는 것인, 음성 인식 수행 방법.
  10. 제7항에 있어서, 상기 화자 특성 적응 벡터의 결정단계는, 상기 대표 특징 벡터 각각에 대한 화자 특성 적응 벡터의 계산을 포함하고,
    상기 입력 특징 벡터 각각에 최상의 매칭 음운 단위를 할당하는 단계;
    상기 각각의 입력 특징 벡터와 상기 각각의 대표 특징 벡터 간의 차이를 계산하는 단계; 및
    상기 각각의 대표 특징 벡터 각각에 대한 화자 특성 적응 벡터로서 음소 특정 평균화된 차이 벡터를 계산하는 단계
    를 더 포함하는 음성 인식 수행 방법.
  11. 제10항에 있어서, 상기 화자 특성 적응 벡터는 상기 음소 특정 평균화된 차이 벡터에 대해 평균화되는 것인, 음성 인식 수행 방법.
  12. 제1항에 있어서,
    상기 최상의 매칭 단어 모델로부터의 이름을 합성하고 그 이름에 대응하는 번호를 다이얼링하는 단계를 더 포함하는 음성 인식 수행 방법.
  13. 제1항에 있어서, 상기 음운 단어 모델들은 자소 대 음소(graphem-to-phonem) 번역을 이용하여 전화번호부의 이름으로부터 상기 단어 하위 모델의 시퀀스로서 발생되는 것인, 음성 인식 수행 방법.
  14. 보이스 다이얼링 기능을 갖는 통신 장치의 음성 인식을 수행하는 장치에 있어서,
    전화번호부의 이름들의 단어 모델들을 저장하도록 구성된 제1 메모리;
    음성 인식 모드의 보이스 입력으로부터 입력 특징 벡터를 발생시키도록 구성된 보코더;
    (a) 음운 단위의 발음 시간의 우도를 나타내는 상기 입력 특징 벡터로부터 우도 벡터 시퀀스를 계산하도록 구성된 우도 벡터 계산 장치,
    (b) 상기 우도 벡터 시퀀스를 상기 단어 모델에 대해 워핑하도록 구성된 워퍼(warper),
    (c) 상기 단어 모델로부터 단어 모델 매치 우도를 계산하도록 구성된 계산 장치; 및
    (d) 최상의 매칭 단어 모델을 인식 결과로서 결정하도록 구성된 결정 장치를 포함하는 음성 인식 컴포넌트; 및
    상기 음성 인식 모드를 개시하도록 구성된 제어기
    를 포함하는 음성 인식 수행 장치.
  15. 제14항에 있어서, 상기 우도 벡터 각각은 상기 음운 단위의 대표 특징 벡터로부터 계산된 우도 분포를 이용하여 상기 각각의 입력 특징 벡터로부터 계산되고,
    상기 보이스 입력 및 주변 잡음을 잡음 입력으로서 기록하도록 구성된 마이크로폰을 더 포함하며,
    상기 보코더는 상기 잡음 입력으로부터의 잡음 특징 벡터를 처리하고;
    상기 음성 인식 컴포넌트는 상기 잡음 특징 벡터를 상기 대표 특징 벡터에 반영함으로써 상기 우도 분포를 업데이트하는 것인, 음성 인식 수행 장치.
  16. 제14항에 있어서, 상기 우도 벡터 각각은 상기 음운 단위의 대표 특징 벡터로부터 계산된 우도 분포를 이용하여 상기 각각의 입력 특징 벡터로부터 계산되고,
    현재의 사용자에 대한 화자 특성 적응 벡터를 결정하도록 구성되고 상기 화 자 특성 적응 벡터를 상기 대표 특징 벡터에 반영함으로써 상기 우도 분포를 업데이트하도록 구성된 화자 특성 적응 장치
    를 더 포함하는 음성 인식 수행 장치.
  17. 제16항에 있어서, 상기 잡음 특징 벡터, 상기 화자 특성 적응 벡터, 및 상기 대표 특징 벡터는 스펙트럼 벡터이고, 상기 화자 특성 적응 장치는,
    제1 변경된 대표 특징 벡터를 발생시키기 위하여 상기 화자 특성 적응 벡터를 상기 각각의 대표 특징 벡터와 곱셈하고;
    제2 변경된 대표 특징 벡터를 발생시키기 위하여 상기 잡음 특징 벡터를 상기 제1 변경된 대표 특징 벡터에 가산하며;
    특징 공간의 상기 제2 변경된 대표 특징 벡터의 통계 분포를 우도 분포로서 결정함으로써 상기 우도 분포를 업데이트하도록 구성되는 것인, 음성 인식 수행 장치.
  18. 제16항에 있어서, 상기 화자 특성 적응 장치는,
    상기 입력 특징 벡터 각각에 최상의 매칭 음운 단위를 할당하고;
    상기 각각의 입력 특징 벡터와 상기 각각의 대표 특징 벡터 간의 차이 벡터를 계산하고;
    음운 단위당 차이 벡터들의 평균을 구하고 음소 특정 평균화된 차이 벡터를 발생시키며;
    상기 음소 특정 평균화된 차이 벡터들의 평균을 구함으로써 상기 화자 특성 적응 벡터를 결정 또는 업데이트하도록 구성되는 것인, 음성 인식 수행 장치.
  19. 제14항에 있어서,
    상기 최상의 매칭 단어 모델로부터의 이름을 합성하도록 구성된 합성기를 더 포함하고, 상기 제어기는 상기 최상의 매칭 단어 모델로부터 합성된 이름에 대응하는 전화번호부의 이름을 다이얼링하는 것인, 음성 인식 수행 장치.
  20. 제19항에 있어서,
    상기 워퍼는 최상의 매칭 단어 모델의 리스트를 결정하도록 구성되고;
    상기 합성기는 상기 리스트의 상기 최상의 매칭 단어 모델 각각에 대한 이름을 합성하도록 구성되며;
    상기 합성된 이름들을 출력하도록 구성된 출력 장치; 및
    상기 사용자가 상기 출력된 이름들 중 하나를 선택하도록 구성된 선택 장치; 및
    상기 선택된 이름에 대응하는 상기 전화번호부의 번호를 다이얼링하도록 구성된 제어기
    를 더 포함하는 음성 인식 수행 장치.
  21. 제20항에 있어서,
    상기 출력 장치는 상기 제어기로부터의 제어 명령을 출력하는 상기 통신 장치의 확성기를 포함하고;
    상기 마이크로폰은 상기 확성기가 출력하는 동안 주변 잡음을 기록하며;
    잡음 입력을 발생시키기 위하여 상기 기록된 잡음으로부터 상기 확성기의 간섭을 제거하도록 구성된 간섭 제거 장치
    를 더 포함하는 음성 인식 수행 장치.
  22. 적어도 하나의 프로세서를 제어하기 위한 컴퓨터 프로그램 로직이 기록된 컴퓨터 이용가능 매체를 포함하는 컴퓨터 프로그램 제품으로서, 상기 컴퓨터 프로그램 로직은,
    음성 인식 모드로 들어가는 컴퓨터 프로그램 코드 수단;
    상기 음성 인식 모드에서의 보이스 입력의 수신시, 보이스 입력으로부터 입력 특징 벡터를 발생시키는 컴퓨터 프로그램 코드 수단;
    음운 단위의 발음 시간의 우도를 나타내는 상기 입력 특징 벡터로부터 우도 벡터 시퀀스를 계산하는 컴퓨터 프로그램 코드 수단;
    상기 우도 벡터 시퀀스를 음운 단어 모델에 대해 워핑하는 컴퓨터 프로그램 코드 수단;
    상기 음운 단어 모델로부터 단어 모델 매치 우도를 계산하는 컴퓨터 프로그램 코드 수단; 및
    상기 단어 모델 매치 우도 중 최상의 매칭 단어 모델을 인식 결과로서 결정 하는 컴퓨터 프로그램 코드 수단
    을 포함하는 것인, 컴퓨터 프로그램 제품.
  23. 통신 장치상에서 실행시, 상기 통신 장치가
    a) 음성 인식 모드로 들어가는 단계;
    b) 음성 인식 모드의 보이스 입력의 수신시, 보이스 입력으로부터 입력 특징 벡터를 발생시키는 단계;
    c) 음운 단위의 발음 시간의 우도를 나타내는 상기 입력 특징 벡터로부터 우도 벡트 시퀀스를 계산하는 단계;
    d) 상기 우도 벡터 시퀀스를 음운 단어 모델에 대해 워핑하는 단계;
    e) 상기 음운 단어 모델로부터 단어 모델 매치 우도를 계산하는 단계; 및
    f) 상기 단어 모델 매치 우도 중 최상의 매칭 단어 모델을 인식 결과로서 결정하는 단계
    를 포함하는 방법을 수행하게 하는 컴퓨터 프로그램 코드를 포함하는 메모리 장치.
  24. 컴퓨터 판독가능 매체로서,
    a) 음성 인식 모드로 들어가는 단계;
    b) 음성 인식 모드의 보이스 입력의 수신시, 보이스 입력으로부터 입력 특징 벡터를 발생시키는 단계;
    c) 음운 단위의 발음 시간의 우도를 나타내는 입력 특징 벡터로부터 우도 벡터 시퀀스를 계산하는 단계;
    d) 상기 우도 벡터 시퀀스를 음운 단어 모델에 대해 워핑하는 단계;
    e) 상기 음운 단어 모델로부터 단어 모델 매치 우도를 계산하는 단계; 및
    f) 상기 단어 모델 매치 우도 중 최상의 매칭 단어 모델을 인식 결과로서 결정하는 단계
    를 포함하는 방법을 수행함으로써 통신 장치의 적어도 하나의 프로세서를 제어하는 명령어를 포함하는 컴퓨터 판독가능 매체.
  25. 제24항의 방법을 이용하여 상기 프로세서를 제어하는 컴퓨터 판독가능 매체에 있어서, 상기 음운 단위는 상기 음운 단어 모델에 대한 단어 하위 모델로서 제공되고, 상기 음운 단어 모델들 각각은 단어 모델 벡터의 시퀀스를 포함하며, 상기 단어 모델 벡터의 성분은 상기 음운 단어 모델의 각각의 위치에서 상기 음운 단위들 중 개개의 하나를 찾을 기대치를 나타내는 것인, 컴퓨터 판독가능 매체.
  26. 제24항의 방법을 이용하여 상기 프로세서를 제어하는 컴퓨터 판독가능 매체에 있어서, 상기 우도 벡터 각각은 선택된 언어의 내적 표시를 이용하여 각각의 입력 특징 벡터로부터 계산되는 것인, 컴퓨터 판독가능 매체.
  27. 제26항의 방법을 이용하여 상기 프로세서를 제어하는 컴퓨터 판독가능 매체 에 있어서, 상기 내적 언어 표시는 특징 공간의 대표 특징 벡터의 통계 분포를 나타내는 상기 음운 단위의 특징 벡터들 중 대표 특징 벡터로부터 계산된 우도 분포를 포함하는 것인, 컴퓨터 판독가능 매체.
  28. 제27항의 방법을 이용하여 상기 프로세서를 제어하는 컴퓨터 판독가능 매체에 있어서, 상기 우도 분포의 계산은 등록 모드에서 수행되고, 상기 방법은,
    무잡음 환경에서 상이한 화자에 의해 발성된 보이스 입력 샘플들을 기록하는 단계;
    상기 선택된 언어에 요구되는 상기 음운 단위에 대응하는 보이스 입력 샘플들의 일부를 선택하는 단계; 및
    상기 선택된 샘플들로부터 상기 대표 특징 벡터를 발생시키는 단계
    를 포함하는 것인, 컴퓨터 판독가능 매체.
  29. 제28항의 방법을 이용하여 상기 프로세서를 제어하는 컴퓨터 판독가능 매체에 있어서, 상기 방법은,
    현재의 사용자에 대한 화자 특성 적응 벡터를 결정하고 상기 화자 특성 적응 벡터를 상기 대표 특징 벡터에 반영함으로써 상기 우도 분포를 업데이트하는 단계를 더 포함하는 것인, 컴퓨터 판독가능 매체.
  30. 제28항의 방법을 이용하여 상기 프로세서를 제어하는 컴퓨터 판독가능 매체 에 있어서, 상기 방법은,
    상기 통신 장치 주변의 잡음을 측정하는 단계;
    상기 측정된 잡음으로부터 잡음 특징 벡터를 처리하는 단계; 및
    상기 잡음 특징 벡터를 상기 대표 특징 벡터에 결합시킴으로써 상기 우도 분포를 업데이트하는 단계를 더 포함하는 것인, 컴퓨터 판독가능 매체.
  31. 제30항의 방법을 이용하여 상기 프로세서를 제어하는 컴퓨터 판독가능 매체에 있어서, 상기 잡음 특징 벡터, 상기 화자 특성 적응 벡터, 및 상기 대표 특징 벡터는 스펙트럼 벡터이고, 상기 우도 분포를 업데이트하는 단계는,
    상기 화자 특성 적응 벡터를 상기 각각의 대표 특징 벡터와 곱셈하여, 제1 변경된 대표 특징 벡터를 발생시키는 단계;
    상기 잡음 특징 벡터를 상기 제1 변경된 대표 특징 벡터에 가산하여, 제2 변경된 대표 특징 벡터를 발생시키는 단계; 및
    특징 공간의 상기 제2 변경된 대표 특징 벡터의 통계 분포를 업데이트된 우도 분포로서 결정하는 단계를 포함하는 것인, 컴퓨터 판독가능 매체.
  32. 제30항의 방법을 이용하여 상기 프로세서를 제어하는 컴퓨터 판독가능 매체에 있어서, 상기 입력 특징 벡터, 상기 잡음 특징 벡터, 상기 화자 특성 적응 벡터, 및 상기 대표 특징 벡터는 스펙트럼 벡터이고, 상기 잡음 특징 벡터 및 상기 대표 특징 벡터는 비-로그 성분을 갖고, 상기 입력 특징 벡터 및 상기 화자 특성 적응 벡터는 로그 성분을 가지며, 상기 우도 분포를 업데이트 하는 단계는,
    상기 잡음 특징 벡터를 상기 대표 특징 벡터 각각에 가산하여 제1 변경된 대표 특징 벡터를 발생시키는 단계;
    상기 제1 변경된 대표 특징 벡터의 각각의 성분을 로그화하는 단계;
    상기 화자 특성 적응 벡터를 상기 제1 변경되고 로그화된 대표 특징 벡터에 가산하여, 제2 변경된 대표 특징 벡터를 발생시키는 단계; 및
    특징 공간의 상기 제2 변경된 대표 특징 벡터의 통계 분포를 우도 분포로서 결정하는 단계
    를 포함하는 것인, 컴퓨터 판독가능 매체.
  33. 제30항의 방법을 이용하여 상기 프로세서를 제어하는 컴퓨터 판독가능 매체에 있어서, 상기 화자 특성 적응 벡터의 결정단계는 상기 각각의 대표 특징 벡터에 대한 화자 특성 적응 벡터의 계산을 포함하고, 상기 방법은,
    상기 입력 특징 벡터 각각에 최상의 매칭 음운 단위를 할당하는 단계;
    상기 각각의 입력 특징 벡터와 상기 각각의 대표 특징 벡터 간의 차이 벡터를 계산하는 단계; 및
    상기 각각의 대표 특징 벡터 각각에 대한 화자 특성 적응 벡터로서 음소 특정 평균화된 차이를 계산하는 단계
    를 포함하는 것인, 컴퓨터 판독가능 매체.
  34. 제33항의 방법을 이용하여 상기 프로세서를 제어하는 컴퓨터 판독가능 매체에 있어서, 상기 화자 특성 적응 벡터는 상기 음소 특정 평균화된 차이 벡터들에 대해 평균화되는 것인, 컴퓨터 판독가능 매체.
  35. 제24항의 방법을 이용하여 상기 프로세서를 제어하는 컴퓨터 판독가능 매체에 있어서, 상기 방법은 상기 최상의 매칭 단어 모델로부터의 이름을 합성하고 그 이름에 대응하는 번호를 다이얼링하는 단계를 더 포함하는 것인, 컴퓨터 판독가능 매체.
  36. 제24항의 방법을 이용하여 상기 프로세서를 제어하는 컴퓨터 판독가능 매체에 있어서, 상기 음운 단어 모델은 자소 대 음소 번역을 이용하여 상기 단어 하위 모델의 시퀀스로서 전화번호부의 이름으로부터 발생되는 것인, 컴퓨터 판독가능 매체.
KR1020087020244A 2006-02-14 2007-02-13 화자 독립 음성 인식을 구비한 통신 장치 KR20080107376A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US77357706P 2006-02-14 2006-02-14
US60/773,577 2006-02-14

Publications (1)

Publication Number Publication Date
KR20080107376A true KR20080107376A (ko) 2008-12-10

Family

ID=38328169

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020087020244A KR20080107376A (ko) 2006-02-14 2007-02-13 화자 독립 음성 인식을 구비한 통신 장치

Country Status (7)

Country Link
US (1) US20070203701A1 (ko)
EP (1) EP1994529B1 (ko)
JP (1) JP2009527024A (ko)
KR (1) KR20080107376A (ko)
CN (1) CN101385073A (ko)
AT (1) ATE536611T1 (ko)
WO (1) WO2007095277A2 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013167934A1 (en) 2012-05-07 2013-11-14 Mls Multimedia S.A. Methods and system implementing intelligent vocal name-selection from directory lists composed in non-latin alphabet languages
KR101684554B1 (ko) * 2015-08-20 2016-12-08 현대자동차 주식회사 음성 다이얼링 시스템 및 그 방법

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070225049A1 (en) * 2006-03-23 2007-09-27 Andrada Mauricio P Voice controlled push to talk system
US8521235B2 (en) * 2008-03-27 2013-08-27 General Motors Llc Address book sharing system and method for non-verbally adding address book contents using the same
US8515749B2 (en) * 2009-05-20 2013-08-20 Raytheon Bbn Technologies Corp. Speech-to-speech translation
US8626511B2 (en) * 2010-01-22 2014-01-07 Google Inc. Multi-dimensional disambiguation of voice commands
EP3825471A1 (en) * 2012-07-19 2021-05-26 Sumitomo (S.H.I.) Construction Machinery Co., Ltd. Shovel with multifunctional portable information device
US9401140B1 (en) * 2012-08-22 2016-07-26 Amazon Technologies, Inc. Unsupervised acoustic model training
EP3257043B1 (en) * 2015-02-11 2018-12-12 Bang & Olufsen A/S Speaker recognition in multimedia system
WO2019138651A1 (ja) * 2018-01-10 2019-07-18 ソニー株式会社 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
US11410642B2 (en) * 2019-08-16 2022-08-09 Soundhound, Inc. Method and system using phoneme embedding
US20220067304A1 (en) * 2020-08-27 2022-03-03 Google Llc Energy-Based Language Models

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4908865A (en) * 1984-12-27 1990-03-13 Texas Instruments Incorporated Speaker independent speech recognition method and system
US6236964B1 (en) * 1990-02-01 2001-05-22 Canon Kabushiki Kaisha Speech recognition apparatus and method for matching inputted speech and a word generated from stored referenced phoneme data
US5390278A (en) * 1991-10-08 1995-02-14 Bell Canada Phoneme based speech recognition
US5353376A (en) * 1992-03-20 1994-10-04 Texas Instruments Incorporated System and method for improved speech acquisition for hands-free voice telecommunication in a noisy environment
FI97919C (fi) * 1992-06-05 1997-03-10 Nokia Mobile Phones Ltd Puheentunnistusmenetelmä ja -järjestelmä puheella ohjattavaa puhelinta varten
US5758021A (en) * 1992-06-12 1998-05-26 Alcatel N.V. Speech recognition combining dynamic programming and neural network techniques
JP3008799B2 (ja) * 1995-01-26 2000-02-14 日本電気株式会社 音声適応化装置,単語音声認識装置,連続音声認識装置およびワードスポッティング装置
US5675706A (en) * 1995-03-31 1997-10-07 Lucent Technologies Inc. Vocabulary independent discriminative utterance verification for non-keyword rejection in subword based speech recognition
US5799276A (en) * 1995-11-07 1998-08-25 Accent Incorporated Knowledge-based speech recognition system and methods having frame length computed based upon estimated pitch period of vocalic intervals
US5963903A (en) * 1996-06-28 1999-10-05 Microsoft Corporation Method and system for dynamically adjusted training for speech recognition
US5930751A (en) * 1997-05-30 1999-07-27 Lucent Technologies Inc. Method of implicit confirmation for automatic speech recognition
FI972723A0 (fi) * 1997-06-24 1997-06-24 Nokia Mobile Phones Ltd Mobila kommunikationsanordningar
JP3447521B2 (ja) * 1997-08-25 2003-09-16 Necエレクトロニクス株式会社 音声認識ダイアル装置
KR100277105B1 (ko) * 1998-02-27 2001-01-15 윤종용 음성 인식 데이터 결정 장치 및 방법
US6389393B1 (en) * 1998-04-28 2002-05-14 Texas Instruments Incorporated Method of adapting speech recognition models for speaker, microphone, and noisy environment
US6321195B1 (en) * 1998-04-28 2001-11-20 Lg Electronics Inc. Speech recognition method
US6289309B1 (en) * 1998-12-16 2001-09-11 Sarnoff Corporation Noise spectrum tracking for speech enhancement
US6418411B1 (en) * 1999-03-12 2002-07-09 Texas Instruments Incorporated Method and system for adaptive speech recognition in a noisy environment
US6487530B1 (en) * 1999-03-30 2002-11-26 Nortel Networks Limited Method for recognizing non-standard and standard speech by speaker independent and speaker dependent word models
DE10043064B4 (de) * 2000-09-01 2004-07-08 Dietmar Dr. Ruwisch Verfahren und Vorrichtung zur Elimination von Lautsprecherinterferenzen aus Mikrofonsignalen
US7457750B2 (en) * 2000-10-13 2008-11-25 At&T Corp. Systems and methods for dynamic re-configurable speech recognition
GB0028277D0 (en) * 2000-11-20 2001-01-03 Canon Kk Speech processing system
FI114051B (fi) * 2001-11-12 2004-07-30 Nokia Corp Menetelmä sanakirjatiedon kompressoimiseksi
EP1327976B1 (en) * 2001-12-21 2004-10-27 Dietmar Dr. Ruwisch Method and system for recognition of speech in a noisy environment
DE60225536T2 (de) 2002-06-04 2009-04-23 Intellectual Ventures Fund 21 LLC, Carson City Verfahren und Vorrichtung zur Spracherkennung
JP4109063B2 (ja) * 2002-09-18 2008-06-25 パイオニア株式会社 音声認識装置及び音声認識方法
US20050197837A1 (en) * 2004-03-08 2005-09-08 Janne Suontausta Enhanced multilingual speech recognition system
JP4551915B2 (ja) 2007-07-03 2010-09-29 ホシデン株式会社 複合操作型入力装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013167934A1 (en) 2012-05-07 2013-11-14 Mls Multimedia S.A. Methods and system implementing intelligent vocal name-selection from directory lists composed in non-latin alphabet languages
KR101684554B1 (ko) * 2015-08-20 2016-12-08 현대자동차 주식회사 음성 다이얼링 시스템 및 그 방법

Also Published As

Publication number Publication date
EP1994529A2 (en) 2008-11-26
WO2007095277A2 (en) 2007-08-23
JP2009527024A (ja) 2009-07-23
WO2007095277A3 (en) 2007-10-11
EP1994529B1 (en) 2011-12-07
CN101385073A (zh) 2009-03-11
ATE536611T1 (de) 2011-12-15
US20070203701A1 (en) 2007-08-30

Similar Documents

Publication Publication Date Title
KR20080107376A (ko) 화자 독립 음성 인식을 구비한 통신 장치
US20230230572A1 (en) End-to-end speech conversion
KR100383353B1 (ko) 음성인식장치및음성인식장치용어휘발생방법
KR100984528B1 (ko) 분산형 음성 인식 시스템에서 음성 인식을 위한 시스템 및방법
US20060215821A1 (en) Voice nametag audio feedback for dialing a telephone call
US8768701B2 (en) Prosodic mimic method and apparatus
JPH07210190A (ja) 音声認識方法及びシステム
JPH08234788A (ja) 音声認識のバイアス等化方法および装置
JP4246703B2 (ja) 自動音声認識の方法
JP4520596B2 (ja) 音声認識方法および音声認識装置
JP2000250576A (ja) 音声認識システムにおいて特徴を抽出する方法
EP1110207B1 (en) A method and a system for voice dialling
US20020069064A1 (en) Method and apparatus for testing user interface integrity of speech-enabled devices
US20070129945A1 (en) Voice quality control for high quality speech reconstruction
KR100467593B1 (ko) 음성인식 키 입력 무선 단말장치, 무선 단말장치에서키입력 대신 음성을 이용하는 방법 및 그 기록매체
JP5510069B2 (ja) 翻訳装置
JP2013207508A (ja) 自動音声応答装置
JP3140084B2 (ja) 練習機能付き音声ダイヤル装置
KR940011237B1 (ko) 음성 다이얼링 장치 및 방법
JPH05300213A (ja) 音声ダイヤラ
JP2020034832A (ja) 辞書生成装置、音声認識システムおよび辞書生成方法
KR20190041108A (ko) 차량의 음성생성 시스템 및 방법
CN101165776A (zh) 用于生成语音谱的方法
KR20090074899A (ko) 휴대용 단말기에서 음성 변환 시스템을 제공하기 위한 장치및 방법

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application