KR100800367B1

KR100800367B1 - 음성 인식 시스템의 작동 방법, 컴퓨터 시스템 및 프로그램을 갖춘 컴퓨터 판독 가능 저장 매체

Info

Publication number: KR100800367B1
Application number: KR1020057009735A
Authority: KR
Inventors: 볼케르 피셰르; 지에그프리에드 쿤즈만
Original assignee: 인터내셔널 비지네스 머신즈 코포레이션
Priority date: 2002-12-20
Filing date: 2003-10-31
Publication date: 2008-02-04
Also published as: CA2507999C; JP2006510933A; CN1726532A; EP1576581A1; KR20050090389A; WO2004057574A1; US7302393B2; AU2003293646A1; US20060173684A1; CA2507999A1; CN100552773C; EP1576581B1; TWI245259B; TW200421264A

Abstract

본 발명은 복수의 인식기 프로그램이 음성 인식을 위해 동작되도록 액세스가능하며, 단일 인식기에 의해 행해진 음성 인식의 결과를 효율적으로 개선하기 위해서 필요에 따라서 조합되는 음성 인식 시스템을 동작시키는 방법 및 각각의 시스템에 관한 것이다. 제한된 계산 전력만을 이용가능한 내장형 시스템에서 여러 동작 환경의 음향 조건을 동적으로 변경하기 위해서, a) 센서 수단을 이용하여 음성 인식 경계 조건을 특징화하는 선택 베이스 데이터, 예를 들어, 화자 및 환경 잡음 등을 수집(210, 220, 230, 240)하고, b) 수집된 데이터를 평가하는 프로그램 제어식 아비터 수단, 예를 들어, 소프트웨어 메카니즘을 포함한 결정 엔진과 물리적 센서를 이용하여, 복수의 이용가능한 인식기 중에서 최적의 인식기 또는 그 조합을 선택(290)하는 것이 제시되어 있다.

Description

음성 인식 시스템의 작동 방법, 컴퓨터 시스템 및 프로그램을 갖춘 컴퓨터 판독 가능 저장 매체{SENSOR BASED SPEECH RECOGNIZER SELECTION, ADAPTATION AND COMBINATION}

본 발명은 컴퓨터화 음성 인식 분야에 관한 것이다.

특히, 본 발명은, 프로그램 제어식 인식기가 이하의 단계,

1. 음성 신호를 짧은 시간 간격, 즉, 반드시 그러하지는 않지만, 예를 들어, 스펙트럼 계수를 포함하는 각각의 프레임에 대한 추출된 특성 벡터를 산출하는 동일 길이의 프레임으로 분해하는 단계와,

2. 문자 또는 문자 그룹으로 프레임을 라벨링(labelling)하여, 프레임에 대한 다수의 라벨을 생성하는 단계와,

3. 상기 라벨을 디코딩하여 하나 이상의 단어 또는 하나의 단어의 단편(fragments of a ward)을 구성하는 단계를 수행하며,

4. 여기서, 다수의 인식기는 음성 인식용으로 작동되도록 액세스 가능하며, 단일의 인식기에 의해 행해지는 음성 인식의 결과를 개선하기 위해서, 온 디멘드 방식으로 조합되는, 대규모 어휘의 음성 인식 시스템을 작동시키는 방법에 관한 것이다.

보다 구체적으로, 상술한 이러한 연속적 음성 인식기는, 예를 들어, 단음 또는 삼중음(triphone)과 같은 문맥 의존의 하위 워드 단위를 기본적인 은닉 마르코프 모델(Hidden Markov Model)(이하, "HMM"이라 함)로서 모델링하여 언어음(speech sound)의 여러 변화를 캡쳐한다. 이들 모델의 통계적인 파라미터는 일반적으로 수백 시간의 라벨 표시 트레이닝 데이터로부터 추정된다. 트레이닝 데이터가 애플리케이션 시나리오의 음향 특성에 충분히 일치하는 경우에, 높은 인식 정확도가 가능하지만, 상당히 다르고 혹은 매우 동적으로 가변하는 특성을 가진 음향 환경을 음성 인식기가 극복해야 하는 경우에, 인식의 정확도가 상당히 감소됨을 알 수 있다.

온라인과 (미)감독 배치 적응성(batch adaptation) 기술 모두는 음향 모델 파라미터의 재추정에 의한 문제점을 다루고 있지만, 이들 기술 모두는 매우 소량의 데이터만이 이용 가능하고 및/또는 계산 리소스가 희박한 경우에는, 실행 불가능하거나, 또는 배치 적응성의 경우에는, 음향 환경의 동적 변화를 적절히 다룰 수 없다.

최근의 대규모 어휘의 연속적 음성 인식기는 은닉 마르코프 모델(HMM)을 이용하여, 음성 신호로부터의 최대 귀납적 확률을 가진 워드 시퀀스(w)를 계산한다.

은닉 마르코프 모델은, 유한 상태 세트 S = {s₁,..., s_N}에 대해서 동작하여 하나의 상태가 차지하는 출력 각각의 시간(t)(t = 1, 2, ...,T)을 관측할 수 있는 확률적 자동식 A = (π, A, B)이다. 초기 상태 벡터

는 시간(t = 1)에서 HMM이 상태 s_i에 있을 확률을 제공하며, 전이 행렬

은 상태 s_i에서 상태 s_j로의 전이를 나타내는 1차 시불변(first order time invariant) 프로세스의 확률을 유지한다. 관측값은 음성 신호로부터 생성되는 연속적인 값의 특징 벡터 x ∈ R이며, 출력 확률은 확률 밀도 함수의 집합(이하, pdfs라 함)으로 정의된다.

임의의 주어진 HMM 상태(s_i)에 있어서, 미지의 분포 p(x｜s_i)는 기본 가우스 pdfs의 혼합에 의해 대체로 근사화된다.

여기서, M_i는 상태(s_i)와 관련된 가우스 집합이다. 또한, x는 관측된 특징 벡터를 나타내며, w_ji는 제 i 출력 분포에 대한 제 j 혼합 성분의 가중치이며, μ_ji와 Γ_ji는 상태(s_i)에서의 제 j 가우스의 평균 및 공분산 행렬이다. 수학식 4로부터의 평균 벡터의 상태 및 혼합 성분의 지수는 표기의 간략성을 위해서 생략되어 있음을 알아야 한다.

최신 기술의 음성 인식기는 일반적으로 다음의 부품으로 구성되어 있다.

● 특징 추출부는 신호의 짧은 부분(프레임)을 분류할 수 있는 파라미터 표현식을 계산한다. 자주 사용되는 특징은 에너지 값과 그들의 시간 미분에 의해 종종 보강되는 스펙트럼 파라미터 또는 멜-주파수-켑스트럼 계수(Mel-Frequency-Cepstrum Coefficient : MFCC)이다.

● "라벨러(labeller)"는 문맥 의존의 단음 또는 하위 음과 같은 가능한 의미있는 하위 워드 단위를 나타내는 다수의 라벨을 각각의 특징 벡터에 붙인다. 특징 벡터의 일반적인 분류 기술은 예를 들어, 가우스 혼합 밀도를 이용한 통계적인 분류 또는 중립 네트워크를 이용한 분류를 포함한다.

● "디코더"는 각각의 라벨을 HMM의 출력으로서 해석하고 최대의 귀납적 확률의 워드 시퀀스를 계산한다. 라벨링 단계의 다른 결과에 효율적으로 대처하기 위해서, 서치 전략과 전지(pruning) 기술이 사용된다. 일반적인 예에는 비동기 스택 디코딩 및 시간 동기의 비터비 디코딩 또는 빔 서치가 있다.

병렬로 동작하는 몇몇 베이스 인식기로부터의 결과를 조합하여 워드 오류률 을 상당히 감소시킬 수 있다는 것이 최근 증명되었다. 3개의 주요 접근 방법은 구별될 수 있다.

● 특징 조합 방법은 상이한 집합의 특징을 계산하여, 라벨러로 전달되는 단일의 특징 벡터로 구성한다.

● 우도(likelihood) 조합 방법은 상이한 특징 벡터를 또한 계산하지만, 그들을 개별적으로 분류한다. 상이한 라벨링 단계의 결과는 그들의 증거(evidence)에 근거하여 조합되며, 각각의 프레임에 있어서, 다른 라벨의 단일 벡터는 디코더로 전달된다.

● ROVER(Recognizer Output Voting Error Reduction)는 동적 프로그래밍 기술을 이용하여 몇몇 디코더 패스(pass)로부터의 출력을 단일의 워드 가설 네트워크에 합체시키는 전처리 방법이다. 조합된 네트워크의 각각의 분기점에서, 후속의 투표 메카니즘은 최종 옮겨쓰기에 있어서 최상위 스코어를 가진 워드를 선택한다.

본 명세서에 제시된 본 발명의 주요 목적은 인식의 정확도 증가를 유지하면서 이들 방법과 관련된 문제점을 극복하는 것이다.

문제점 소개

트레이닝 데이터에 적절히 표현되지 않는 음향 환경에서 사용된 경우에는 음성 인식기의 인식 정확도가 상당히 감소한다는 것은 종래 기술에서 이미 알려져 있다. 테스크탑 딕테이션(desktop dictation) 등의 애플리케이션에서, 이러한 문제점은 단말기 사용자가 상이한 환경에서 시스템에 등록함으로써 용이하게 극복될 수 있으며, 입력 특징 벡터의 정규화 방법이 또한 고려될 수 있다. 그러나. 편재형 컴퓨팅(pervasive computing)에서의 입력 매체로서 음성이 중요한 역할을 하는 경우에는 선행의 적응 단계를 허용하지 않는 애플리케이션의 개수는 증가한다. 또한, 인식기가 상당수의 동적으로 변화하는 음향 환경을 다루어야 한다면, 적응 방법은 충분한 양의 온라인 적응 데이터의 부족으로 인해, 또는 제한된 계산 리소스로 인해 실행불가능하게 될 수 있다.

상당수의 파라미터를 가진 보다 정확한 음향 모델이 이러한 상황을 극복하는데 도움이 될 것이지만, 본 명세서에 기술된 본 발명에서 목표가 되는 전형적인 애플리케이션에서는 실행 불가능하다. 이들은 대화식 음성 응답 솔루션, 소비자 장치(이동 전화, PDA, 홈 가전 제품)의 음성 구동식 인터페이스, 및 차량의 낮은 자원 음성 인식과 같은 애플리케이션이다.

상술한 조합 방법은 단일의 베이스 인식기에 비해 잡음 환경에서 상당히 양호한 정확도를 산출할 수 있음이 문헌에서 증명되었다. 그러나, 이들 방법은 CPU에 계산 부담을 증가시키고 또한 몇몇 음향 모델과 중간 결과의 저장을 위해 큰 용량의 메모리를 필요로 하여, 이들 방법은 낮은 자원 음성 인식에 있어서는 아직까지 적합하지 않다.
미국 특허 출원 제 2002/0065584 A1호에는, 내장형 시스템을 위해 서로 다른 유형의 환경적 잡음을 적응시키도록 구성되는 음성 인식 시스템이 개시되어 있다. 불리하게도, 이러한 종래 기술의 시스템은 상대적으로 낮은 인식율을 가지며, 낮은 정도의 계산 리소스를 갖는 시스템과 상대적으로 높은 정도의 계산 리소스를 갖는 시스템간에 적응시키기 위한 크기 조정이 불가능하다.

본 발명의 목적

따라서, 본 발명의 목적은 스피커 환경에서의 동적으로 변하는 잡음에 적응되며, 제한된 리소스로 인해 제한된 컴퓨팅 전력만을 이용 가능한 (내장형) 시스템에서 동작하는 특정 조건에 적응적인 음성 인식 방법 및 시스템을 제공하는 것이다.

본 발명의 개요 및 장점

본 발명의 이러한 목적은 독립항에 기술된 특징에 의해 달성된다. 본 발명의 다른 바람직한 배열 및 실시예는 각각의 종속항에 기술되어 있다. 이하는 첨부된 청구항을 참조한다.

본 발명의 기본적인 측면에 따르면, 음성 인식 시스템 내에서 다음의 단계

a) 음성 인식 경계 조건, 예를 들어, 화자, 환경적인 잡음을 특징화하는 선택 베이스 데이터를 센서 수단을 이용하여 수집하는 단계와,

b) 수집된 데이터를 평가하는 프로그램 제어식 조정 수단, 즉, 소프트웨어 메카니즘, 물리적인 센서, 그들의 조합 등을 포함한 결정 엔진을 이용하는 단계와,

c) 상기 평가에 따라서 다수의 이용 가능한 인식기 중에서 최적의 인식기 또는 그 조합을 선택하는 단계

를 수행하는 것이 제시된다.

이로써, 중요한 장점이, 가변적인 잡음 레벨을 가지고 있으며, 다수의 "감지 수단"이 이미 존재하는 환경에서, 달성될 수 있다. 지식의 증가는 인식율을 증가시킨다는 생각에 착안하여, 현재 말하고 있는 상황을 정의하는 세부 항목에 대한 이해를 증가시키기 위해서, 센서 수단은 매우 광범위하게 이해, 즉, 물리적 즉 논리적인 프로그램 형태이면, 추가적인 사용자 입력으로 또는 사용자 입력없이 컴퓨터 프로그램에 의해 평가될 수 있는 상술한 선택 베이스 데이터를 공급할 수 있는 임의의 배열을 정의하는 것이다. 따라서, 센서 수단은 바람직하게, 예를 들어, 여름/겨울용 타이어가 장착된 특정의 차량 모델 등에서 특정의 속도로 주행할 때 발생되는 잡음을 감지하는 마이크로폰, 카메라와 같은 물리적인 센서에 의해 감지될 수 있는 몇몇 베이스 데이터, 다른 이용가능한 데이터로부터 평가되는 잡음 발생 장치(예를 들어, 환기팬 장치, 뮤직)의 ON/OFF 위치를 해석하거나, 사용자로부터 요청될 수 있는 소프트웨어 프로그램을 포함한 결정 로직일 수 있다. 물론, 이들의 조합이 또한 사용될 수 있다. 따라서, 수집된 감지 데이터의 몇몇 처리는 센서 수단 내에 포함되는 것으로 간주된다.

추가로, 효율적인 평가를 위해서는 바람직하게 다음의 단계,

a) 통계적인 테스트, 결정 트리, 퍼지 멤버쉽 기능 중 하나 이상을 구현하는 결정 로직에서 물리적인 센서 출력을 처리하는 단계와,

b) 상술한 처리로부터 센서 선택/혼합 결정에 사용되는 신뢰값을 리턴하는 단계가 부가될 수 있다.

추가로, 사용자는 등급 기준, 예를 들어, 상술한 처리에 따라서 정의된 몇몇 조건 하에서 음성 인식이 얼마나 "양호"한 지를 나타내는 숫자 등급 기반의 조건 또는 "양호", "중간", "불량" 중 하나를 부가함으로써 이러한 처리에 또한 기여할 수 있다.

추가로, 인식기 선택 결정의 결과로 되는 상술한 선택 베이스 데이터는 바람직하게 인식기의 반복되는 고속 선택을 위해서 데이터베이스에 저장된다. 이로써, 완전한 선택 결정 로직을 모두 실행시키는 대신에, 데이터베이스의 룩업과, 가능하다면 몇몇 추가적인 가능성 테스트에 주로 기초하여, 인식기 선택 결정을 행할 수 있다. 따라서, 계산 리소스가 절약될 수 있다.

추가로, 본 발명의 바람직한 측면에 따르면, 현 시스템의 부하에 의존하는 인식기의 개수를 선택하는 것이 제시된다. 이는 예를 들어, 차량에 배치되어 있는, 제한된 계산 리소스를 가진 내장형 시스템에서 바람직하다.

추가로, 본 발명의 다른 바람직한 측면에 따르면, 고려중인 애플리케이션에 대해 전형적인 여러 조건을 위하여 모델 변형식의 선행 추정값을 제공하는 것이 제시된다. 이는, 바람직하게는, 다수의 모델 자신을 저장하는 대신에 하나의 인식 모델이 다른 하나의 인식 모델로 변환되는 방식인 매핑 규칙만을 저장함으로써 행해진다. 이는 저장 공간을 절약하고 음성 인식 시스템의 작동 시간 동안에 상이한 모델을 즉시 계산할 수 있는데 도움이 된다.

따라서, 메카니즘은 현재의 음향 환경에서의 동작에 최적인 하나 이상의 변형식의 선택을 위해 제공되며, 본 방법은 시간에 따라 상당히 자주 변하는 잡음 환경에서 인식 정확도를 개선하는 인식기의 동적 조합을 위해서 제시된다.

본 발명의 구조에 의해, 상당히 가변적인 음향 환경을 취급해야 하는 음성 인식 애플리케이션에 있어서 정확도를 개선할 수 있으며, 또한, 조합된 인식기의 개수를 제한함으로써 변경가능한 계산 리소스의 경우에 조절가능한 인식 정확도를 또한 제공할 수 있다.

본 명세서에 기술된 본 발명은 불리한 음향 환경에서 범용의 HMM 기반의 음성 인식기의 간건성을 증가시키는 것이 목적이다. 음향 모델과 그들의 조합의 동적 생성에 센서 기반의 접근 방식을 사용함으로써 상술한 종래 기술의 문제점을 극복한다.

환경 특수형 인식기(environment specific recognizer)는 하나 이상의 모델 변형식을 원 음향 모델에 적용함으로써 동적으로 생성된다. 온라인 적응 기술과는 다르게, 적절한 변형식은 작동 시간 동안에 계산되지 않지만, 선행의 트레이닝 단계에서는 결정된다. 일반적인 음향 모델과 환경 특수형 변형식은 작동 시간 동안에 변형식의 센서 기반의 선택을 가능하게 하는 관련 표시 함수와 함께 저장된다. 이로써, 현재의 음향 환경의 특징과 최적으로 일치하는 모델을 생성 및 이용할 수 있다. 센서에 의해 식별되지 않는 모델 변형식은 인식 프로세스의 조합에 사용되지 않기 때문에, 계산 리소스를 불필요하게 증가시키지 않고 보다 양호한 정확도를 얻게 된다. 또한, 사전 계산된 변형식을 저장하면, 적응적 모델을 저장하는 것보다 상당히 적은 메모리를 필요로 한다.

본 발명에 따르면, 하나 또는 다수의 외부 센서에 의해 음성 인식기 작동식의 음향 환경을 특징화하는 정보를 검색하는 것과, 이러한 정보를 하나 이상의 음향 모델의 동적 생성 및 조합에 이용하는 것이 제시된다.

모델의 가중치 조합에 대한 방법은 본 발명의 범위 내에 있지 않다. 그러나, 본 명세서에 기술된 본 발명의 본래의 아이디어는 환경 특수형 사전 계산된 모델 변형식을 이용함으로써 이들 모델을 생성하는 것이다. 보다 적은 저장 용량을 필요로 한다는 상술한 장점 이외에, 하위 대역을 기반으로 하는 접근 방법에서의 계산적으로 고가의 단계인 상이한 특징 벡터의 계산을 또한 피하게 된다.

본 발명은 예시적으로 도시되며 도면의 도형 형태에 의해 제한되지 않는다.

도 1은 본 발명의 바람직한 실시예에 따른 발명의 개념의 개요를 나타내는 개략적인 블록도,

도 2는 차량의 내장형 시스템에 적용되는, 텔레마틱 분야의 예시적인 애플리케이션에서의 발명의 기본적인 개념의 개요를 나타내는 개략적인 블록도.

일반적으로 도면, 특히 도 1을 참조하면, 본 발명의 방법 및 시스템의 바람직한 실시예가 보다 상세히 설명되어 있다.

범용의 베이스라인 음성 인식기(1)는 특정 애플리케이션의 특징인 여러 음향 환경(E_j)으로부터의 트레이닝 음성 데이터(y)(참조 부호 2)의 수집에 사용된다. 환경 특수형 트레이닝 데이터(y)는 감독 또는 미감독으로 수집되며, 고려중인 동작 환경 각각에 대해 음향 모델 변형식의 계산에 사용되며, 블록 3을 참조한다. 다음에, 사전 저장된 변형식을 이용하는 특징을 예시하는 2개의 예가 주어진다.

● MLLR(최대 확률 선형 회귀 추정) 적응성은 선형 변형식을 이용하여 HMM 평균 벡터(수학식 4를 참조)를 갱신한다.

여기서, 변형 파라미터 W와 ω는 적응성 데이터(y)의 확률을 최대화하기 위해 결정된다. 수학식 4로부터의 평균 벡터의 상태 및 혼합 성분 지수는 주석의 간략화를 위해서 생략된다는 것을 알아야 한다. 상이한 변형식이 다른 (단음 또는 이음(allophone)) 부류에 속하는 평균 벡터에 적용될 수 있고, 예를 들어, 음성 및 묵음 평균 벡터에 대한 특정 변형식을 단순한 예로서 고려한다. 어느 경우든, 그 결과는 변형 파라미터 세트이다.

각각의 환경(E_j)에 대해서,

이다.

● 병렬 모델 조합(PMC)은 "잡음" HMM λ_j ^(noise) = (⑥, A, B)의 파라미터를 추정하며, 수학식 1-3을 참조하며, 이는 환경(E_j)의 영향을 모델링하고 베이스라인 인식기의 "클린"(또는 환경과는 무관) HMM과 조합된다. 따라서, 변형 파라미터는 "잡음" HMM의 파라미터, 즉,

으로 주어진다.

동작 시간 동안의 사전 계산된 환경 특수형 변형식의 적용 및 최종적인 음향 모델의 조합은 인식기 트레이닝 및 동작 시간 동안 모두에 음향 환경의 특징화를 필요로 한다. 본 발명의 실시예에 따라 이러한 목적으로, 본 발명의 범위에서 중요한 양을 계산하는 외부(물리적인) 장치 또는 컴퓨터 프로그램(소프트웨어) 또는 이들의 조합으로서 간주될 수 있는 센서가 사용된다.

베이스라인 모델에 적용되는, 블록 6에서 수행되는 하나 이상의 모델 변형식의 동작 시간 선택은 환경의 관련 파라미터를 계속해서 모니터링하는 센서 세트 5 에 의해 제공되는 출력(d_k)을 기준으로 한다. 이러한 목적으로, 센서 출력은 통계적 테스트, (2진) 결정 트리 또는 퍼지 멤버쉽 함수와 같은 방법을 사용할 수 있는 결정 로직을 통과하게 되며, 고려중인 환경 각각에 대해 신뢰 스코어 X_j, 1≤j≤n을 복원한다. 이들 테스트에 대한 파라미터는 모델 변형 추정을 위한 적응성 데이터의 처리 동안에 바람직하게 획득된다는 것을 알아야 한다. 또한, 이러한 아이디어는 예를 들어, 환경(E_j)에 대한 퍼지 멤버쉽 함수의 파라미터를 결정하는 방법에 대해 기술함으로써 설명된다.

● 인식기 트레이닝 동안에, 적응성 데이터(y)는 적응성 데이터의 환경의 음향을 기술하기 위해 유용한 외부의 양(quantity) 또는 음성 신호 자체로부터 구해진 특징을 측정할 수 있는 센서 세트 5로 전달된다.

● 센서 출력 z = d_k(y)는 양자화되어, 환경(E_j)에서 z를 관측하는 상대적인 주파수를 부여하는 히스토그램에 저장된다. 다음에, 히스토그램은 (다중 변량) 확률 밀도 함수에 의해 근사화되거나, 동작 시간 동안에 신뢰 측정값으로서 작용하는 상대적인 주파수의 직접적인 조사에 사용될 수 있다.

● 센서(d_k) 및 환경(E_j)에 대한 퍼지 멤버쉽 함수(X_jk)는 특징(z)에 걸친 구분적 선형 함수 정의의 선택에 의해 히스토그램으로부터 구성될 수 있다.

z ≤z₁이거나, z ≥z₄이면, X_jk(z) = 0

z₁ < z < z₂이면, X_jk(z) = z/(z₂ - z₁)

z₂ ≤z ≤z₃이면, X_jk(z) = 1

z₂ ≤z ≤z₃이면, X_jk(z) = 1-z/(z₄ - z₃)

여기서, 특징값(z_i)(1≤i ≤4)은 p(z ≤z_i) = q_i을 만족하는 것이 선택된다. 확률(q_i)은 전형적으로 z(예를 들어, q₁ = 0.05, q₂ = 0.20, q₃ = 0.85, q₄ = 0.95)의 드물면서 적은 빈도수의 값을 식별하는 것이 선택된다. 또한, 이는 예시적인 정의로서만 이해되어야 한다.

● 몇몇 센서가 환경을 모니터링하는데 사용되면, 논리 "AND" 연산에 대응하는

최소값을 취함으로써 퍼지 스코어의 경우에 예를 들어, 특정 환경(E_j)에 대한 최종 스코어를 획득하기 위해서, 그들의 개별적인 신뢰 스코어(X_jk)가 조합된다. 물론, 퍼지 세트 상에서 정의된 다른 연산이 또한 사용될 수 있다.

또한, 환경(또는 변환) 선택에 대한 특징은 음성 인식기에 의해 사용되는 프레임 비율 이외의 프레임 비율로 계산될 수 있으며, 일반적으로, 아웃라이어(outlier)에 대한 로버스트성을 획득하기 위해서 특정 시간 간격에 걸쳐 평균화될 수 있다. 이들은 음성 신호 자체 또는, 음향 환경에 영향을 주는 것으로 알려진 다른 양으로부터 계산될 수 있다. 신호 대 잡음비(SNR)가 음성 신호 자체로부터 계산되는 가장 중요한 파라미터 중 하나로서 간주될 수 있지만, 주행 차량의 실제 속도 또는 도로 표면과 같은 특징, 또는 화자의 성 또는 말하는 속도에 대한 지식의 활용도로서 또한 간주될 수 있다. 따라서, 관련 파라미터의 계산 또는 추출에 있어서, 완전 자동 방법 및 사용자 상호 동작을 필요로 하는 방법 모두의 이용을 주장한다.

신뢰 스코어가 상당히 변하지 않는 한, 현재의 HMM 음향 모델(7)은 입력 음성 신호(8)의 디코딩을 위해 인식기에 의해 사용된다. 하나 이상의 새로운 환경이 6에서 검출되면, 이들 환경과 관련된 변환(T_j)이 적용되며, 변환된 음향 모델은 디코딩에 사용된다. 이러한 목적으로, 신뢰 스코어가 순위 부여되며, M개의 최적의 스코어 환경에 대한 변환만이 추가 처리를 위해서 고려된다. 고려중인 환경의 개수(M)가 가변적임을 통지하는 것이 중요하다.

● 신뢰 스코어가 환경의 명확한 식별을 가능하게 하지 않으면, M은 커질 수 있다.

● 장치 또는 (원격) 인식 서버 각각의 작업부하 - 이에 대한 계산 및 분포는 종래 기술에서 알려져 있으며 현대의 운용 시스템에 존재함 - 가 이미 높다면, M은 허용가능한 응답 시간을 달성하기 위해서(인식 정확성의 희생으로) 작아질 수 있다.

또한, 획득된 신뢰 스코어는 인식기 조합(8) 동안에 또한 사용되며, 이는 보다 양호한 인식 정확도를 달성하는데 이용될 수 있다. 상술한 바와 같이, 현 기술 상태에서의 음성 인식기는 3개의 메인 처리 단계, 즉, 특징 추출, 음성 프레임의 라벨링 및 디코딩을 포함한다. 본 발명에서, 단일 특징 벡터의 이용이 제시되어 있지만, 도 1에서 참조 부호(8a)로 표시된 라벨러 또는 참조 부호(8b)로 표시된 라 벨러에서 조합될 수 있다. 제 1 경우에, 정규화 신뢰 스코어는 수학식 4의 HMM 출력 확률을 증가시키는데 사용되며,

이고, 단어 가설 조합의 경우에, 신뢰 측정값은, 각각의 인식기가 음성 신호의 임의의 주어진 간격동안에 상이한 결과를 생성하면 발생할 수 있는 타이(tie)를 해결하는데 사용될 수 있다. 이 경우에, 최적의 스코어 인식기로부터 획득되는 전사(transcription)를 고려중인 음성 신호의 일부에 할당하는 것이 제시되어 있다.

삭제

도 2를 추가로 참조하면, 본 발명의 기본적인 개념에 대한 개요가 차량의 내장형 시스템에 적용되는 텔레마틱 분야의 상술한 실시예의 적용예에 주어진다.

제 1 블록(205)에서, 4개의 센서 장치로부터 입력되는 센서 데이터 - 선택 베이스 데이터 - 는 물리적인 장치로부터 판독되며, 데이터가 프로그램 평가에 이용 가능하도록 양자화된다.

따라서, 수집된 선택 베이스 데이터는 다음의 평가 가능한 문장을 나타낸다.

1. 밀폐식 화상 인식기 툴을 구비한 카메라로부터 "운전자는 여성이다" - 210,

2. "차량의 속도는 130 km/h이다" - 220,

3. "에어컨은 동작중이며, 환기팬이 75%의 전력으로 동작하고 있다" 230,

4. 라디오는 동작중이며, 4/8의 볼륨 레벨로 동작하며, 클래식 스타일의 음악을 틀고 있다. -240.

그 다음, 단계(250)에서, 데이터베이스의 조사가 행해져서, 3/4의 조건이 충 족되는 데이터세트가 저장됨을 결정하게 된다. 따라서, 이러한 데이터세트와 관련된 모델 조합은 가장 유력한 인식기 조합 중 하나로서 마련된다.

그 다음, 단계(260)에서, 본 발명에 의해 제공되는 프로그램 제어식 아비터 수단은 수집된 데이터를 평가하는데 사용되며, 이러한 예에서 감지하는 다수의 모델 조합에 대한 스코어가 단계 270에서 결정된다. 그 다음, 단계(280)에서, 현재 이용가능한 계산 부하가 결정된다. 그 결과는, 3개의 최적 스코어 제안이 4 모델의 조합을 제시할지라도, 2 모델 조합의 최대치는 음성 인식에 사용될 수 있다는 것이다. 음성 인식보다 높은 우선 순위를 가진 2개의 다른 활동의 우선 순위로 인해 이러한 제한이 가정될 수 있다.

따라서, 다음 단계(290)에서, 2개의 모델만을 갖는 최적의 인식기 조합이 선택된다. 이는 새로운 스코어 프로세스를 필요로 한다.

그 다음, 단계(300)에서, 선택된 최적의 2개의 모델을 계산하기 위해 변환이 선택된다. 나머지는 상술한 설명에 따라서 행해진다.

본 발명은 하드웨어, 소프트웨어 또는 하드웨어와 소프트웨어의 조합으로 실현될 수 있다. 본 발명에 따른 툴은 하나의 컴퓨터 시스템에서 중앙 집중 방식으로 또는, 상이한 구성 요소가 몇몇 상호 접속된 컴퓨터 시스템에 걸쳐 분산되어 있는 분산 방식으로 실현될 수 있다. 본 명세서에 기술된 방법을 실행하도록 된 몇몇 종류의 컴퓨터 시스템 또는 다른 장치가 적합하다. 하드웨어와 소프트웨어의 전형적인 조합은, 로딩되어 실행될 때, 본 명세서에 기술된 방법을 실행하도록 컴퓨터 시스템을 제어하는 컴퓨터 프로그램을 구비한 범용 컴퓨터 시스템일 수 있다.

본 발명은 본 명세서에 기술된 방법을 구현할 수 있는 모든 특징을 포함하며, 컴퓨터 시스템에 로딩될 때, 이들 방법을 실행할 수 있는 컴퓨터 프로그램 제품에 또한 내장될 수 있다.

본 문맥에서의 컴퓨터 프로그램 수단 또는 컴퓨터 프로그램은 정보 처리 기능를 가진 시스템이 특정 기능을 직접 또는, a) 다른 언어, 코드 또는 주석으로의 전환, b) 상이한 재료 형태로의 재생 중 하나 또는 둘 다 후에 수행할 수 있게 하는 명령어 세트의 언어, 코드 또는 주석의 임의의 표현을 의미한다.

Claims

음성 인식 시스템을 작동시키는 방법으로서,

프로그램 제어식 인식기가, 음성 신호를 프레임으로 분해하고 각각의 프레임에 대한 임의 유형의 특징 벡터를 계산하는 단계와, 프레임을 음소(phoneme)마다 다수의 라벨을 생성하는 문자 또는 문자 그룹에 의해 라벨링(labelling)하는 단계와, 사전결정된 음향 모델에 따라 상기 라벨을 디코딩하여 하나 이상의 워드 또는 하나의 워드의 단편을 구성하는 단계를 수행하며, 복수의 인식기가 음성 인식을 위해 활성화되도록 액세스 가능하며, 하나의 인식기에 의해 수행되는 음성 인식의 결과를 밸런싱하기 위해 결합하되,

a) 센서 수단을 이용하여 음성 인식 경계 조건을 특징화하는 선택 베이스 데이터를 수집하는 단계와,

b) 상기 수집된 데이터를 평가하는 프로그램 제어식 아비터 수단을 이용하는 단계와,

c) 상기 평가에 따라 복수의 이용 가능한 인식기 중에서, 최상의 적합한 인식기 또는 인식기들의 조합을 선택하는 단계

를 포함하는 음성 인식 시스템의 작동 방법.
제 1 항에 있어서,

상기 센서 수단은 소프트웨어 프로그램을 포함하는 결정 로직, 물리적 센서 또는 이들의 조합 중 하나 이상인 음성 인식 시스템의 작동 방법.
제 1 항에 있어서,

상기 프로그램 제어식 아비터 수단을 이용하는 단계는

a) 통계적 테스트, 결정 트리와 퍼지 멤버쉽 함수 중 하나 이상을 구현하는 결정 로직에서의 물리적 센서 출력을 처리하는 단계와,

b) 상기 센서 선택/조합 결정에 사용될 신뢰값을 상기 처리 단계로부터 리턴하는 단계

를 포함하는 음성 인식 시스템의 작동 방법.
제 1 항에 있어서,

인식기 선택 결정으로 된 선택 베이스 데이터는, 인식기의 고속 선택을 얻기 위해서, 인식기의 반복되는 고속 액세스를 위한 데이터베이스에 저장되는 음성 인식 시스템의 작동 방법.
제 1 항에 있어서,

현재의 프로세서 부하에 따라 인식기의 개수 및/또는 조합을 선택하는 단계를 더 포함하는 음성 인식 시스템의 작동 방법.
제 1 항에 있어서,

하나의 음향 모델이 다른 하나의 음향 모델로 변환되는 방법에 관한 매핑 규칙(7)을 저장하는 단계를 더 포함하는 음성 인식 시스템의 작동 방법.
제 1 항 내지 제 6 항 중 어느 한 항에 따른 방법의 단계를 수행하는 수단을 구비한 컴퓨터 시스템.
컴퓨터 프로그램 코드 부분이 컴퓨터상에서 실행될 때, 제 1 항 내지 제 6 항 중 어느 한 항에 따른 방법의 각각의 단계를 수행하는 컴퓨터 프로그램 코드 부분을 포함하며 데이터 처리 시스템에서 실행되는 프로그램을 갖춘 컴퓨터 판독 가능 저장 매체.
삭제