KR100800367B1 - 음성 인식 시스템의 작동 방법, 컴퓨터 시스템 및 프로그램을 갖춘 컴퓨터 판독 가능 저장 매체 - Google Patents

음성 인식 시스템의 작동 방법, 컴퓨터 시스템 및 프로그램을 갖춘 컴퓨터 판독 가능 저장 매체 Download PDF

Info

Publication number
KR100800367B1
KR100800367B1 KR1020057009735A KR20057009735A KR100800367B1 KR 100800367 B1 KR100800367 B1 KR 100800367B1 KR 1020057009735 A KR1020057009735 A KR 1020057009735A KR 20057009735 A KR20057009735 A KR 20057009735A KR 100800367 B1 KR100800367 B1 KR 100800367B1
Authority
KR
South Korea
Prior art keywords
speech recognition
recognizer
combination
selection
sensor
Prior art date
Application number
KR1020057009735A
Other languages
English (en)
Other versions
KR20050090389A (ko
Inventor
볼케르 피셰르
지에그프리에드 쿤즈만
Original Assignee
인터내셔널 비지네스 머신즈 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 인터내셔널 비지네스 머신즈 코포레이션 filed Critical 인터내셔널 비지네스 머신즈 코포레이션
Publication of KR20050090389A publication Critical patent/KR20050090389A/ko
Application granted granted Critical
Publication of KR100800367B1 publication Critical patent/KR100800367B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 복수의 인식기 프로그램이 음성 인식을 위해 동작되도록 액세스가능하며, 단일 인식기에 의해 행해진 음성 인식의 결과를 효율적으로 개선하기 위해서 필요에 따라서 조합되는 음성 인식 시스템을 동작시키는 방법 및 각각의 시스템에 관한 것이다. 제한된 계산 전력만을 이용가능한 내장형 시스템에서 여러 동작 환경의 음향 조건을 동적으로 변경하기 위해서, a) 센서 수단을 이용하여 음성 인식 경계 조건을 특징화하는 선택 베이스 데이터, 예를 들어, 화자 및 환경 잡음 등을 수집(210, 220, 230, 240)하고, b) 수집된 데이터를 평가하는 프로그램 제어식 아비터 수단, 예를 들어, 소프트웨어 메카니즘을 포함한 결정 엔진과 물리적 센서를 이용하여, 복수의 이용가능한 인식기 중에서 최적의 인식기 또는 그 조합을 선택(290)하는 것이 제시되어 있다.

Description

음성 인식 시스템의 작동 방법, 컴퓨터 시스템 및 프로그램을 갖춘 컴퓨터 판독 가능 저장 매체{SENSOR BASED SPEECH RECOGNIZER SELECTION, ADAPTATION AND COMBINATION}
본 발명은 컴퓨터화 음성 인식 분야에 관한 것이다.
특히, 본 발명은, 프로그램 제어식 인식기가 이하의 단계,
1. 음성 신호를 짧은 시간 간격, 즉, 반드시 그러하지는 않지만, 예를 들어, 스펙트럼 계수를 포함하는 각각의 프레임에 대한 추출된 특성 벡터를 산출하는 동일 길이의 프레임으로 분해하는 단계와,
2. 문자 또는 문자 그룹으로 프레임을 라벨링(labelling)하여, 프레임에 대한 다수의 라벨을 생성하는 단계와,
3. 상기 라벨을 디코딩하여 하나 이상의 단어 또는 하나의 단어의 단편(fragments of a ward)을 구성하는 단계를 수행하며,
4. 여기서, 다수의 인식기는 음성 인식용으로 작동되도록 액세스 가능하며, 단일의 인식기에 의해 행해지는 음성 인식의 결과를 개선하기 위해서, 온 디멘드 방식으로 조합되는, 대규모 어휘의 음성 인식 시스템을 작동시키는 방법에 관한 것이다.
보다 구체적으로, 상술한 이러한 연속적 음성 인식기는, 예를 들어, 단음 또는 삼중음(triphone)과 같은 문맥 의존의 하위 워드 단위를 기본적인 은닉 마르코프 모델(Hidden Markov Model)(이하, "HMM"이라 함)로서 모델링하여 언어음(speech sound)의 여러 변화를 캡쳐한다. 이들 모델의 통계적인 파라미터는 일반적으로 수백 시간의 라벨 표시 트레이닝 데이터로부터 추정된다. 트레이닝 데이터가 애플리케이션 시나리오의 음향 특성에 충분히 일치하는 경우에, 높은 인식 정확도가 가능하지만, 상당히 다르고 혹은 매우 동적으로 가변하는 특성을 가진 음향 환경을 음성 인식기가 극복해야 하는 경우에, 인식의 정확도가 상당히 감소됨을 알 수 있다.
온라인과 (미)감독 배치 적응성(batch adaptation) 기술 모두는 음향 모델 파라미터의 재추정에 의한 문제점을 다루고 있지만, 이들 기술 모두는 매우 소량의 데이터만이 이용 가능하고 및/또는 계산 리소스가 희박한 경우에는, 실행 불가능하거나, 또는 배치 적응성의 경우에는, 음향 환경의 동적 변화를 적절히 다룰 수 없다.
최근의 대규모 어휘의 연속적 음성 인식기는 은닉 마르코프 모델(HMM)을 이용하여, 음성 신호로부터의 최대 귀납적 확률을 가진 워드 시퀀스(w)를 계산한다.
은닉 마르코프 모델은, 유한 상태 세트 S = {s1,..., sN}에 대해서 동작하여 하나의 상태가 차지하는 출력 각각의 시간(t)(t = 1, 2, ...,T)을 관측할 수 있는 확률적 자동식 A = (π, A, B)이다. 초기 상태 벡터
Figure 112005028458871-pct00001
는 시간(t = 1)에서 HMM이 상태 si에 있을 확률을 제공하며, 전이 행렬
Figure 112005028458871-pct00002
은 상태 si에서 상태 sj로의 전이를 나타내는 1차 시불변(first order time invariant) 프로세스의 확률을 유지한다. 관측값은 음성 신호로부터 생성되는 연속적인 값의 특징 벡터 x ∈ R이며, 출력 확률은 확률 밀도 함수의 집합(이하, pdfs라 함)으로 정의된다.
Figure 112005028458871-pct00003
임의의 주어진 HMM 상태(si)에 있어서, 미지의 분포 p(x|si)는 기본 가우스 pdfs의 혼합에 의해 대체로 근사화된다.
Figure 112005028458871-pct00004
여기서, Mi는 상태(si)와 관련된 가우스 집합이다. 또한, x는 관측된 특징 벡터를 나타내며, wji는 제 i 출력 분포에 대한 제 j 혼합 성분의 가중치이며, μji와 Γji는 상태(si)에서의 제 j 가우스의 평균 및 공분산 행렬이다. 수학식 4로부터의 평균 벡터의 상태 및 혼합 성분의 지수는 표기의 간략성을 위해서 생략되어 있음을 알아야 한다.
최신 기술의 음성 인식기는 일반적으로 다음의 부품으로 구성되어 있다.
● 특징 추출부는 신호의 짧은 부분(프레임)을 분류할 수 있는 파라미터 표현식을 계산한다. 자주 사용되는 특징은 에너지 값과 그들의 시간 미분에 의해 종종 보강되는 스펙트럼 파라미터 또는 멜-주파수-켑스트럼 계수(Mel-Frequency-Cepstrum Coefficient : MFCC)이다.
● "라벨러(labeller)"는 문맥 의존의 단음 또는 하위 음과 같은 가능한 의미있는 하위 워드 단위를 나타내는 다수의 라벨을 각각의 특징 벡터에 붙인다. 특징 벡터의 일반적인 분류 기술은 예를 들어, 가우스 혼합 밀도를 이용한 통계적인 분류 또는 중립 네트워크를 이용한 분류를 포함한다.
● "디코더"는 각각의 라벨을 HMM의 출력으로서 해석하고 최대의 귀납적 확률의 워드 시퀀스를 계산한다. 라벨링 단계의 다른 결과에 효율적으로 대처하기 위해서, 서치 전략과 전지(pruning) 기술이 사용된다. 일반적인 예에는 비동기 스택 디코딩 및 시간 동기의 비터비 디코딩 또는 빔 서치가 있다.
병렬로 동작하는 몇몇 베이스 인식기로부터의 결과를 조합하여 워드 오류률 을 상당히 감소시킬 수 있다는 것이 최근 증명되었다. 3개의 주요 접근 방법은 구별될 수 있다.
● 특징 조합 방법은 상이한 집합의 특징을 계산하여, 라벨러로 전달되는 단일의 특징 벡터로 구성한다.
● 우도(likelihood) 조합 방법은 상이한 특징 벡터를 또한 계산하지만, 그들을 개별적으로 분류한다. 상이한 라벨링 단계의 결과는 그들의 증거(evidence)에 근거하여 조합되며, 각각의 프레임에 있어서, 다른 라벨의 단일 벡터는 디코더로 전달된다.
● ROVER(Recognizer Output Voting Error Reduction)는 동적 프로그래밍 기술을 이용하여 몇몇 디코더 패스(pass)로부터의 출력을 단일의 워드 가설 네트워크에 합체시키는 전처리 방법이다. 조합된 네트워크의 각각의 분기점에서, 후속의 투표 메카니즘은 최종 옮겨쓰기에 있어서 최상위 스코어를 가진 워드를 선택한다.
본 명세서에 제시된 본 발명의 주요 목적은 인식의 정확도 증가를 유지하면서 이들 방법과 관련된 문제점을 극복하는 것이다.
문제점 소개
트레이닝 데이터에 적절히 표현되지 않는 음향 환경에서 사용된 경우에는 음성 인식기의 인식 정확도가 상당히 감소한다는 것은 종래 기술에서 이미 알려져 있다. 테스크탑 딕테이션(desktop dictation) 등의 애플리케이션에서, 이러한 문제점은 단말기 사용자가 상이한 환경에서 시스템에 등록함으로써 용이하게 극복될 수 있으며, 입력 특징 벡터의 정규화 방법이 또한 고려될 수 있다. 그러나. 편재형 컴퓨팅(pervasive computing)에서의 입력 매체로서 음성이 중요한 역할을 하는 경우에는 선행의 적응 단계를 허용하지 않는 애플리케이션의 개수는 증가한다. 또한, 인식기가 상당수의 동적으로 변화하는 음향 환경을 다루어야 한다면, 적응 방법은 충분한 양의 온라인 적응 데이터의 부족으로 인해, 또는 제한된 계산 리소스로 인해 실행불가능하게 될 수 있다.
상당수의 파라미터를 가진 보다 정확한 음향 모델이 이러한 상황을 극복하는데 도움이 될 것이지만, 본 명세서에 기술된 본 발명에서 목표가 되는 전형적인 애플리케이션에서는 실행 불가능하다. 이들은 대화식 음성 응답 솔루션, 소비자 장치(이동 전화, PDA, 홈 가전 제품)의 음성 구동식 인터페이스, 및 차량의 낮은 자원 음성 인식과 같은 애플리케이션이다.
상술한 조합 방법은 단일의 베이스 인식기에 비해 잡음 환경에서 상당히 양호한 정확도를 산출할 수 있음이 문헌에서 증명되었다. 그러나, 이들 방법은 CPU에 계산 부담을 증가시키고 또한 몇몇 음향 모델과 중간 결과의 저장을 위해 큰 용량의 메모리를 필요로 하여, 이들 방법은 낮은 자원 음성 인식에 있어서는 아직까지 적합하지 않다.
미국 특허 출원 제 2002/0065584 A1호에는, 내장형 시스템을 위해 서로 다른 유형의 환경적 잡음을 적응시키도록 구성되는 음성 인식 시스템이 개시되어 있다. 불리하게도, 이러한 종래 기술의 시스템은 상대적으로 낮은 인식율을 가지며, 낮은 정도의 계산 리소스를 갖는 시스템과 상대적으로 높은 정도의 계산 리소스를 갖는 시스템간에 적응시키기 위한 크기 조정이 불가능하다.
본 발명의 목적
따라서, 본 발명의 목적은 스피커 환경에서의 동적으로 변하는 잡음에 적응되며, 제한된 리소스로 인해 제한된 컴퓨팅 전력만을 이용 가능한 (내장형) 시스템에서 동작하는 특정 조건에 적응적인 음성 인식 방법 및 시스템을 제공하는 것이다.
본 발명의 개요 및 장점
본 발명의 이러한 목적은 독립항에 기술된 특징에 의해 달성된다. 본 발명의 다른 바람직한 배열 및 실시예는 각각의 종속항에 기술되어 있다. 이하는 첨부된 청구항을 참조한다.
본 발명의 기본적인 측면에 따르면, 음성 인식 시스템 내에서 다음의 단계
a) 음성 인식 경계 조건, 예를 들어, 화자, 환경적인 잡음을 특징화하는 선택 베이스 데이터를 센서 수단을 이용하여 수집하는 단계와,
b) 수집된 데이터를 평가하는 프로그램 제어식 조정 수단, 즉, 소프트웨어 메카니즘, 물리적인 센서, 그들의 조합 등을 포함한 결정 엔진을 이용하는 단계와,
c) 상기 평가에 따라서 다수의 이용 가능한 인식기 중에서 최적의 인식기 또는 그 조합을 선택하는 단계
를 수행하는 것이 제시된다.
이로써, 중요한 장점이, 가변적인 잡음 레벨을 가지고 있으며, 다수의 "감지 수단"이 이미 존재하는 환경에서, 달성될 수 있다. 지식의 증가는 인식율을 증가시킨다는 생각에 착안하여, 현재 말하고 있는 상황을 정의하는 세부 항목에 대한 이해를 증가시키기 위해서, 센서 수단은 매우 광범위하게 이해, 즉, 물리적 즉 논리적인 프로그램 형태이면, 추가적인 사용자 입력으로 또는 사용자 입력없이 컴퓨터 프로그램에 의해 평가될 수 있는 상술한 선택 베이스 데이터를 공급할 수 있는 임의의 배열을 정의하는 것이다. 따라서, 센서 수단은 바람직하게, 예를 들어, 여름/겨울용 타이어가 장착된 특정의 차량 모델 등에서 특정의 속도로 주행할 때 발생되는 잡음을 감지하는 마이크로폰, 카메라와 같은 물리적인 센서에 의해 감지될 수 있는 몇몇 베이스 데이터, 다른 이용가능한 데이터로부터 평가되는 잡음 발생 장치(예를 들어, 환기팬 장치, 뮤직)의 ON/OFF 위치를 해석하거나, 사용자로부터 요청될 수 있는 소프트웨어 프로그램을 포함한 결정 로직일 수 있다. 물론, 이들의 조합이 또한 사용될 수 있다. 따라서, 수집된 감지 데이터의 몇몇 처리는 센서 수단 내에 포함되는 것으로 간주된다.
추가로, 효율적인 평가를 위해서는 바람직하게 다음의 단계,
a) 통계적인 테스트, 결정 트리, 퍼지 멤버쉽 기능 중 하나 이상을 구현하는 결정 로직에서 물리적인 센서 출력을 처리하는 단계와,
b) 상술한 처리로부터 센서 선택/혼합 결정에 사용되는 신뢰값을 리턴하는 단계가 부가될 수 있다.
추가로, 사용자는 등급 기준, 예를 들어, 상술한 처리에 따라서 정의된 몇몇 조건 하에서 음성 인식이 얼마나 "양호"한 지를 나타내는 숫자 등급 기반의 조건 또는 "양호", "중간", "불량" 중 하나를 부가함으로써 이러한 처리에 또한 기여할 수 있다.
추가로, 인식기 선택 결정의 결과로 되는 상술한 선택 베이스 데이터는 바람직하게 인식기의 반복되는 고속 선택을 위해서 데이터베이스에 저장된다. 이로써, 완전한 선택 결정 로직을 모두 실행시키는 대신에, 데이터베이스의 룩업과, 가능하다면 몇몇 추가적인 가능성 테스트에 주로 기초하여, 인식기 선택 결정을 행할 수 있다. 따라서, 계산 리소스가 절약될 수 있다.
추가로, 본 발명의 바람직한 측면에 따르면, 현 시스템의 부하에 의존하는 인식기의 개수를 선택하는 것이 제시된다. 이는 예를 들어, 차량에 배치되어 있는, 제한된 계산 리소스를 가진 내장형 시스템에서 바람직하다.
추가로, 본 발명의 다른 바람직한 측면에 따르면, 고려중인 애플리케이션에 대해 전형적인 여러 조건을 위하여 모델 변형식의 선행 추정값을 제공하는 것이 제시된다. 이는, 바람직하게는, 다수의 모델 자신을 저장하는 대신에 하나의 인식 모델이 다른 하나의 인식 모델로 변환되는 방식인 매핑 규칙만을 저장함으로써 행해진다. 이는 저장 공간을 절약하고 음성 인식 시스템의 작동 시간 동안에 상이한 모델을 즉시 계산할 수 있는데 도움이 된다.
따라서, 메카니즘은 현재의 음향 환경에서의 동작에 최적인 하나 이상의 변형식의 선택을 위해 제공되며, 본 방법은 시간에 따라 상당히 자주 변하는 잡음 환경에서 인식 정확도를 개선하는 인식기의 동적 조합을 위해서 제시된다.
본 발명의 구조에 의해, 상당히 가변적인 음향 환경을 취급해야 하는 음성 인식 애플리케이션에 있어서 정확도를 개선할 수 있으며, 또한, 조합된 인식기의 개수를 제한함으로써 변경가능한 계산 리소스의 경우에 조절가능한 인식 정확도를 또한 제공할 수 있다.
본 명세서에 기술된 본 발명은 불리한 음향 환경에서 범용의 HMM 기반의 음성 인식기의 간건성을 증가시키는 것이 목적이다. 음향 모델과 그들의 조합의 동적 생성에 센서 기반의 접근 방식을 사용함으로써 상술한 종래 기술의 문제점을 극복한다.
환경 특수형 인식기(environment specific recognizer)는 하나 이상의 모델 변형식을 원 음향 모델에 적용함으로써 동적으로 생성된다. 온라인 적응 기술과는 다르게, 적절한 변형식은 작동 시간 동안에 계산되지 않지만, 선행의 트레이닝 단계에서는 결정된다. 일반적인 음향 모델과 환경 특수형 변형식은 작동 시간 동안에 변형식의 센서 기반의 선택을 가능하게 하는 관련 표시 함수와 함께 저장된다. 이로써, 현재의 음향 환경의 특징과 최적으로 일치하는 모델을 생성 및 이용할 수 있다. 센서에 의해 식별되지 않는 모델 변형식은 인식 프로세스의 조합에 사용되지 않기 때문에, 계산 리소스를 불필요하게 증가시키지 않고 보다 양호한 정확도를 얻게 된다. 또한, 사전 계산된 변형식을 저장하면, 적응적 모델을 저장하는 것보다 상당히 적은 메모리를 필요로 한다.
본 발명에 따르면, 하나 또는 다수의 외부 센서에 의해 음성 인식기 작동식의 음향 환경을 특징화하는 정보를 검색하는 것과, 이러한 정보를 하나 이상의 음향 모델의 동적 생성 및 조합에 이용하는 것이 제시된다.
모델의 가중치 조합에 대한 방법은 본 발명의 범위 내에 있지 않다. 그러나, 본 명세서에 기술된 본 발명의 본래의 아이디어는 환경 특수형 사전 계산된 모델 변형식을 이용함으로써 이들 모델을 생성하는 것이다. 보다 적은 저장 용량을 필요로 한다는 상술한 장점 이외에, 하위 대역을 기반으로 하는 접근 방법에서의 계산적으로 고가의 단계인 상이한 특징 벡터의 계산을 또한 피하게 된다.
본 발명은 예시적으로 도시되며 도면의 도형 형태에 의해 제한되지 않는다.
도 1은 본 발명의 바람직한 실시예에 따른 발명의 개념의 개요를 나타내는 개략적인 블록도,
도 2는 차량의 내장형 시스템에 적용되는, 텔레마틱 분야의 예시적인 애플리케이션에서의 발명의 기본적인 개념의 개요를 나타내는 개략적인 블록도.
일반적으로 도면, 특히 도 1을 참조하면, 본 발명의 방법 및 시스템의 바람직한 실시예가 보다 상세히 설명되어 있다.
범용의 베이스라인 음성 인식기(1)는 특정 애플리케이션의 특징인 여러 음향 환경(Ej)으로부터의 트레이닝 음성 데이터(y)(참조 부호 2)의 수집에 사용된다. 환경 특수형 트레이닝 데이터(y)는 감독 또는 미감독으로 수집되며, 고려중인 동작 환경 각각에 대해 음향 모델 변형식의 계산에 사용되며, 블록 3을 참조한다. 다음에, 사전 저장된 변형식을 이용하는 특징을 예시하는 2개의 예가 주어진다.
● MLLR(최대 확률 선형 회귀 추정) 적응성은 선형 변형식을 이용하여 HMM 평균 벡터(수학식 4를 참조)를 갱신한다.
Figure 112005028458871-pct00005
여기서, 변형 파라미터 W와 ω는 적응성 데이터(y)의 확률을 최대화하기 위해 결정된다. 수학식 4로부터의 평균 벡터의 상태 및 혼합 성분 지수는 주석의 간략화를 위해서 생략된다는 것을 알아야 한다. 상이한 변형식이 다른 (단음 또는 이음(allophone)) 부류에 속하는 평균 벡터에 적용될 수 있고, 예를 들어, 음성 및 묵음 평균 벡터에 대한 특정 변형식을 단순한 예로서 고려한다. 어느 경우든, 그 결과는 변형 파라미터 세트이다.
각각의 환경(Ej)에 대해서,
Figure 112005028458871-pct00006
이다.
● 병렬 모델 조합(PMC)은 "잡음" HMM λj (noise) = (⑥, A, B)의 파라미터를 추정하며, 수학식 1-3을 참조하며, 이는 환경(Ej)의 영향을 모델링하고 베이스라인 인식기의 "클린"(또는 환경과는 무관) HMM과 조합된다. 따라서, 변형 파라미터는 "잡음" HMM의 파라미터, 즉,
Figure 112005028458871-pct00007
으로 주어진다.
동작 시간 동안의 사전 계산된 환경 특수형 변형식의 적용 및 최종적인 음향 모델의 조합은 인식기 트레이닝 및 동작 시간 동안 모두에 음향 환경의 특징화를 필요로 한다. 본 발명의 실시예에 따라 이러한 목적으로, 본 발명의 범위에서 중요한 양을 계산하는 외부(물리적인) 장치 또는 컴퓨터 프로그램(소프트웨어) 또는 이들의 조합으로서 간주될 수 있는 센서가 사용된다.
베이스라인 모델에 적용되는, 블록 6에서 수행되는 하나 이상의 모델 변형식의 동작 시간 선택은 환경의 관련 파라미터를 계속해서 모니터링하는 센서 세트 5 에 의해 제공되는 출력(dk)을 기준으로 한다. 이러한 목적으로, 센서 출력은 통계적 테스트, (2진) 결정 트리 또는 퍼지 멤버쉽 함수와 같은 방법을 사용할 수 있는 결정 로직을 통과하게 되며, 고려중인 환경 각각에 대해 신뢰 스코어 Xj, 1≤j≤n을 복원한다. 이들 테스트에 대한 파라미터는 모델 변형 추정을 위한 적응성 데이터의 처리 동안에 바람직하게 획득된다는 것을 알아야 한다. 또한, 이러한 아이디어는 예를 들어, 환경(Ej)에 대한 퍼지 멤버쉽 함수의 파라미터를 결정하는 방법에 대해 기술함으로써 설명된다.
● 인식기 트레이닝 동안에, 적응성 데이터(y)는 적응성 데이터의 환경의 음향을 기술하기 위해 유용한 외부의 양(quantity) 또는 음성 신호 자체로부터 구해진 특징을 측정할 수 있는 센서 세트 5로 전달된다.
● 센서 출력 z = dk(y)는 양자화되어, 환경(Ej)에서 z를 관측하는 상대적인 주파수를 부여하는 히스토그램에 저장된다. 다음에, 히스토그램은 (다중 변량) 확률 밀도 함수에 의해 근사화되거나, 동작 시간 동안에 신뢰 측정값으로서 작용하는 상대적인 주파수의 직접적인 조사에 사용될 수 있다.
● 센서(dk) 및 환경(Ej)에 대한 퍼지 멤버쉽 함수(Xjk)는 특징(z)에 걸친 구분적 선형 함수 정의의 선택에 의해 히스토그램으로부터 구성될 수 있다.
z ≤z1이거나, z ≥z4이면, Xjk(z) = 0
z1 < z < z2이면, Xjk(z) = z/(z2 - z1)
z2 ≤z ≤z3이면, Xjk(z) = 1
z2 ≤z ≤z3이면, Xjk(z) = 1-z/(z4 - z3)
여기서, 특징값(zi)(1≤i ≤4)은 p(z ≤zi) = qi을 만족하는 것이 선택된다. 확률(qi)은 전형적으로 z(예를 들어, q1 = 0.05, q2 = 0.20, q3 = 0.85, q4 = 0.95)의 드물면서 적은 빈도수의 값을 식별하는 것이 선택된다. 또한, 이는 예시적인 정의로서만 이해되어야 한다.
● 몇몇 센서가 환경을 모니터링하는데 사용되면, 논리 "AND" 연산에 대응하는
Figure 112005028458871-pct00008
최소값을 취함으로써 퍼지 스코어의 경우에 예를 들어, 특정 환경(Ej)에 대한 최종 스코어를 획득하기 위해서, 그들의 개별적인 신뢰 스코어(Xjk)가 조합된다. 물론, 퍼지 세트 상에서 정의된 다른 연산이 또한 사용될 수 있다.
또한, 환경(또는 변환) 선택에 대한 특징은 음성 인식기에 의해 사용되는 프레임 비율 이외의 프레임 비율로 계산될 수 있으며, 일반적으로, 아웃라이어(outlier)에 대한 로버스트성을 획득하기 위해서 특정 시간 간격에 걸쳐 평균화될 수 있다. 이들은 음성 신호 자체 또는, 음향 환경에 영향을 주는 것으로 알려진 다른 양으로부터 계산될 수 있다. 신호 대 잡음비(SNR)가 음성 신호 자체로부터 계산되는 가장 중요한 파라미터 중 하나로서 간주될 수 있지만, 주행 차량의 실제 속도 또는 도로 표면과 같은 특징, 또는 화자의 성 또는 말하는 속도에 대한 지식의 활용도로서 또한 간주될 수 있다. 따라서, 관련 파라미터의 계산 또는 추출에 있어서, 완전 자동 방법 및 사용자 상호 동작을 필요로 하는 방법 모두의 이용을 주장한다.
신뢰 스코어가 상당히 변하지 않는 한, 현재의 HMM 음향 모델(7)은 입력 음성 신호(8)의 디코딩을 위해 인식기에 의해 사용된다. 하나 이상의 새로운 환경이 6에서 검출되면, 이들 환경과 관련된 변환(Tj)이 적용되며, 변환된 음향 모델은 디코딩에 사용된다. 이러한 목적으로, 신뢰 스코어가 순위 부여되며, M개의 최적의 스코어 환경에 대한 변환만이 추가 처리를 위해서 고려된다. 고려중인 환경의 개수(M)가 가변적임을 통지하는 것이 중요하다.
● 신뢰 스코어가 환경의 명확한 식별을 가능하게 하지 않으면, M은 커질 수 있다.
● 장치 또는 (원격) 인식 서버 각각의 작업부하 - 이에 대한 계산 및 분포는 종래 기술에서 알려져 있으며 현대의 운용 시스템에 존재함 - 가 이미 높다면, M은 허용가능한 응답 시간을 달성하기 위해서(인식 정확성의 희생으로) 작아질 수 있다.
또한, 획득된 신뢰 스코어는 인식기 조합(8) 동안에 또한 사용되며, 이는 보다 양호한 인식 정확도를 달성하는데 이용될 수 있다. 상술한 바와 같이, 현 기술 상태에서의 음성 인식기는 3개의 메인 처리 단계, 즉, 특징 추출, 음성 프레임의 라벨링 및 디코딩을 포함한다. 본 발명에서, 단일 특징 벡터의 이용이 제시되어 있지만, 도 1에서 참조 부호(8a)로 표시된 라벨러 또는 참조 부호(8b)로 표시된 라 벨러에서 조합될 수 있다. 제 1 경우에, 정규화 신뢰 스코어는 수학식 4의 HMM 출력 확률을 증가시키는데 사용되며,
Figure 112005051381603-pct00009

이고, 단어 가설 조합의 경우에, 신뢰 측정값은, 각각의 인식기가 음성 신호의 임의의 주어진 간격동안에 상이한 결과를 생성하면 발생할 수 있는 타이(tie)를 해결하는데 사용될 수 있다. 이 경우에, 최적의 스코어 인식기로부터 획득되는 전사(transcription)를 고려중인 음성 신호의 일부에 할당하는 것이 제시되어 있다.
삭제
도 2를 추가로 참조하면, 본 발명의 기본적인 개념에 대한 개요가 차량의 내장형 시스템에 적용되는 텔레마틱 분야의 상술한 실시예의 적용예에 주어진다.
제 1 블록(205)에서, 4개의 센서 장치로부터 입력되는 센서 데이터 - 선택 베이스 데이터 - 는 물리적인 장치로부터 판독되며, 데이터가 프로그램 평가에 이용 가능하도록 양자화된다.
따라서, 수집된 선택 베이스 데이터는 다음의 평가 가능한 문장을 나타낸다.
1. 밀폐식 화상 인식기 툴을 구비한 카메라로부터 "운전자는 여성이다" - 210,
2. "차량의 속도는 130 km/h이다" - 220,
3. "에어컨은 동작중이며, 환기팬이 75%의 전력으로 동작하고 있다" 230,
4. 라디오는 동작중이며, 4/8의 볼륨 레벨로 동작하며, 클래식 스타일의 음악을 틀고 있다. -240.
그 다음, 단계(250)에서, 데이터베이스의 조사가 행해져서, 3/4의 조건이 충 족되는 데이터세트가 저장됨을 결정하게 된다. 따라서, 이러한 데이터세트와 관련된 모델 조합은 가장 유력한 인식기 조합 중 하나로서 마련된다.
그 다음, 단계(260)에서, 본 발명에 의해 제공되는 프로그램 제어식 아비터 수단은 수집된 데이터를 평가하는데 사용되며, 이러한 예에서 감지하는 다수의 모델 조합에 대한 스코어가 단계 270에서 결정된다. 그 다음, 단계(280)에서, 현재 이용가능한 계산 부하가 결정된다. 그 결과는, 3개의 최적 스코어 제안이 4 모델의 조합을 제시할지라도, 2 모델 조합의 최대치는 음성 인식에 사용될 수 있다는 것이다. 음성 인식보다 높은 우선 순위를 가진 2개의 다른 활동의 우선 순위로 인해 이러한 제한이 가정될 수 있다.
따라서, 다음 단계(290)에서, 2개의 모델만을 갖는 최적의 인식기 조합이 선택된다. 이는 새로운 스코어 프로세스를 필요로 한다.
그 다음, 단계(300)에서, 선택된 최적의 2개의 모델을 계산하기 위해 변환이 선택된다. 나머지는 상술한 설명에 따라서 행해진다.
본 발명은 하드웨어, 소프트웨어 또는 하드웨어와 소프트웨어의 조합으로 실현될 수 있다. 본 발명에 따른 툴은 하나의 컴퓨터 시스템에서 중앙 집중 방식으로 또는, 상이한 구성 요소가 몇몇 상호 접속된 컴퓨터 시스템에 걸쳐 분산되어 있는 분산 방식으로 실현될 수 있다. 본 명세서에 기술된 방법을 실행하도록 된 몇몇 종류의 컴퓨터 시스템 또는 다른 장치가 적합하다. 하드웨어와 소프트웨어의 전형적인 조합은, 로딩되어 실행될 때, 본 명세서에 기술된 방법을 실행하도록 컴퓨터 시스템을 제어하는 컴퓨터 프로그램을 구비한 범용 컴퓨터 시스템일 수 있다.
본 발명은 본 명세서에 기술된 방법을 구현할 수 있는 모든 특징을 포함하며, 컴퓨터 시스템에 로딩될 때, 이들 방법을 실행할 수 있는 컴퓨터 프로그램 제품에 또한 내장될 수 있다.
본 문맥에서의 컴퓨터 프로그램 수단 또는 컴퓨터 프로그램은 정보 처리 기능를 가진 시스템이 특정 기능을 직접 또는, a) 다른 언어, 코드 또는 주석으로의 전환, b) 상이한 재료 형태로의 재생 중 하나 또는 둘 다 후에 수행할 수 있게 하는 명령어 세트의 언어, 코드 또는 주석의 임의의 표현을 의미한다.

Claims (9)

  1. 음성 인식 시스템을 작동시키는 방법으로서,
    프로그램 제어식 인식기가, 음성 신호를 프레임으로 분해하고 각각의 프레임에 대한 임의 유형의 특징 벡터를 계산하는 단계와, 프레임을 음소(phoneme)마다 다수의 라벨을 생성하는 문자 또는 문자 그룹에 의해 라벨링(labelling)하는 단계와, 사전결정된 음향 모델에 따라 상기 라벨을 디코딩하여 하나 이상의 워드 또는 하나의 워드의 단편을 구성하는 단계를 수행하며, 복수의 인식기가 음성 인식을 위해 활성화되도록 액세스 가능하며, 하나의 인식기에 의해 수행되는 음성 인식의 결과를 밸런싱하기 위해 결합하되,
    a) 센서 수단을 이용하여 음성 인식 경계 조건을 특징화하는 선택 베이스 데이터를 수집하는 단계와,
    b) 상기 수집된 데이터를 평가하는 프로그램 제어식 아비터 수단을 이용하는 단계와,
    c) 상기 평가에 따라 복수의 이용 가능한 인식기 중에서, 최상의 적합한 인식기 또는 인식기들의 조합을 선택하는 단계
    를 포함하는 음성 인식 시스템의 작동 방법.
  2. 제 1 항에 있어서,
    상기 센서 수단은 소프트웨어 프로그램을 포함하는 결정 로직, 물리적 센서 또는 이들의 조합 중 하나 이상인 음성 인식 시스템의 작동 방법.
  3. 제 1 항에 있어서,
    상기 프로그램 제어식 아비터 수단을 이용하는 단계는
    a) 통계적 테스트, 결정 트리와 퍼지 멤버쉽 함수 중 하나 이상을 구현하는 결정 로직에서의 물리적 센서 출력을 처리하는 단계와,
    b) 상기 센서 선택/조합 결정에 사용될 신뢰값을 상기 처리 단계로부터 리턴하는 단계
    를 포함하는 음성 인식 시스템의 작동 방법.
  4. 제 1 항에 있어서,
    인식기 선택 결정으로 된 선택 베이스 데이터는, 인식기의 고속 선택을 얻기 위해서, 인식기의 반복되는 고속 액세스를 위한 데이터베이스에 저장되는 음성 인식 시스템의 작동 방법.
  5. 제 1 항에 있어서,
    현재의 프로세서 부하에 따라 인식기의 개수 및/또는 조합을 선택하는 단계를 더 포함하는 음성 인식 시스템의 작동 방법.
  6. 제 1 항에 있어서,
    하나의 음향 모델이 다른 하나의 음향 모델로 변환되는 방법에 관한 매핑 규칙(7)을 저장하는 단계를 더 포함하는 음성 인식 시스템의 작동 방법.
  7. 제 1 항 내지 제 6 항 중 어느 한 항에 따른 방법의 단계를 수행하는 수단을 구비한 컴퓨터 시스템.
  8. 컴퓨터 프로그램 코드 부분이 컴퓨터상에서 실행될 때, 제 1 항 내지 제 6 항 중 어느 한 항에 따른 방법의 각각의 단계를 수행하는 컴퓨터 프로그램 코드 부분을 포함하며 데이터 처리 시스템에서 실행되는 프로그램을 갖춘 컴퓨터 판독 가능 저장 매체.
  9. 삭제
KR1020057009735A 2002-12-20 2003-10-31 음성 인식 시스템의 작동 방법, 컴퓨터 시스템 및 프로그램을 갖춘 컴퓨터 판독 가능 저장 매체 KR100800367B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP02102875.8 2002-12-20
EP02102875 2002-12-20

Publications (2)

Publication Number Publication Date
KR20050090389A KR20050090389A (ko) 2005-09-13
KR100800367B1 true KR100800367B1 (ko) 2008-02-04

Family

ID=32668901

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020057009735A KR100800367B1 (ko) 2002-12-20 2003-10-31 음성 인식 시스템의 작동 방법, 컴퓨터 시스템 및 프로그램을 갖춘 컴퓨터 판독 가능 저장 매체

Country Status (9)

Country Link
US (1) US7302393B2 (ko)
EP (1) EP1576581B1 (ko)
JP (1) JP2006510933A (ko)
KR (1) KR100800367B1 (ko)
CN (1) CN100552773C (ko)
AU (1) AU2003293646A1 (ko)
CA (1) CA2507999C (ko)
TW (1) TWI245259B (ko)
WO (1) WO2004057574A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9626962B2 (en) 2014-05-02 2017-04-18 Samsung Electronics Co., Ltd. Method and apparatus for recognizing speech, and method and apparatus for generating noise-speech recognition model

Families Citing this family (101)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
JP4352790B2 (ja) * 2002-10-31 2009-10-28 セイコーエプソン株式会社 音響モデル作成方法および音声認識装置ならびに音声認識装置を有する乗り物
CN100369113C (zh) * 2004-12-31 2008-02-13 中国科学院自动化研究所 利用增益自适应提高语音识别率的方法
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
DE602006010505D1 (de) 2005-12-12 2009-12-31 Gregory John Gadbois Mehrstimmige Spracherkennung
US8380506B2 (en) * 2006-01-27 2013-02-19 Georgia Tech Research Corporation Automatic pattern recognition using category dependent feature selection
KR100770896B1 (ko) 2006-03-07 2007-10-26 삼성전자주식회사 음성 신호에서 음소를 인식하는 방법 및 그 시스템
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US20080071540A1 (en) * 2006-09-13 2008-03-20 Honda Motor Co., Ltd. Speech recognition method for robot under motor noise thereof
US8996379B2 (en) 2007-03-07 2015-03-31 Vlingo Corporation Speech recognition text entry for software applications
US8886545B2 (en) 2007-03-07 2014-11-11 Vlingo Corporation Dealing with switch latency in speech recognition
US8886540B2 (en) 2007-03-07 2014-11-11 Vlingo Corporation Using speech recognition results based on an unstructured language model in a mobile communication facility application
US10056077B2 (en) 2007-03-07 2018-08-21 Nuance Communications, Inc. Using speech recognition results based on an unstructured language model with a music system
US8635243B2 (en) 2007-03-07 2014-01-21 Research In Motion Limited Sending a communications header with voice recording to send metadata for use in speech recognition, formatting, and search mobile search application
US8838457B2 (en) 2007-03-07 2014-09-16 Vlingo Corporation Using results of unstructured language model based speech recognition to control a system-level function of a mobile communications facility
US8949130B2 (en) * 2007-03-07 2015-02-03 Vlingo Corporation Internal and external speech recognition use with a mobile communication facility
US8949266B2 (en) 2007-03-07 2015-02-03 Vlingo Corporation Multiple web-based content category searching in mobile search application
US20090071315A1 (en) * 2007-05-04 2009-03-19 Fortuna Joseph A Music analysis and generation method
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US8019608B2 (en) * 2008-08-29 2011-09-13 Multimodal Technologies, Inc. Distributed speech recognition using one way communication
KR101239318B1 (ko) * 2008-12-22 2013-03-05 한국전자통신연구원 음질 향상 장치와 음성 인식 시스템 및 방법
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9858925B2 (en) * 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9798653B1 (en) * 2010-05-05 2017-10-24 Nuance Communications, Inc. Methods, apparatus and data structure for cross-language speech adaptation
US8442835B2 (en) * 2010-06-17 2013-05-14 At&T Intellectual Property I, L.P. Methods, systems, and products for measuring health
US8666768B2 (en) 2010-07-27 2014-03-04 At&T Intellectual Property I, L. P. Methods, systems, and products for measuring health
TWI412019B (zh) 2010-12-03 2013-10-11 Ind Tech Res Inst 聲音事件偵測模組及其方法
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US20120253784A1 (en) * 2011-03-31 2012-10-04 International Business Machines Corporation Language translation based on nearby devices
US20150149167A1 (en) * 2011-03-31 2015-05-28 Google Inc. Dynamic selection among acoustic transforms
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
JP5978027B2 (ja) * 2012-06-28 2016-08-24 本田技研工業株式会社 移動ロボットの制御装置
JP5966689B2 (ja) * 2012-07-04 2016-08-10 日本電気株式会社 音響モデル適応装置、音響モデル適応方法および音響モデル適応プログラム
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
CN103903616B (zh) * 2012-12-25 2017-12-29 联想(北京)有限公司 一种信息处理的方法及电子设备
US20140195233A1 (en) * 2013-01-08 2014-07-10 Spansion Llc Distributed Speech Recognition System
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
EP3008641A1 (en) 2013-06-09 2016-04-20 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
CN104700832B (zh) 2013-12-09 2018-05-25 联发科技股份有限公司 语音关键字检测系统及方法
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
KR102272453B1 (ko) 2014-09-26 2021-07-02 삼성전자주식회사 음성 신호 전처리 방법 및 장치
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
CN105355199B (zh) * 2015-10-20 2019-03-12 河海大学 一种基于gmm噪声估计的模型组合语音识别方法
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
JP6568813B2 (ja) * 2016-02-23 2019-08-28 Nttテクノクロス株式会社 情報処理装置、音声認識方法及びプログラム
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US10163437B1 (en) * 2016-06-02 2018-12-25 Amazon Technologies, Inc. Training models using voice tags
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
KR102565274B1 (ko) * 2016-07-07 2023-08-09 삼성전자주식회사 자동 통역 방법 및 장치, 및 기계 번역 방법 및 장치
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US9959861B2 (en) * 2016-09-30 2018-05-01 Robert Bosch Gmbh System and method for speech recognition
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
JP6226353B1 (ja) * 2017-06-27 2017-11-08 株式会社ナレロー リアルタイム習熟支援システム
US11087766B2 (en) * 2018-01-05 2021-08-10 Uniphore Software Systems System and method for dynamic speech recognition selection based on speech rate or business domain
WO2019246314A1 (en) * 2018-06-20 2019-12-26 Knowles Electronics, Llc Acoustic aware voice user interface
CN108986811B (zh) * 2018-08-31 2021-05-28 北京新能源汽车股份有限公司 一种语音识别的检测方法、装置和设备
US11438452B1 (en) 2019-08-09 2022-09-06 Apple Inc. Propagating context information in a privacy preserving manner
CN111144259B (zh) * 2019-12-18 2022-12-23 重庆特斯联智慧科技股份有限公司 一种基于hmm模型的社区污染物处理方法和系统
CN111128141B (zh) * 2019-12-31 2022-04-19 思必驰科技股份有限公司 音频识别解码方法和装置
US20210201928A1 (en) * 2019-12-31 2021-07-01 Knowles Electronics, Llc Integrated speech enhancement for voice trigger application
CN111461901B (zh) * 2020-03-31 2023-05-12 德联易控科技(北京)有限公司 车辆保险理赔信息的输出方法和装置
US12002451B1 (en) * 2021-07-01 2024-06-04 Amazon Technologies, Inc. Automatic speech recognition

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0094449A1 (en) * 1982-05-19 1983-11-23 Nissan Motor Co., Ltd. Speech recognition system for an automotive vehicle
US5081707A (en) * 1989-08-08 1992-01-14 Motorola, Inc. Knowledge based radio
EP0881625A2 (en) 1997-05-27 1998-12-02 AT&T Corp. Multiple models integration for multi-environment speech recognition
KR100336994B1 (ko) 1999-07-23 2002-05-17 이계철 다단계 음성인식을 이용한 음성인식 포탈서비스 시스템 및 그 방법
US20020065584A1 (en) * 2000-08-23 2002-05-30 Andreas Kellner Method of controlling devices via speech signals, more particularly, in motorcars
US6418411B1 (en) 1999-03-12 2002-07-09 Texas Instruments Incorporated Method and system for adaptive speech recognition in a noisy environment

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5730913A (en) * 1980-08-01 1982-02-19 Nissan Motor Co Ltd Speech recognition response device for automobile
JPH0573088A (ja) * 1991-09-13 1993-03-26 Toshiba Corp 認識辞書の作成方法、認識辞書作成装置及び音声認識装置
JP3257832B2 (ja) * 1992-09-04 2002-02-18 富士通テン株式会社 音声認識装置用騒音低減回路
JPH1011085A (ja) * 1996-06-21 1998-01-16 Matsushita Electric Ind Co Ltd 音声認識方法
US6076056A (en) * 1997-09-19 2000-06-13 Microsoft Corporation Speech recognition system for recognizing continuous and isolated speech
JP2000075889A (ja) * 1998-09-01 2000-03-14 Oki Electric Ind Co Ltd 音声認識システム及び音声認識方法
JP2000276188A (ja) * 1999-03-24 2000-10-06 Sony Corp 音声認識装置、音声認識方法、音声認識用制御プログラムを記録した記録媒体、通信端末装置、通信方法、音声認識通信の制御用プログラムを記録した記録媒体、サーバ装置、音声認識用データの送受信方法及び音声認識用データの送受信制御プログラムを記録した記録媒体
US6789061B1 (en) * 1999-08-25 2004-09-07 International Business Machines Corporation Method and system for generating squeezed acoustic models for specialized speech recognizer
US6856956B2 (en) * 2000-07-20 2005-02-15 Microsoft Corporation Method and apparatus for generating and displaying N-best alternatives in a speech recognition system
DE60111329T2 (de) * 2000-11-14 2006-03-16 International Business Machines Corp. Anpassung des phonetischen Kontextes zur Verbesserung der Spracherkennung
JP2002358093A (ja) * 2001-05-31 2002-12-13 Matsushita Electric Ind Co Ltd 音声認識方法及び音声認識装置及びその記憶媒体

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0094449A1 (en) * 1982-05-19 1983-11-23 Nissan Motor Co., Ltd. Speech recognition system for an automotive vehicle
US5081707A (en) * 1989-08-08 1992-01-14 Motorola, Inc. Knowledge based radio
EP0881625A2 (en) 1997-05-27 1998-12-02 AT&T Corp. Multiple models integration for multi-environment speech recognition
US6418411B1 (en) 1999-03-12 2002-07-09 Texas Instruments Incorporated Method and system for adaptive speech recognition in a noisy environment
KR100336994B1 (ko) 1999-07-23 2002-05-17 이계철 다단계 음성인식을 이용한 음성인식 포탈서비스 시스템 및 그 방법
US20020065584A1 (en) * 2000-08-23 2002-05-30 Andreas Kellner Method of controlling devices via speech signals, more particularly, in motorcars

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9626962B2 (en) 2014-05-02 2017-04-18 Samsung Electronics Co., Ltd. Method and apparatus for recognizing speech, and method and apparatus for generating noise-speech recognition model

Also Published As

Publication number Publication date
CA2507999C (en) 2013-09-03
JP2006510933A (ja) 2006-03-30
CN1726532A (zh) 2006-01-25
EP1576581A1 (en) 2005-09-21
KR20050090389A (ko) 2005-09-13
WO2004057574A1 (en) 2004-07-08
US7302393B2 (en) 2007-11-27
AU2003293646A1 (en) 2004-07-14
US20060173684A1 (en) 2006-08-03
CA2507999A1 (en) 2004-07-08
CN100552773C (zh) 2009-10-21
EP1576581B1 (en) 2013-11-20
TWI245259B (en) 2005-12-11
TW200421264A (en) 2004-10-16

Similar Documents

Publication Publication Date Title
KR100800367B1 (ko) 음성 인식 시스템의 작동 방법, 컴퓨터 시스템 및 프로그램을 갖춘 컴퓨터 판독 가능 저장 매체
EP1515305B1 (en) Noise adaption for speech recognition
JP3581401B2 (ja) 音声認識方法
EP0966736B1 (en) Method for discriminative training of speech recognition models
EP1557823B1 (en) Method of setting posterior probability parameters for a switching state space model
US8515758B2 (en) Speech recognition including removal of irrelevant information
US20080077404A1 (en) Speech recognition device, speech recognition method, and computer program product
EP1465154B1 (en) Method of speech recognition using variational inference with switching state space models
EP1385147A2 (en) Method of speech recognition using time-dependent interpolation and hidden dynamic value classes
JPWO2007105409A1 (ja) 標準パタン適応装置、標準パタン適応方法および標準パタン適応プログラム
KR20110010233A (ko) 진화 학습에 의한 화자 적응 장치 및 방법과 이를 이용한 음성인식 시스템
JP3920749B2 (ja) 音声認識用音響モデル作成方法、その装置、そのプログラムおよびその記録媒体、上記音響モデルを用いる音声認識装置
JP2938866B1 (ja) 統計的言語モデル生成装置及び音声認識装置
EP1369847A1 (en) Speech recognition method and system
WO2021106047A1 (ja) 検知装置、その方法、およびプログラム
JPH10254485A (ja) 話者正規化装置、話者適応化装置及び音声認識装置
CN114446283A (zh) 语音处理方法、装置、电子设备及存储介质
WO2009122780A1 (ja) 適応話者選択装置および適応話者選択方法並びに記録媒体
JP2003005784A (ja) 音声認識装置および音声認識方法、並びにプログラムおよび記録媒体
JPH10333697A (ja) 音声認識方法及び音声認識装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130107

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20140106

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20150106

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20160104

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20170123

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20180117

Year of fee payment: 11

LAPS Lapse due to unpaid annual fee