KR20010034367A

KR20010034367A - 음성 인식에서 무음을 사용한 시스템

Info

Publication number: KR20010034367A
Application number: KR1020007008110A
Authority: KR
Inventors: 쟝리
Original assignee: 존 비. 메이슨; 마이크로소프트 코포레이션
Priority date: 1998-02-20
Filing date: 1999-02-09
Publication date: 2001-04-25
Also published as: JP4414088B2; KR100651957B1; CN1205599C; JP2002504719A; CA2315832A1; CN1307715A; EP1055226B1; US6374219B1; CA2315832C; EP1055226A1; WO1999042991A1

Abstract

음성을 지시하는 입력 데이터 스트림에 기초하여 음성을 인식하는 시스템(60)은 노드에 접속된 복수개의 음운 브랜치를 포함하는 접두 트리(88)로서 입력 데이터 스트림으로 표시되는 가능 워드를 공급한다. 복수개의 음운 브랜치는 접두 트리의 입력부의 무음에 대응하는 적어도 하나의 입력 무음 브랜치(92) 및 접두 트리(60)의 출력부의 무음에 대응하는 적어도 하나의 출력 무음 브랜치(94, 96, 98)에 의해 브래킷된다. 접두 트리(60)는 수평 이동시켜서 입력 데이터 스트림으로 표시되는 워드를 얻기 위하여 수평 이동된다. 접두 트리에 공급된 무음은 문맥에 기초하여 가변한다.

Description

음성 인식에서 무음을 사용한 시스템{SYSTEM FOR USING SILENCE IN SPEECH RECOGNITION}

현재 가장 성공적인 음성 인식 시스템은 히든 마코브 모델(hidden Markov model)(HMM)로써 공지된 확률 모델을 사용한다. 히든 마코브 모델은 복수개의 상태를 포함하고, 전이 확률은 각각의 상태로부터 모든 상태로의 각각의 전이 및 동일 상태로의 전이에 대하여 정의된다. 관측은 각각의 고유 상태와 확률적으로 관련된다. 상태들 사이의 전이 확률(하나의 상태로부터 다음 상태로 전이되는 관측의 확률들)은 모두 동일하지 않다. 따라서, 비터비 알고리듬(Viterbi algorithm)과 같은 검색 기술은 상태들 사이의 소정의 전이 확률 및 관측 확률의 모든 확률이 최대가 되도록 가장 적합한 상태 순서를 결정하기 위하여 사용된다.

공지된 방법에서, 상태 전이의 순서는 관측 시간의 순서에 대하여 HMM의 모든 상태를 표시하는 격자도(trellis diagram)를 통과하는 경로로써 표시된 수 있다. 따라서, 관측 순서가 결정되었다면 격자도를 통과하는 가장 적합한 경로(즉, HMM으로 표시되는 가장 적합한 상태의 순서)는 비터비 알고리듬을 사용하여 결정된다.

현재의 음성 인식 시스템에서, 음성은 히든 마코브 모델(HMM) 프로세스에 의하여 생성됨으로써 관측되었다. 따라서, HMM은 음성 스펙트럼의 관측된 순서를 모델링하기 위해 사용되었고, 특정 스펙트럼은 HMM의 상태와 확률적으로 관련된다. 즉, 음성 스펙트럼의 주어진 관측 순서에 대하여 대응하는 HMM에서 가장 적합한 상태의 순서가 결정된다.

따라서, 이 대응하는 HMM은 관측된 순서와 관련된다. 이 기술은 확장되어, HMM 내의 각각의 별개의 상태의 순서가 음운과 같은 서브 워드 유닛과 관련된다면 가장 적합한 순서의 서브 워드 유닛이 검색된다. 또, 워드를 형성하기 위하여 서브 워드 유닛을 조합하는 방법의 모델을 사용하고, 문장을 형성하기 위하여 워드를 조합하는 방법의 언어 모델을 사용하는 것은 언어 인식을 완전하게 실행하도록 한다.

실제로 음향 신호를 처리하는 경우, 신호는 통상 프레임이라고 칭해지는 순차 시간 간격으로 샘플된다. 프레임은 통상 복수개의 샘플을 포함하고 중첩되거나 인접한다. 각각의 프레임은 상기 음성 신호의 고유한 부분과 관련된다. 각각의 프레임에 의해 표시되는 음성 신호의 부분은 분석되어 대응하는 음향 벡터를 공급한다. 음성 인식 중에, 검색은 음향 벡터의 순서와 가장 관련될 것 같은 상태 순서에 대하여 실행된다.

음향 벡터의 순서에 대응하는 가장 적합한 상태의 순서를 검색하기 위하여, 비터비 알고리듬을 사용한다. 비터비 알고리듬은 제1 프레임에서 개시하여 일정 시간동안 하나의 프레임을 처리하는 시간 동기 방식으로 계산을 실행한다. 확률 스코어(probability score)는 고려된 상태 순서에서의 각각의 상태 순서(즉, HMM)에 대하여 계산된다. 따라서, 비터비 알고리듬이 음향 신호를 프레임마다 분석하여 누적된 확률 스코어는 연속하여 각각의 가능 상태 순서에 대하여 연속하여 계산된다. 발음이 종료되면, 비터비 알고리듬에 의해 계산된 최고의 확률 스코어를 갖는 상태 순서(또는 HMM 또는 일련의 HMM)는 전체 발음에 대하여 가장 적합한 상태 순서를 제공한다. 다음에, 가장 적합한 상태 순서는 대응하는 발음된 서브 워드 유닛, 워드 또는 워드 순서로 변환된다.

비터비 알고리듬은 모델의 상태 및 전이의 수와 발음의 길이에 비례하는 지수 계산을 감소시킨다. 그러나, 많은 어휘에 대하여 상태 및 전이의 수는 증가하고, 모든 가능 상태 순서에 대한 각각의 프레임 내의 각각의 상태에서 확률 스코어를 갱신하기 위해 요구되는 계산은 통상 대략 10 밀리초인 하나의 프레임의 기간보다 더 긴 시간을 필요로 한다.

따라서, 프루닝(pruning)이라 칭하는 기술 또는 빔 검색의 개발은 가장 적합한 상태 순서를 결정하는 데에 필요한 계산을 크게 감소시켰다. 이러한 유형의 기술은 발생할 것 같지 않은 상태 순서에 대한 확률 스코어 계산의 필요성을 제거한다. 이것은 통상 각각의 프레임에서 그 프레임에 관련된 최대의 스코어를 고려하여 각각의 유지하는 상태 순서(또는 잠재 순서)에 대한 확률 스코어를 비교함으로써 실행된다. 특정한 잠재적 순서에 대한 상태의 확률 스코어가 충분히 작다면(그 시점에서 다른 잠재적 순서에 대한 계산된 최대의 확률 스코어와 비교하는 경우), 프루닝 알고리듬은 작은 스코어의 상태 순서가 완료된 가장 적합한 상태 순서의 부분이 될 수 없음을 가정한다. 상기 비교는 통상 최소 임계 값을 사용하여 실행된다. 최소 임계 값보다 작은 스코어를 갖는 잠재적 상태 순서는 검색 프로세스로부터 삭제된다. 임계 값은 양호한 메모리 및 계산의 절약에 우선 기초하여 어떤 바람직한 레벨로 설정될 수 있고, 양호한 에러율은 메모리 및 계산의 절약에 의해 증가한다.

음성 인식에서 요구되는 계산의 크기를 추가로 감소시키기 위한 다른 종래의 기술은 접두 트리를 사용한다. 접두 트리는 상기 시스템에 의해 마주치게 될 모든 워드가 표시되는 트리 구조로서 음성 인식 시스템의 사전을 표시한다.

이러한 접두 트리에 있어서, 각각의 서브 워드 유닛(음운과 같은)은 통상 특정 표음 모델(HMM과 같은)에 관련된 브랜치(branch)로 표시된다. 음운 브랜치는 노드에서 다음의 음운 브랜치에 접속된다. 동일한 제1 음운를 공유하는 사전 내의 모든 워드는 동일한 제1 브랜치를 공유한다. 동일한 제1 및 제2 음운를 갖는 모든 워드는 동일한 제1 및 제2 브랜치를 공유한다. 대조하여, 공통 제1 음운를 갖지만 상이한 제2 음운를 갖는 워드는 접두 트리에서 동일한 제1 브랜치를 공유하지만 접두 트리 등에서의 제1 노드에서 분기한 제2 브랜치를 갖는다. 트리 구조는 시스템에 의해서 마주치게 될 모든 워드가 상기 트리의 종단 노드[즉, 상기 트리의 리프(leaf)]로 표시되는 방식으로 계속된다.

접두 트리 구조를 사용함으로써, 최초의 브랜치의 수는 상기 시스템의 사전이나 어휘에서의 일반적인 워드의 수보다 훨씬 작을 수 있다. 사실, 최초의 브랜치의 수는 검색된 어휘나 사전의 크기와 무관하여 음운의 총수(대략 40~50)를 초과할 수 없다. 이음 전이(allophonic variation)가 사용되었더라도 사용된 이음에 따라 최초의 브랜치의 수는 커지게 된다.

이러한 유형의 구조는 자체적으로 많은 중요한 이점을 제공한다. 예컨대, 트리에서 최초의 브랜치의 수가 작다면 어휘가 매우 많더라도 제1의 가능 음운의 각각의 확률을 평가함으로써 사전 내의 모든 워드에서 개시하는 것을 고려할 수 있다. 또한, 프루닝을 사용하면 더 낮은 확률 음운의 브랜치의 수가 검색에서 매우 쉽게 삭제될 수 있다. 따라서, 트리의 제2 레벨은 제1 레벨보다 훨씬 많은 브랜치를 갖지만, 실제로 고려되는 브랜치의 수[즉, 가정(hypothesis)의 수]도 가능 브랜치의 수에 대하여 감소된다.

전술한 기술을 사용하는 음성 인식 시스템은 통상 2 가지 유형으로 분류된다. 제1 유형은 부드러운 음성을 인식할 수 있는 연속 음성 인식(continuous speech recognition)(CSR) 시스템이다. 제2 유형의 시스템은 분절 음성 인식(isolated speech recognition)(ISR) 시스템으로 통상 단지 분절 음성(또는 불연속 음성)만을 인식하는 데 사용되지만, 검색 공간이 일반적으로 더 작으므로 통상 연속 음성 인식 시스템보다 좀더 정확하고 효율적이다. 또한, 연속 음성 인식 시스템은 일반적으로 분절 음성도 인식할 수 있기 때문에 분절 음성 인식 시스템은 연속 음성 인식의 특별한 경우로서 생각된다. 시스템들은 분절 음성을 인식할 때도 간단히 실행할 수 없다.

무음 정보는 두 시스템에서 역할이 있다. 날짜에 대하여, 2 개 유형의 음성 인식 시스템은 사전에서 특별한 워드로서 무음을 취급한다. 무음 워드는 표준 검색 프로세스에서 실행되어 인식됨으로써 워드 사이에 삽입될 수 있다.

그러나, 음성 인식 시스템내에서 고려되는 워드 전이는 점진적으로 계산되고 값비싼 프로세스이다. 따라서, 분절 음성 인식 시스템에 있어서, 무음이 분절 워드로서 취급되는 경우, 무음 워드로부터 사전 내의 모든 다른 워드로의 변이 및 사전(또는 검색의 종단부에서의 모든 나머지 워드) 내의 모든 다른 워드로부터 무음 워드로의 변이도 고려되어야 한다.

또, 연속 음성 인식 시스템에 있어서, 스피커가 불연속적으로 또는 분절 방식으로 발음하는 것을 그 시스템이 인식하였더라도, CRS 시스템은 워드 사이의 무음을 가질 수 없다는 가정을 고려한다. 이것은 일 워드를 2 개 또는 그 이상의 워드로 부적당하게 나누는 경우를 발생시킬 수 있다. 물론, 이것은 기대되는 다른 것보다 더 높은 에러율을 발생시킨다. 또, 연속 음성에 포함되지만 분절 음성에 포함되지 않는 검색 공간의 부분을 검색하고 있으므로 계산적으로 비효율적이다.

사전 내의 분절 워드로서 무음을 사용하는 것에 부가하여, 무음의 종래의 모델링도 종래의 음성 인식 시스템에서 문제 및 에러를 발생시킨다. 무음은 문맥으로부터 독립되어 있다고 널리 알려져 있다. 따라서, 무음은 문맥과 무관하게 종래의 음성 인식 시스템에서 모델링된다. 즉, 무음은 무음의 앞 또는 뒤에 위치한 워드 또는 서브 워드 유닛과 무관하게 무음은 동일한 것으로 모델링된다. 이것은 음성 인식 시스템의 정확도를 감소시킬 뿐만 아니라 본 발명에 따라 모델링하는 것보다 비효율적이다.

본 발명은 컴퓨터 음성 인식에 관한 것이다. 특히, 본 발명은 무음 브래킷 사전에서 접두 트리 검색을 실행하는 컴퓨터 음성 인식에 관한 것이다.

도 1은 본 발명에 따른 음성 인식 시스템의 실행 환경의 일례를 도시한 블록도.

도 2는 도 1에 도시된 시스템의 일 부분의 세부 블록도.

도 3은 종래의 접두 트리 기술을 도시한 도면.

도 4는 본 발명에 따른 접두 트리의 일 실시예를 도시하는 도면.

도 5는 본 발명에 따른 접두 트리의 다른 실시예를 도시하는 도면.

도 6은 본 발명의 다른 특징에 따라 프루닝 기술을 사용하는 도 5에 도시된 접두 트리를 도시하는 도면.

도 7은 본 발명의 다른 특징에 따른 음성 인식 시스템의 제2 실시예의 블록도.

음성 인식 시스템은 음성을 지시하는 입력 데이터 스트림에 기초하여 음성을 인식한다. 입력 데이터 스트림에 의해 표시된 가능 워드는 노드에 접속된 복수개의 음운 브랜치를 포함하는 접두 트리에 공급된다. 복수개의 음운 브랜치는 접두 트리의 입력부의 무음에 대응하는 적어도 하나의 입력 무음 브랜치 및 접두 트리의 출력부의 무음에 대응하는 적어도 하나의 출력 무음 브랜치에 의해 브래킷된다.

양호한 하나의 실시예에서, 복수개의 무음 브랜치는 접두 트리에 제공된다. 복수개의 무음 브랜치는 문맥 종속 무음을 표시한다.

본 발명의 다른 양호한 실시예에서, 음성 인식 시스템은 연속 음성 인식 시스템 사전 및 분절 음성 인식 시스템 사전을 포함한다. 사용자가 사용할 시스템은 음성의 유형에 기초하여 CSR 사전 및 ISR 사전의 사용을 스위칭한다.

도 1 및 그와 관련된 설명은 본 발명이 실행되는 데 적합한 계산 환경에 대한 간단하고 일반적인 설명을 제공하고자 하는 것이다. 요구되지는 않았지만 본 발명은 개인용 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터 실행 가능한 명령의 일반적인 문맥의 일부를 설명했다. 통상, 프로그램 모듈은 특정 태스크 또는 특정 추상 데이터 유형을 실행하는 루틴 프로그램, 객체, 구성 요소, 데이터 구조 등을 포함한다. 또한, 본 발명은 휴대용 장치, 마이크로프로세서 시스템, 마이크로프로세서에 기초하거나 프로그램 가능한 가전 제품, 네트워크 PC, 미니 컴퓨터, 대형 컴퓨터 등을 포함하는 다른 컴퓨터 시스템 구성에서 실행될 수 있다는 것은 종래의 기술에서 인식되었다. 또한, 본 발명은 태스크가 통신 네트워크를 통하여 연계되는 원격 처리 장치에 의해 실행되는 분산된 계산 환경에서 실행될 수 있다. 분산된 계산 환경에서, 프로그램 모듈은 국부 및 원격 기억 장치에 배치될 수 있다.

도 1을 참조하면, 본 발명을 실시하는 종래의 시스템은 CPU(21), 시스템 메모리(22) 및 시스템 메모리를 포함하는 다양한 시스템 구성 요소를 CPU(21)에 연결하는 시스템 버스(23)를 포함하는 종래의 개인용 컴퓨터(20)의 구성에서 일반적인 목적의 계산 장치를 포함한다. 시스템 버스(23)는 메모리 버스 또는 메모리 제어기, 주변 장치 버스 및 여러 가지 버스 구조의 일부를 사용하는 국부 버스를 포함하는 몇 가지 유형의 버스 구조가 될 수 있다. 상기 시스템 메모리는 판독 전용 메모리(ROM)(24) 및 랜덤 액세스 메모리(RAM)(25)를 포함한다. 동작 개시와 같은 개인용 컴퓨터(20) 내의 소자 사이의 정보를 전송하도록 하는 기본 루틴을 포함하는 기본 입력/출력(BIOS)(26)은 ROM(24)에 저장된다. 개인용 컴퓨터(20)는 하드 디스크(도시 생략)로부터 판독하거나 하드 디스크에 기록하는 하드 디스크 드라이브(27), 삭제 가능한 자기 디스크(29)로부터 판독하여 삭제 가능한 자기 디스크에 기록하는 자기 디스크 드라이브(28), CD ROM(31) 또는 다른 광학 매체와 같은 삭제 가능한 광학 디스크(31)로부터 판독하거나 삭제 가능한 광학 디스크에 기록하는 광학 디스크 드라이브(30)를 더 포함한다. 하드 디스크 드라이브(27), 자기 디스크 드라이브(28), 광학 디스크 드라이브(30)는 하드 디스크 드라이브 인터페이스(32), 자기 디스크 드라이브 인터페이스(33), 광학 드라이브 인터페이스(34) 각각에 의해 시스템 버스(23)에 접속되어 있다. 드라이브 및 관련된 검퓨터 판독 가능한 매체는 컴퓨터 판독 가능한 명령의 불휘발성 기억 장치, 데이터 구조, 프로그램 모듈 및 개인용 컴퓨터(20)용 다른 데이터를 제공한다.

본 명세서에서 설명된 종래의 실시예는 하드 디스크, 삭제 가능한 자기 디스크(29), 삭제 가능한 광학 디스크(31)를 사용하지만, 자기 카세트, 플래시 메모리 카드, 디지털 비디오 디스크, 베르누이 카트리지(Bernoulli cartridge), RAM, ROM 및 그와 유사한 장치와 같은 컴퓨터에 의해 액세스 가능한 데이터를 저장할 수 있는 다른 유형의 컴퓨터 판독 가능한 매체도 종래의 동작 환경에서 사용될 수 있음은 종래의 기술에서 인정되었다.

운영 체제(35), 하나 또는 그 이상의 응용 프로그램(36), 다른 프로그램 모듈(37), 프로그램 데이터(38)를 포함하는 다수의 프로그램 모듈은 하드 디스크, 자기 디스크(29), 광학 디스크(31), ROM(24) 또는 RAM(25)에 저장된다. 사용자는 키보드(40), 마우스(42) 및 마이크로폰(62)과 같은 입력 장치를 통하여 개인용 컴퓨터(20)에 명령 및 정보를 입력할 수 있다. 다른 입력 장치(도시 생략)는 조이스틱, 게임 패드, 위성 안테나, 주사 장치, 또는 그와 유사한 것을 포함할 수 있다. 이러한 장치 및 다른 입력 장치는 시스템 버스(23)에 접속된 직렬 포트 인터페이스(46)를 통하여 CPU(21)에 접속되지만 사운드 카드, 병렬 포트, 게임 포트 또는 전체 직렬 버스(USB)와 같은 다른 인터페이스에 의해 접속될 수 있다. 모니터(47) 또는 다른 유형의 디스플레이 장치도 영상 어댑터(48)와 같은 인터페이스를 통하여 시스템 버스(23)에 접속된다. 모니터(47)에 부가하여, 개인용 컴퓨터는 통상 스피커(45) 및 프린터(도시 생략)와 같은 다른 주변 출력 장치를 포함한다.

개인용 컴퓨터(20)는 원격 컴퓨터(49)와 같은 하나 또는 그 이상의 원격 컴퓨터에 논리적 접속을 하는 네트워크 환경에서 동작한다. 원격 컴퓨터(49)는 도 1에는 기억 장치(50)만 도시하고 있지만, 다른 개인용 컴퓨터, 서버(server), 루터(router), 네트워크 PC, 피어 장치(peer device) 또는 다른 네트워크 노드가 될 수 있고, 통상 개인용 컴퓨터(20)에 관련된 많은 또는 모든 것의 전술된 소자를 포함한다. 도 1에 도시된 논리적 접속은 구내 정보 통신망(LAN)(51) 및 광역 정보 통신망(WAN)(52)을 포함한다. 이러한 엔터프라이즈-와이드 컴퓨터 네트워크 인트라넷 및 인터넷의 네트워크 환경은 사무실에서 일반화되어 있다.

LAN 네트워크 환경에서 사용되는 경우, 개인용 컴퓨터(20)는 네트워크 인터페이스 또는 네트워크 어댑터(53)를 통하여 LAN(51)에 접속된다. WAN 네트워크 환경에서 사용되는 경우, 개인용 컴퓨터(20)는 인터넷과 같은 통상 모뎀(54) 또는 WAN(52)을 통하여 통신을 하는 다른 수단을 포함한다. 내부 또는 외부에 위치할 수 있는 모뎀(54)은 직렬 포트 인터페이스(46)를 통하여 시스템 버스(23)에 접속된다. 네트워크 환경에서, 개인용 컴퓨터(20) 또는 개인용 컴퓨터의 부분과 관련되어 설명되는 프로그램 모듈은 원격 기억 장치에 저장될 수 있다. 도시된 네트워크 접속은 사용될 컴퓨터 사이의 통신 연계를 설치하는 종래의 방법 및 다른 방법이다.

도 2는 본 발명의 하나의 특징에 따른 음성 인식 시스템(60)의 블록도를 도시한다. 음성 인식 시스템(60)은 마이크로폰(62), 아날로그-디지털(A/D) 변환기(64), 트레이닝 모듈(training module)(65), 특징 추출 모듈(feature extraction module)(66), 무음 검출 모듈(68), 무음 브래킷 사전(70), 표음 음성 유닛 모델 메모리(72), 트리 검색 엔진(74) 및 출력 장치(76)를 포함한다. 또, 언어 모델 기억 모듈(75)은 트리 검색 엔진(74)에 의하여 공급되고 액세스될 수 있다. 전체 시스템(60) 또는 시스템(60)의 일부는 도 1에 도시된 환경에서 실행될 수 있다. 예컨대, 마이크로폰(62)은 적합한 인터페이스 및 A/D 변환기(64)를 통하여 개인용 컴퓨터(20)에 입력 장치로서 제공될 수 있다. 트레이닝 모듈(65), 특징 추출 모드(66) 및 무음 검출 모듈(68)은 개인용 컴퓨터(20) 내의 하드 웨어 모듈 또는 도 1에 개시된 어떤 정보 기억 장치에 저장된 스프트 웨어 모듈이 될 수 있고 CPU(21) 및 다른 적합한 프로세서에 의해 액세스 가능하다. 또, 무음 브래킷 사전(70) 및 표음 음성 유닛 모델 메모리(72)도 도 1에 도시된 어떤 적합한 메모리 장치에 양호하게 저장된다. 또, 트리 검색 엔진(74)은 CPU(21)(하나 또는 그 이상의 프로세서를 포함)에서 양호하게 실행되거나 개인용 컴퓨터(20)에 의해 실행되는 전용 음성 인식 프로세서에 의해 실행될 수 있다. 또, 양호한 하나의 실시예에서, 출력 장치(76)는 모니터(47) 또는 프린터 또는 어떤 다른 적합한 출력 장치로서 실행된다.

어떤 경우에, 음성 인식 중에, 음성은 사용자에 의해 마이크로폰(62)에 공급된 가청 음성 신호의 형태로 시스템(60)에 입력된다. 마이크로폰(62)은 가청 음성 신호를 A/D 변환기(64)에 공급될 아날로그 전자 신호로 변환한다. A/D 변환기(64)는 아날로그 음성 신호를 특징 추출 모듈(66)에 공급될 디지털 신호의 순서로 변환한다. 양호한 실시예에서, 특징 추출 모듈(66)은 디지털 신호를 스펙트럼 분석하여 주파수 스펙트럼의 각각의 주파수 대역에 대한 크기 값을 계산하는 종래의 어레이 프로세서이다. 양호한 하나의 실시예에서, 통상 이용 가능한 공지된 A/D 변환기로서의 A/D 변환기(64)를 실행하여 생성된 신호는 대략 16 kHz의 샘플 비율로 A/D 변환기(64)로부터 특징 추출 모듈(66)에 공급된다.

특징 추출 모듈(66)은 A/D 변환기(64)로부터 수신한 디지털 신호를 복수개의 디지털 샘플을 포함하는 프레임으로 분할한다. 각각의 프레임은 대략 10 밀리초의 간격을 갖는다. 프레임은 특징 추출 모듈(66)에 의하여 복수개의 주파수 대역에 대한 스펙트럼 특성을 반영하는 특징 벡터로 양호하게 인코딩된다. 불연속 및 반연속 히든 마코브 모델의 경우에, 특징 추출 모듈(66)도 특징 벡터를 벡터 양자화 기술을 사용하여 하나 또는 그 이상의 코드 워드 및 트레이닝 데이터로부터 생성된 코드북(codebook)으로 양호하게 인코딩한다. 따라서, 특징 추출 모듈(66)은 각각의 음성 발음에 대한 특징 벡터(또는 코드 워드)를 출력한다. 특징 추출 모듈(66)은 대략 10 밀리초마다 하나의 코드 워드의 비율로 특징 벡터(또는 코드 워드)를 양호하게 공급한다.

출력 확률의 기여는 분석되는 특정 프레임의 특징 벡터(또는 코드 워드)를 사용하여 히든 마코브 모델에 대하여 양호하게 계산된다. 이러한 확률 기여는 이후에 비터비 또는 유사 방식의 기술을 실행하는 데 사용된다.

특징 추출 모듈(66)이 A/D 변환기(64)로부터 디지털 샘플을 처리함에 따라, 무음 검출 모듈(68)도 샘플을 처리한다. 무음 검출 모듈(68)은 특징 추출 모듈(66)을 실행하는 데 사용된 동일 또는 상이한 프로세서에서 실행된다. 무음 검출 모듈(68)은 공지된 방법으로 동작한다. 사용자에 의해 발음된 워드 사이의 경계를 결정하기 위해 무음 검출 모듈(68)은 A/D 변환기(64)에 의해 공급된 디지털 샘플을 처리하여 무음을 검출한다. 다음에, 무음 검출 모듈(68)은 경계 검출 신호를 워드 경계의 검출을 지시하는 트리 검색 엔진(74)에 공급한다.

특징 추출 모듈(66)로부터의 코드 워드 및 무음 검출 모듈(68)에 의해 공급된 경계 검출 신호를 수신하면, 트리 검색 엔진(74)은 표음 음성 유닛 모델 메모리(72)에 저장된 정보에 액세스한다. 표음 음성 유닛 모델 메모리(72)는 시스템(60)에 의하여 검출되는 음성 유닛을 표시하는, 히든 마코브 모델과 같은 표음 음성 유닛 모델을 저장한다. 양호한 하나의 실시예에서, 표음 음성 유닛 모델 메모리(72)에 저장된 표음 모델은 음운을 표시하는 HMM을 포함한다. 표음 음성 유닛 모델 메모리(72)에 저장된 HMM에 기초하여, 트리 검색 엔진(74)은 특징 추출 모듈(66)로부터 수신된 코드 워드로 표시되는 가장 적합한 음운를 결정하고 상기 시스템의 사용자에 의해서 수신된 발음을 표시한다. 적합한 음운은 각각의 음운에 대한 각각의 상태의 HMM에 대하여 계산된 특정 음운를 평가하는 것을 포함하는 몇가지 방법으로 선택된다. 또한, 표음 HMM 트리 검색은 적합한 음운를 검색하기 위하여 실행된다.

또한, 트리 검색 엔진(74)은 무음 브래킷 사전(70)에 저장된 사전에 액세스한다. 표음 음성 유닛 모델 메모리(72)의 액세싱에 기초하여 트리 검색 엔진(74)에 의하여 수신된 정보는 무음 브래킷 사전(70)을 검색하는 데 사용되어 무음 검출 모듈(68)에 의해 지시되는 것과 같이 워드 경계 사이의 특징 추출 모듈(66)에 의해 수신된 코드 워드를 가장 적합하게 표시하는 워드를 결정한다. 또한, 트리 검색 엔진(74)은 북미 사업 뉴스 코퍼스(North American Business News Corpus)의 60,000 워드 3 선형 언어 모델과 같은 언어 모델 기억 모듈(75) 내의 언어 모델에 액세스하고, 1994년 펜실베이니아 대학의 공개된 CSR-III 텍스트 언어 모델에서 좀더 상세히 설정된다. 언어 모델은 가장 적합한 워드 또는 입력 데이터로 표시되는 워드 순서를 인식하는 데 사용된다. 따라서, 결정된 워드 또는 워드 순서는 사용자에 의해 수신된 발음을 가장 적합하게 표시한다. 다음에, 워드 또는 워드 순서는 트리 검색 엔진(74)에 의해서 출력 장치(76)에 출력한다.

양호한 실시예에서, 무음 브래킷 사전(70)은 음성 인식 시스템(60)의 어휘 내의 모든 워드를 표시하는 정보를 포함한다. 워드는 루트(root)로부터 리프(leaf)에(또는 내부 워드 노드까지) 수평 이동시키는 접두 트리의 형태로 트리 검색 엔진(74)에 양호하게 표시되어 사용자의 발음을 가장 적합하게 지시하는 워드에 도달하게 된다.

도 3은 종래 기술의 음성 인식 시스템에서 사용되는 접두 트리를 도시한다. 설명을 명확하게 하기 위하여, 접두 트리의 일부분만 도 3에 도시하였다. 루트 노드(또는 입력 노드)(78)는 제1 워드 경계에 위치한다. 복수개의 브랜치(80)는 루트 노드(78)로부터 접두 트리의 나머지 부분에 도달하게 된다. 각각의 복수개의 브랜치는 음운와 관련된다. 도 3에서, 루트 노드(78)를 출발한 브랜치는 문자(AO, AE, T)로 표시된 음운만을 표시한다. 트리는 다른 노드 및 브랜치를 통하여 확장되고 출력 노드(79)에서 종료된다.

하나의 검색 기술에 따라, 트리(77)가 입력 노드(78)로부터 출력 노드(79)까지 수평 이동시킴으로써, 스코어는 음성 인식 시스템에 의한 고려하에 음운 브랜치에 접속되는 각각의 노드에 할당된다. 상기 스코어는 평가될 특정 음운이 특징 추출 모듈(66)로부터 수신된 코드 워드에 의해 지시되는 실제 음운이 될 가능성을 지시한다.

예컨대, 워드 ORANGE가 사용자에 의해 시스템(60)에 입력되면, 특징 추출 모듈(66)은 워드 ORANGE를 AO, R, IX, N, JH로 표시하는 음운를 지시하는 코드 워드로 분할한다. 트리 검색 엔진이 트리(77)를 수평 이동시킴에 따라, 트리(77)에서 고려된 각각의 음운 브랜치에 대하여 코드 워드에 의해 인코딩된 특정 음운이 고려하에 그 브랜치에 대한 음운에 대응될 가능성을 표시하는 스코어를 양호하게 계산한다. 따라서, 트리 검색 엔진(74)은 제1 코드 워드가 고려하에 브랜치에 대응하는 AO 음운에 의해 높게 표시될 것을 지시하는 노드(82)에 대한 스코어를 계산한다. 또한, 트리 검색 엔진(74)은 트리(77) 내의 각각의 다른 노드(84, 86)에 대한 스코어를 계산하며, 스코어는 분석될 코드 워드가 음운 AE, T로 표시될 가능성을 지시한다. 이상적인 환경에서, 노드(84, 86)에 할당된 스코어는 노드(82)에 할당된 스코어보다 낮다.

트리 검색 엔진(74)이 트리(77)를 수평 이동시킴에 따라, 분석하에 현재의 코드 워드(확률 기여를 출력)가 트리(77) 내의 브랜치에 대응하는 음운으로 표시되어 고려될 가능성에 기초하여 스코어를 트리(77) 내의 각각의 노드에 양호하게 할당하고, 노드에 할당된 스코어에 기초하여 음운 브랜치에 의해 현재의 노드에 접속된 트리를 더 상위에 위치하게 한다. 이것은 공지된 방법에서 모두 실행되었다.

또, 프루닝 기술은 사용될 수 있다. 프루닝은 각각의 노드에서 그 노드에 할당된 스코어와 고려되는 프레임에 대응하는 다른 몇개의 노드상의 가장 큰 스코어를 비교하여 실행된다. 특정 노드에서의 스코어가 트리(77) 내의 다른 대응하는 노드에 대한 최대 스코어와 비교하여 충분히 작다면, 고려하에 상기 노드(더 작은 스코어를 갖는 노드)에 도달하는 브랜치는 완료된 가장 적합한 음운 순서의 일부가 되지 않을 것이다(즉, 그 순서 내의 음운은 상기 시스템에 의해 인식된 최종 워드의 일부가 되지 않는다). 따라서, 그 브랜치는 트리(77)로부터 탈락(또는 프루닝됨)되고 더 이상의 처리에서 고려되지 않는다.

분절 음성 인식 시스템에서, 트리(77)를 수평 이동시킨 후에, 무음은 워드 경계에서 실시된다. 따라서, 출력 노드(79)는 무음 브랜치에 도달하고, 브랜치는 입력 노드(78)로 되돌아가며[트리(77)가 다시 들어가는 트리라면], 인식은 현재의 워드 경계 다음의 워드에 대하여 다시 시작된다. 그러나, 이것은 몇 가지 이유로 최적의 실행을 할 수 있다.

첫번째, 트리(77)의 모든 리프가 출력 노드(79)에 도달하면 무음은 워드 경계에서 실행될 수 있다. 그러나, 언어 모델은 워드 순서를 결정하기 위하여 사용되고, N개의 최상의 가정은 트리(77)를 수평 이동시킨 후에 유지된다. 트리(77)의 모든 리프가 단일 출력 노드(79)에 도달해야 한다면 트리(77)를 수평 이동시키는 데 사용되는 비터비 알고리듬이 N개의 최상의 가정을 유지하는 것은 어렵고 비효율적이다. 또, 이러한 종래 기술의 접두 트리 내의 무음은 자체의 문맥과 무관하게 동일하게 모델링된다. 본 발명의 발명자는 무음이 문맥에 매우 기초하여 가변한다는 것을 고려하였다. 문맥과 무관하게 무음을 모델링하는 것은 인식에서의 에러를 발생시킬 수 있다. 또한, 음성 인식 시스템 내의 내부 워드 전이에 대한 고려가 복잡하고 시간이 소비된다는 것은 널리 인식되어 있다. 그러나, 종래의 기술에 따라 트리(77)를 이용할 때, 전이는 무음으로부터 인식된 워드까지 실행되어야 하고, 시스템에 의해 인식된 각각의 워드에 대하여 무음으로 되돌아가야 한다. 이것은 증가된 에러율 및 시스템 내의 비효율적인 결과를 발생시킨다.

도 4는 본 발명에 따라 접두 트리(88)의 양호한 하나의 실시예를 도시한다. 트리(88)는 본 발명의 하나의 특징에 따른 음성을 인식하는 데 사용되는 사전이 무음 브래킷 사전임을 도시한다. 즉, 트리(88)로 수평 이동시키기 위하여 트리는 루트 노드(90)에 진입한다. 도 4에 도시된 실시예에서, 루트 노드(90)는 무음 브랜치는 무음을 표시하고 차례로 음운 브랜치 및 접두 트리의 나머지 부분에 접속되는 무음 브랜치(92)에 접속된다. 트리(워드를 나타냄)상의 각각의 리프는 각각이 무음에 관련된 브랜치(94, 96, 98)와 같은 무음 브랜치에 접속된다. 접두 트리(88)를 사용함함에 따라, 본 시스템은 사전 내의 모든 워드가 무음으로 브래킷되는 무음 브래킷 사전을 제공한다.

도 4에 도시된 실시예에서, 단일 무음은 트리(88)의 입력부에 접속된다. 이 최상위 레벨의 무음 브랜치(92)는 도 3에서 트리(77)의 제1 레벨을 형성했던 복수개의 음운 브랜치로 노드(100)에서 접속된다. 양호한 실시예에서, 트리(88)의 종단부에서의 무음은 문맥 종속 무음이다. 즉, 시스템(60) 내의 표음 모델의 트레이닝 중에(이하에서 좀더 상세히 설명된다), 표음 모델을 트레이닝하기 위해 시스템(60)에 공급된 음성은 표음 음성 유닛 모델 메모리(72)에서 모델되어 저장되는 복수개의 문맥 종속 무음을 포함한다. 워드 경계가 무음 검출 모듈(68)에 의해 검출될 때, 트리 검색 엔진(74)은 표음 음성 유닛 모델 메모리(72) 내의 표음 무음 모델을 사용하여 적합한 무음을 배치하여 접두 트리(88)를 사용한다.

무음 브래킷 사전을 표시하는 접두 트리(88)를 사용함에 따라, 다수의 이점이 발생한다. 첫째로, 무음 브래킷 사전은 내부 워드 전이를 고려할 필요성을 제거한다. 즉, 도 3에 도시된 종래의 시스템에 있어서, 워드로부터 무음으로 전이되고 시스템을 조정하는데 필요한 워드로 되돌아간다. 그러나, 상기 사전 내의 워드의 부분에 무음을 깊숙이 배치하면 이러한 내부 워드 전이의 필요성이 없게 된다. 대신에, 조정되는 전이는 하나의 실제 발음된 워드로부터 다른 워드로의 전이가 된다. 또, 도 4에 도시된 실시예를 사용하여, 트리(88)로 표시되는 사전 내의 모든 워드는 입력 무음(92)를 공유한다. 따라서, 워드를 개시하는 무음을 깊숙히 배치하는 것은 여분의 비용이 필요하다. 또한, 트리(88)로 표시되는 각각의 워드는 독립 무음에서 종료되므로, 비터비 알고리듬은 트리(88)를 수평 이동시킨 후에 N개의 최상의 가정을 더 효율적으로 유지할 수 있다. 이것은 자체적으로 시스템 내의 비터비 알고리듬을 더 효과적으로 배치하고, 가장 적합한 워드 순서를 결정하기 위하여 언어 모델(또는 다른 적합한 모델)을 사용한다.

도 4에 도시된 바와 같이, 본 발명에 의한 다른 중요한 이점은 시스템이 연속 음성 인식 시스템에 사용되는 경우에 발생한다. 종래의 연속 음성 인식 시스템 구조는 크로스 워드 문맥에 사용되도록 형성되었다. 그러나, 이것은 연속 음성 인식 시스템이 분절 음성에 사용되는 경우에 더 높은 에러율을 발생시킬 수 있다. 예컨대, 스피커가 분절 또는 불연속 방식으로 연속 음성 인식 시스템에서 발음하는 경우, 연속 음성 인식 시스템의 크로스 워드 문맥 조정 특징은 하나의 워드를 2 개 또는 그 이상의 워드로 부정확하게 분할하게 된다. 그러나, 사용자가 분절 또는 불연속 방식으로 발음하는 것을 시스템이 검출하는 경우, 본 발명의 하나의 특징(및 도 7에 대한 자세한 설명)에 따른 시스템은 자체적으로 다시 형성하여 무음 브래킷 사전을 사용한다. 워드 경계에서 무음을 사용함으로써, 본 시스템에서는 크로스 워드 문맥을 고려하지 않았고, 본 발명을 사용하는 연속 음성 인식 시스템은 분절 음성을 더 효율적이고 정확하게 사용한다.

도 5는 본 발명의 다른 특징에 따라 접두 트리(102)의 다른 실시예를 도시한다. 접두 트리(102)는 도 4에 도시된 접두 트리(88)와 유사하고, 유사 항목은 유사한 번호를 갖는다. 그러나, 트리(102)의 입력 종단부에서 단일 무음 브랜치(92)를 갖는 대신에, 무음 브랜치(104, 106, 108)와 같은 복수개의 무음 브랜치는 트리(102)의 입력 종단부에 포함된다. 무음 브랜치(104, 106, 108)는 문맥 종속 무음에 대응한다. 따라서, 트리[도 4에 도시된 트리(88)에서와 같은]의 출력 종단부에서 문맥 종속 무음을 갖는 대신에, 트리(102)도 트리의 입력 종단부에서 문맥 종속 무음을 갖는다. 트리의 입력 종단부에서의 무음 브랜치는 트리의 나머지 부분에 접속된 음운 브랜치에 접속된다. 트리(88)에서처럼, 트리(102)는 사전 내의 각각의 워드의 종단부에서 무음을 표시하는 리프에서 종료한다.

따라서, 트리(102)로 표시되는 무음 브래킷 사전은 문맥 종속 무음에 의해서 사전에 엔트리를 브래킷한다. 이것은 다수의 중요한 이점을 발생시킨다. 문맥 종속 무음 브랜치(104, 106, 108)는 트리(88)의 단일 최고 레벨 무음 브랜치(92)를 다중의 문맥 종속 무음으로 분할한다. 이것은 프루닝 작업을 도와서 전체 시스템을 더 효율적이게 한다. 예컨대, 트리 검색 엔진(74)은 스코어를 트리 내의 제1 음운 브랜치에 접속된 노드에 할당하지 않고 스코어를 무음 브랜치(104, 106, 108)에 접속된 노드에 할당하기 시작한다. 이것은 트리(102)의 부분이 검색 프로세스에서 빨리 프루닝되거나 삭제되도록 하여 검색 공간을 더 빨리 감소시킨다.

도 6은 트리로부터 프루닝된 다수의 무음 브랜치(및 무음 브랜치에 접속된 브랜치)를 갖는 트리(102)(도 5에 도시)를 도시한다. 각각의 무음 브랜치를 고려한 후, 트리(102)의 입력부에서 문맥 종속 무음을 표시하면, 스코어는 그 무음 브랜치에 접속된 각각의 노드에 할당된다. 다음에, 양호한 하나의 실시예에서, 각각의 노드에 대한 각각의 스코어는 트리의 그 레벨의 임의의 노드에 할당된 최대 스코어와 비교된다. 비교에 의해서 소정의 임계 레벨이 설정되거나 또는 적응 임계 레벨이 실행된다. 비교될 노드에 대한 스코어가 임계 레벨에서의 최대 스코어보다 작으면, 그 노드에 접속된 모든 다음의 브랜치는 트리로부터 프루닝되고, 소정의 검색에 대한 검색 공간을 과감하게 감소시킨다. 도 6은 무음 브랜치(108)의 노드에 할당된 스코어가 충분히 작아서 트리의 브랜치의 나머지 부분이 트리로부터 프루닝되었음을 도시한다.

물론, 결정이 트리 내의 제1 레벨에서 필요한 것은 아니다. 또한, 어떤 특정 임계 레벨은 검색 방법에서 사용된다. 임계 레벨을 더 낮게하면, 더 많은 가정이 검색 중에 유지되고 시스템은 더 정확한 인식을 하게 된다. 그러나, 임계 레벨은 실험에 의하여 양호하게 결정되어서 계산의 절약에서 증가하지만 프루닝 기술에 관련된 에러율을 상당히 감소시킨다.

도 2에 도시된 시스템을 트레이닝하기 위하여, 트레이닝 워드는 사용자에 의해서 시스템(60)에서 발음된다. 트레이닝 워드는 A/D 변환기(64)에 의해 디지털 샘플로 변환되어 특징 추출 모듈(66)에 의해 코드 워드화된 트레이닝 데이터 세트를 포함한다. 코드 워드(또는 확률 기여 출력)는 트레이닝 모듈(65)에 공급된다. 또한, 트레이닝 모듈(65)은 키보드(40)와 같은 사용자 입력 장치에 의해 사용자로부터 각각의 트레이닝 워드의 발음 표기를 수신한다. 트레이닝 모듈(65)은 음성 인식 시스템의 나머지 부분으로부터 동일 프로세서 또는 개별 프로세서에서 실행된다. 하나 또는 그 이상의 HMM은 트레이닝 데이터로 표시되는 희망하는 어휘 내의 각각의 워드의 각각의 음운에 대하여 트레이닝 모듈(65)에서 생성된다. 따라서, HMM은 어휘 내의 음운에 관련된 모델 출력 기여를 표시한다. 다음에, 희망하는 어휘에 기초하여 접두 트리가 형성되고, 음운은 희망하는 어휘 내의 각각의 워드와 관련된 리프를 제공하기 위하여 구성된다. 전술된 바와 같이, 트레이닝 워드(또는 데이터 세트)는 마이크로폰으로부터 임의의 시간에 하나의 워드를 수신하거나 생성된 데이터 세트를 포함하는 플로피 디스크와 같은 종래의 컴퓨터 입력 장치에 의해서 그것의 전체에 입력한다.

본 발명의 하나의 특징에 따라, 트레이닝 모듈(65)도 문맥 종속 무음에 대하여 히든 마코브 모델을 트레인한다. 희망하는 문맥 종속 무음은 트레이닝 데이터로 표시된다. 전술한 바와 같이, 모델링된 무음은 접두 트리에 배치된다.

도 7은 본 발명에 따른 음성 인식 시스템(120)의 제2 실시예의 블록도이다. 음성 인식 시스템(120)은 도 2의 음성 인식 시스템(60)과 유사하고, 대응하는 참조 번호는 동일한 구성 요소를 나타낸다. 그러나, 음성 인식 시스템(120)은 연속 음성 및 분절 음성을 수신하여 인식하도록 구성된다. 따라서, 음성 인식 시스템(120)은 연속 음성 인식 사전 및 언어 모델 메모리(124) 및 연속 음성(CS)/분절 음성(IS) 지시기(126)를 포함한다.

양호한 하나의 실시예에서, 연속 음성 인식 및 언어 모델 메모리(124)는 접두 트리 포맷에서 처럼 어떤 적합한 방법으로 배치된 CSR 사전을 포함한다. 따라서, 표준의 부드러운 음성으로 음성 인식 태스크를 실행하면 음성 인식 시스템(120)은 CSR 사전 및 언어 모델 메모리(124)에 의해서 배치되는 정보를 액세스한다. 그러나, 예컨대, 사용자가 분절 또는 불연속 방법으로 발음하면, 음성 인식 시스템(120)은 메모리 내의 무음 브래킷 사전(70)에 의하여 배치되는 정보를 액세스하도록 스위칭한다. 메모리에 배치된 무음 브래킷 사전(70)은 연속 음성 사전보다 분절 음성의 인식을 더 효율적이고 정확하게 실행하기 때문에, 음성 인식 시스템(120)은 부드럽고 연속적인 음성중의 분절 음성을 더 쉽고 효율적으로 인식한다.

사전 사이에 스위칭하기 위하여, 트리 검색 엔진(74)은 스피커가 연속 음성을 발음하는지 분절 음성을 발음하는지를 지시하는 CS/IS 신호를 CS/IS 지시기(126)로부터 수신한다. CS/IS 지시기(126)는 몇 가지의 적합한 방법으로 실행될 수 있다. 예컨대, 도시된 하나의 실시예에 있어서, CS/IS 지시기(126)는 무음 검출 모듈(68)로써 간단히 실행된다. 무음 검출 모듈(68)이 다수의 무음 또는 단절(특정 양이 양호하게 실험적으로 결정됨)을 검출하는 경우, 트리 검색 엔진(74)은 스피커가 분절 음성 또는 불연속 음성 방식으로 발음하는지를 지시함으로써 판단하도록 구성된다. 그 예에서, 트리 검색 엔진(74)은 CSR 사전 및 언어 모델 메모리(124)로부터가 아니라 메모리로부터 무음 브래킷 사전(70)을 액세스하기 위하여 스위칭한다.

본 발명의 하나의 특징에 따라, CS/IS 지시기(126)는 사용자가 음성 인식 시스템(120)을 동작시키기 위하여 상호 작용하는 사용자 인터페이스에 공급된다. 도시된 하나의 실시예에서, 사용자 인터페이스는 연속 또는 분절 음성을 선택하는 기능을 사용자에게 간단히 제공한다. 사용자가 어떤 적합한 사용자 입력 장치를 사용하여 선택을 한 후에, 사용자 인터페이스는 적합한 CS/IS 신호를 트리 검색 엔진(74)에 공급한다. 도시된 다른 실시예에서, 사용자 인터페이스는 인식 기준(recognition criteria)에 기초하여 연속 또는 분절 음성 방법으로 발음하도록 사용자에게 명령한다. 예컨대, 음성 인식 시스템(120)이 현재의 워드 순서에서 많은 에러 또는 보정을 발생시켰다면, 트리 검색 엔진(74)은 사용자 인터페이스 내의 CS/IS 지시기(126)에 사용자가 분절 방법으로 발음할 것을 명령하도록 명령한다. 다음에, 트리 검색 엔진(74)은 메모리에 의해 공급된 무음 브래킷 사전(70)이 현재 순서의 워드가 정확하게 인식될 때까지 더 정확한 음성 인식을 수행하도록 스위칭한다. 다음에, 사용자가 연속 음성 방법으로 발음을 다시 계속할 것을 사용자 인터페이스 내의 CS/IS 지시기(126)가 명령하도록 트리 검색 엔진(74)을 제어한다. 트리 검색 엔진(74)은 CSR 사전 및 언어 모델 메모리(124) 내의 사전으로부터 정보를 액세싱하기 위하여 되돌아가고 음성 인식 프로세스를 계속한다. 물론, 시스템도 사용자가 연속 및 분절 음성 사이에서 스위칭할 시점을 결정하기 위하여 어떤 다른 적합한 방법(적합한 발견과 같은)을 사용한다.

따라서, 본 발명의 다양한 특징은 종래의 기술의 시스템에 대하여 중요한 이점을 제공한다. 예컨대, 무음은 사전에서 각각의 워드의 부분으로서 깊숙이 배치되기 때문에, 본 발명의 무음 브래킷 사전은 내부 워드 전이를 고려하기 위하여 시스템에 대한 필요성을 삭제한다. 또한, 각각의 워드에서 깊숙이 배치된 종단 무음때문에, 시스템은 트리가 수평 이동시킨 후에 N개의 최상의 가정을 더 효율적으로 유지할 수 있다. 또, 문맥 종속 방법에서 무음을 모델링함으로써, 음성 인식 프로세스는 더 정확하게 실행되고, 프루닝은 인식 태스크에서 빨리 실행되어서 검색 공간을 감소시키고 효율성을 증가시킨다. 또, 연속 음성 사전과 분절 음성 사전 사이에서 적응하여 스위칭함으로써, 본 시스템은 종래의 연속 음성 인식 시스템의 특징을 조정하는 크로스 워드 문맥이 인식 프로세스에서 분절 음성을 마주칠 때 에러를 생성할 가능성을 감소시킨다. 또한, 이것은 시스템의 정확성 및 효율성을 증가시킨다.

본 발명이 양호한 실시예를 참조하여 설명되었지만, 당업자는 본 발명의 기술적 사상 및 범위를 벗어나지 않는 범위 내에서 여러 가지 변경 및 수정이 가능하다는 것을 인식할 수 있을 것이다.

Claims

음성을 지시하는 입력 데이터 스트림에 기초하여 음성을 인식하는 방법에 있어서,

노드에 접속된 복수개의 음운 브랜치를 포함하는 접두 트리로서 입력 데이터 스트림에 의해 표시되고 음운을 형성하는 가능 워드를 공급하는 단계를 포함하고, 여기서 각각의 음운 브랜치는 음운에 대응하고, 복수개의 음운 브랜치는 상기 접두 트리의 입력부의 무음에 대응하는 적어도 하나의 입력 무음 브랜치 및 상기 접두 트리의 출력부의 무음에 대응하는 적어도 하나의 출력 무음 브랜치에 의해 브래킷되는 것이며;

상기 입력 데이터 스트림으로 표시되는 워드를 수신하기 위하여 상기 접두 트리를 수평 이동시키는 단계를 포함하는 것을 특징으로 하는 음성 인식 방법.
제1항에 있어서, 상기 접두 트리를 수평 이동시키는 단계는,

상기 접두 트리의 입력부로부터 상기 접두 트리의 출력부까지 연속하는 복수개의 노드에 스코어를 할당함으로써 접두 트리를 수평 이동시키는 단계를 포함하고, 여기서 스코어는 스코어가 할당된 상기 노드에 도달하는 브랜치에 대응하는 음운을 입력 데이터가 표시할 가능성을 지시하는 것이며;

상기 입력 데이터 스트임으로 표시되는 워드와 같이, 임계 레벨을 만족하는 상기 노드에 할당된 스코어를 갖는 상기 접두 트리의 출력부의 무음 노드에 대응하는 N개의 워드를 선택하는 단계를 포함하는 것인 음성 인식 방법.
제1항에 있어서, 가능 워드를 공급하는 단계는, 상기 접두 트리의 입력부에서 각각이 노드에서 적어도 하나의 음운 브랜치에 접속되는 복수개의 무음 브랜치를 갖는 접두 트리를 공급하는 단계를 포함하는 것인 음성 인식 방법.
제3항에 있어서, 복수개의 무음 브랜치를 갖는 접두 트리를 공급하는 단계는 복수개의 무음 브랜치를 갖는 상기 접두 트리를 제공하는 단계를 포함하는 것이며, 상기 무음은 문맥에 기초하여 가변하는 복수개의 무음 브랜치로 표시되는 것인 음성 인식 방법.
제3항에 있어서, 가능 워드를 공급하는 단계는, 상기 접두 트리의 입력부에 복수개의 무음 브랜치를 갖는 접두 트리를 공급하는 단계를 포함하는 것이며, 각각의 무음 브랜치로 표시되는 무음은 무음 브랜치가 접속된 음운에 기초하여 다른 무음 브랜치로 표시되는 음(phone)으로부터 가변하는 것인 음성 인식 방법.
제3항에 있어서, 상기 접두 트리를 수평 이동시키는 단계는 입력 데이터가 스코어가 할당된 노드에 도달하는 무음 브랜치에 대응하는 무음을 표시하는 입력 데이터의 가능성을 지시하는 음운 브랜치와 무음 브랜치 사이에 접속된 노드에 스코어를 할당하는 단계를 포함하는 것인 음성 인식 방법.
제6항에 있어서, 상기 접두 트리를 수평 이동시키는 단계는 상기 무음 브랜치와 상기 음운 브랜치 사이에 접속되는 상기 노드에 할당된 스코어에 기초하여 상기 접두 트리로부터 브랜치를 프루닝하는 단계를 포함하는 것인 음성 인식 방법.
제7항에 있어서, 프루닝 임계 레벨을 만족하는 스코어가 할당된 노드에 도달하는 상기 접두 트리 내의 브랜치를 더 수평 이동시키는 것을 중단하는 단계를 포함하는 것인 음성 인식 방법.
음성을 지시하는 입력 데이터 스트림에 기초하여 음성을 인식하는 방법에 있어서,

무음에 의해 브래킷되고 입력 데이터 스트림으로 표시된 가능 워드를 형성하는 엔트리를 포함하는 사전을 제공하는 단계와;

상기 입력 데이터 스트림에 기초하여 상기 입력 데이터 스트림으로 표시되는 워드를 결정하기 위하여 상기 사전을 검색하는 단계를 포함하는 것을 특징으로 하는 음성 인식 방법.
제9항에 있어서, 사전을 제공하는 단계는 노드에 접속된 복수개의 음운 브랜치를 포함하는 접두 트리에 사전을 제공하는 단계를 포함하고, 여기서 각각의 음운 브랜치는 음운에 대응하고, 상기 복수개의 음운 브랜치는 상기 접두 트리의 입력부의 무음에 대응하는 적어도 하나의 입력 무음 브랜치 및 상기 접두 트리의 출력부의 무음에 대응하는 적어도 하나의 출력 무음 브랜치에 의해서 브래킷되는 것이며;

상기 입력 데이터 스트림으로 표시되는 워드를 수신하기 위하여 상기 접두 트리를 수평 이동시키는 단계를 포함하는 것인 음성 인식 방법.
제10항에 있어서, 상기 사전을 제공하는 단계는 상기 접두 트리의 입력부의 복수개의 무음 브랜치를 갖는 상기 접두 트리를 제공하는 단계를 포함하고, 여기서 각각의 무음 브랜치는 노드에서 적어도 하나의 음운 브랜치에 접속되는 것인 음성 인식 방법.
제11항에 있어서, 복수개의 무음 브랜치를 갖는 상기 접두 트리를 제공하는 단계는 상기 복수개의 무음 브랜치를 갖는 상기 접두 트리를 제공하는 단계를 포함하며, 여기서 상기 복수개의 무음 브랜치로 표시되는 상기 무음은 문맥에 기초하여 가변하는 것인 음성 인식 방법.
제11항에 있어서, 상기 사전을 제공하는 단계는 상기 접두 트리의 입력부의 상기 복수개의 무음 브랜치를 갖는 상기 접두 트리를 제공하는 단계를 포함하며, 여기서 각각의 무음 브랜치로 표시되는 무음은 상기 무음 브랜치가 접속된 음운에 기초하여 다른 무음 브랜치로 표시된 음으로부터 가변하는 것인 음성 인식 방법.
제11항에 있어서, 상기 접두 트리를 수평 이동시키는 단계는 입력 데이터가 스코어가 할당된 노드에 도달하는 상기 무음 브랜치에 대응하는 상기 무음으로 표시되는 입력 데이터의 가능성을 지시하는 상기 음운 브랜치와 상기 무음 브랜치 사이에 접속된 노드에 스코어를 할당하는 단계를 포함하는 것인 음성 인식 방법.
음성을 지시하는 입력 데이터로부터 음성을 인식하는 방법에 있어서,

음성 유닛을 표시하는 음성 유닛 모델을 공급하는 단계와;

문맥 종속 무음의 무음 모델을 공급하는 단계와;

상기 입력 데이터에 기초하고 상기 음성 유닛 모델 및 상기 무음 모델에 기초하여 상기 입력 데이터로 표시되는 음성 유닛 및 문맥 종속 무음을 선택하는 단계를 포함하는 것을 특징으로 하는 음성 인식 방법.
제15항에 있어서, 상기 음성 유닛 모델을 공급하는 단계 및 상기 무음 모델을 공급하는 단계는, 노드에 접속된 복수개의 음운 브랜치를 포함하는 접두 트리에 상기 음성 유닛 모델 및 상기 무음 모델을 공급하는 단계를 포함하며, 여기서 각각의 음운 브랜치는 음운에 대응하고, 상기 복수개의 음운 브랜치는 상기 접두 트리의 입력부의 무음에 대응하는 적어도 하나의 입력 무음 브랜치 및 상기 접두 트리의 출력부의 무음에 대응하는 적어도 하나의 출력 무음 브랜치에 의해 브래킷되는 것인 음성 인식 방법.
제16항에 있어서, 상기 음성 유닛 및 문맥 종속 무음을 선택하는 단계는, 입력 데이터 스트림으로 표시되는 워드를 수신하기 위하여 상기 접두 트리를 수평 이동시키는 단계를 포함하는 것인 음성 인식 방법.
음성을 인식하는 방법에 있어서,

음성을 지시하는 입력 데이터를 수신하는 단계와;

상기 음성이 분절인지 또는 연속인지에 대한 지시를 수신하는 단계와;

상기 음성이 연속이면 연속 음성 데이터를 포함하는 연속 음성 사전을 사용하여 상기 입력 데이터로 표시된 가장 적합한 음성 유닛을 결정하는 단계와;

상기 음성이 분절되었다면 분절 음성 데이터를 포함하는 분절 음성 사전을 사용하여 상기 입력 데이터로 표시된 가장 적합한 음성 유닛을 결정하는 단계를 포함하는 것을 특징으로 하는 음성 인식 방법.
제18항에 있어서, 상기 음성이 분절인지 연속인지에 대한 지시를 수신하는 단계는,

상기 입력 데이터에서 무음을 검출하는 단계와;

상기 입력 데이터로 표시된 상기 음성이 검출된 무음에 기초하여 분절인지 또는 연속인지를 결정하는 단계를 포함하는 것인 음성 인식 방법.
제18항에 있어서, 상기 음성이 분절인지 또는 연속인지에 대한 지시를 수신하는 단계는,

인식 중에 워드 에러를 모니터하는 단계와;

상기 입력 데이터로 표시된 상기 음성이 상기 모니터된 워드 에러에 기초하여 분절인지 또는 연속인지를 결정하는 단계를 포함하는 것인 음성 인식 방법.
제18항에 있어서, 상기 음성이 분절인지 또는 연속인지에 대한 지시를 수신하는 단계는, 상기 입력 데이터가 분절 음성인지 또는 연속 음성인지를 표시하는 사용자 입력 신호를 수신하는 단계를 포함하는 것인 음성 인식 방법.
제18항에 있어서, 상기 음성이 분절인지 또는 연속인지에 대한 지시를 수신하는 단계는,

인식 기준에 기초하여 분절 및 연속 음성 중 희망하는 음성을 선택하는 단계와;

사용자가 상기 선택된 음성을 발음하도록 명령하는 단계와;

상기 음성이 상기 선택된 음성에 기초하여 분절인지 또는 연속인지에 대한 지시를 공급하는 단계를 포함하는 것인 음성 인식 방법.
제18항에 있어서, 분절 음성 사전을 사용하여 상기 입력 데이터로 표시된 가장 적합한 음성 유닛을 결정하는 단계는,

상기 입력 데이터로 표시되고 무음에 의해 브래킷된 가능 워드를 형성하는 엔트리를 포함하는 분절 음성 사전을 제공하는 단계와;

상기 입력 데이터로 표시되는 워드를 결정하기 위하여 상기 입력 데이터에 기초하여 분절 음성 사전을 검색하는 단계를 포함하는 것인 음성 인식 방법.
제23항에 있어서, 상기 분절 음성 사전을 제공하는 단계는 노드에 접속된 복수개의 음운 브랜치를 포함하는 접두 트리에 분절 음성 사전을 공급하는 단계를 포함하며, 여기서 각각의 음운 브랜치는 음운에 대응하고, 상기 복수개의 음운 브랜치는 상기 접두 트리의 입력부의 무음에 대응하는 적어도 하나의 입력 무음 브랜치 및 상기 접두 트리의 출력부의 무음에 대응하는 적어도 하나의 출력 무음 브랜치에 의해 브래킷되는 것인 음성 인식 방법.
제24항에 있어서, 상기 사전을 제공하는 단계는 상기 접두 트리의 입력부의 복수개의 무음 브랜치를 갖는 상기 접두 트리를 공급하는 단계를 포함하며, 여기서 각각의 무음 브랜치는 노드에서 적어도 하나의 음운 브랜치에 접속되는 것인 음성 인식 방법.
제25항에 있어서, 복수개의 무음 브랜치를 갖는 상기 접두 트리를 공급하는 단계는 상기 복수개의 무음 브랜치를 갖는 상기 접두 트리를 제공하는 단계를 포함하며, 여기서 상기 복수개의 무음 브랜치로 표시되는 상기 무음은 문맥에 기초하여 가변하는 것인 음성 인식 방법.
컴퓨터에 저장된 구성부를 갖는 컴퓨터 판독 가능한 매체에 있어서,

노드에 접속된 음운 브랜치에 대응하는 복수개의 음운을 포함하는 접두 트리를 포함하며, 상기 복수개의 음운 브랜치는 상기 접두 트리의 입력부의 무음에 대응하는 적어도 하나의 입력 무음 브랜치 및 상기 접두 트리의 출력부의 무음에 대응하는 적어도 하나의 출력 무음 브랜치에 의해 브래킷되는 것을 특징으로 하는 것인 컴퓨터 판독 가능한 매체.
제27항에 있어서, 상기 구성부는 인식될 음성을 지시하는 입력 데이터 스트림으로 표시되는 워드를 수신하기 위하여 상기 접두 트리를 수평 이동시키도록 구성된 수평 이동 구성부를 포함하는 것인 컴퓨터 판독 가능한 매체.
제28항에 있어서, 상기 접두 트리는 상기 접두 트리의 입력부의 복수개의 무음 브랜치를 더 포함하며, 각각의 무음 브랜치는 노드에서 적어도 하나의 음운 브랜치에 접속되는 것인 컴퓨터 판독 가능한 매체.
제29항에 있어서, 상기 복수개의 무음 브랜치로 표시되는 무음은 문맥에 기초하여 가변하는 것인 컴퓨터 판독 가능한 매체.
제29항에 있어서, 상기 복수개의 무음 브랜치는 상기 접두 트리의 입력부에 공급되고, 무음 브랜치로 표시된 무음은 상기 음운에 기초하여 다른 무음 브랜치로 표시된 무음으로부터 접속된 무음 브랜치까지 가변하는 것인 컴퓨터 판독 가능한 매체.
컴퓨터에 저장된 구성부를 갖는 컴퓨터 판독 가능한 매체에 있어서,

인식될 음성을 지시하는 입력 데이터 스트림으로 표시되는 가능 워드를 형성하는 엔트리를 포함하는 사전을 포함하며, 상기 엔트리는 무음에 의해 브래킷되는 것이며;

상기 입력 데이터 스트림에 기초하여 상기 입력 데이터 스트림으로 표시된 워드를 결정하기 위하여 상기 사전을 검색하도록 형성된 검색 구성부를 포함하는 것을 특징으로 하는 컴퓨터 판독 가능한 매체.
컴퓨터에 저장된 구성부를 갖는 컴퓨터 판독 가능한 매체에 있어서,

음성 유닛을 표시하는 복수개의 음성 유닛 모델과;

문맥 종속 무음의 복수개의 무음 모델과;

인식될 음성을 지시하는 입력 데이터에 기초하고 상기 음성 유닛 및 상기 무음 모델에 기초하여 입력 데이터로 표시된 음성 유닛 및 문맥 종속 무음을 선택하기 위해 형성된 선택 구성부를 포함하는 것을 특징으로 하는 컴퓨터 판독 가능한 매체.
컴퓨터에 저장된 구성부를 갖는 컴퓨터 판독 가능한 매체에 있어서,

연속 음성 데이터를 포함하는 연속 음성 사전과;

분절 음성 데이터를 포함하는 분절 음성 사전과;

인식될 음성을 지시하는 입력 데이터를 수신하여 상기 음성이 연속인 경우에는 연속 음성 사전을, 상기 음성이 분절인 경우에는 분절 음성 사전을 사용함으로써 상기 입력 데이터로 표시된 가장 적합한 음성 유닛을 결정하도록 형성된 인식기 구성부를 포함하는 것을 특징으로 하는 컴퓨터 판독 가능한 매체.
제34항에 있어서, 상기 입력 데이터가 연속 음성인지 분절 음성인지를 표시하는 음성 패턴 지시기를 제공하도록 형성된 음성 패턴 구성부를 더 포함하며, 인식기 구성부는 상기 음성 패턴 지시기가 연속 음성을 지시하는 경우에는 상기 연속 음성 사전을, 상기 음성 패턴 지시기가 분절 음성을 지시하는 경우에는 상기 분절 음성 사전을 사용하도록 형성되는 것인 컴퓨터 판독 가능한 매체.
제35항에 있어서, 상기 음성 패턴 구성부는 상기 입력 데이터가 상기 입력 데이터에서 검출된 무음과 인식 중에 발생한 에러와 상기 입력 데이터가 연속 음성인지 또는 분절 음성인지를 지시하는 사용자 입력 신호 중 적어도 하나에 기초하여 상기 입력 데이터가 분절 음성인지 또는 연속 음성인지의 표시 여부를 검출하도록 형성된 것인 컴퓨터 판독 가능한 매체.
제34항에 있어서, 인식 기준에 기초하여 연속 음성 및 분절 음성 중 하나를 선택하여 연속 및 분절 음성 중 선택된 하나를 사용하도록 사용자 관측 가능한 명령을 공급하도록 형성된 명령 구성부를 더 포함하는 것인 컴퓨터 판독 가능한 매체.
컴퓨터에 저장된 데이터 구조를 갖는 컴퓨터 판독 가능한 매체에 있어서,

적어도 하나의 입력 무음을 지시하는 데이터를 포함하는 제1 데이터 부분과;

복수개의 음운을 지시하는 데이터를 포함하는 제2 데이터 부분과;

적어도 하나의 출력 무음을 지시하는 데이터를 포함하는 제3 데이터 부분을 포함하고,

상기 제1, 제2 및 제3 데이터 부분은 입력 데이터 스트림을 표시하는 워드를 생성하는 접두 트리를 수평 이동시킬 때 기능에 따라 배치되는 것을 특징으로 하는 컴퓨터 판독 가능한 매체.
제38항에 있어서, 상기 제1 내지 제3 데이터 부분 각각은 복수개의 무음을 포함하여 상기 접두 트리는 상기 복수개의 음운 각각에 접속된 상이한 입력 무음 및 출력 무음을 포함하는 것인 컴퓨터 판독 가능한 매체.
제38항에 있어서, 상기 제1 내지 제3 데이터 부분 내의 상기 데이터는 문맥 종속 무음을 지시하는 것이며, 상기 문맥 종속 무음은 상기 접두 트리에 접속된 상기 음운에 기초하여 가변하는 것인 컴퓨터 판독 가능한 매체.
컴퓨터에 저장된 데이터 구조를 갖는 컴퓨터 판독 가능한 매체에 있어서,

입력 데이터 스트림으로 표시되는 가능 워드를 형성하는 엔트리를 갖는 사전을 지시하는 데이터를 포함하는 제1 데이터 부분과;

문맥 종속 무음을 지시하는 데이터를 포함하는 제2 데이터 부분을 포함하고,

상기 제1 및 제2 데이터 부분은 무음 브래킷 사전으로 기능하며, 음성 인식에 사용되는 경우 입력 데이터 스트림으로 표시되는 워드를 생성하는 것을 특징으로 하는 컴퓨터 판독 가능한 매체.