KR100897554B1

KR100897554B1 - 분산 음성인식시스템 및 방법과 분산 음성인식을 위한 단말기

Info

Publication number: KR100897554B1
Application number: KR1020070017620A
Authority: KR
Inventors: 한익상; 김규홍; 김정수
Original assignee: 삼성전자주식회사
Priority date: 2007-02-21
Filing date: 2007-02-21
Publication date: 2009-05-15
Also published as: US20080201147A1; KR20080077873A

Abstract

분산 음성인식시스템 및 방법과 분산 음성인식을 위한 단말기가 개시된다. 분산 음성인식시스템은 입력되는 음성신호에 대하여 추출되는 특징벡터를 인식된 음소열로 디코딩하고, 외부로부터 전송되는 후보리스트에 대하여 리스코어링을 수행하여 최종 인식결과를 생성하는 단말기; 및 상기 단말기로부터 제공되는 인식된 음소열에 대하여 심볼 매칭을 수행하여 상기 후보리스트를 생성하고, 리스코어링을 위하여 상기 후보 리스트를 상기 단말기로 전송하는 서버로 이루어진다.

Description

분산 음성인식시스템 및 방법과 분산 음성인식을 위한 단말기{Distributed speech recognition sytem and method and terminal for distributed speech recognition}

도 1은 본 발명에 따른 분산 음성인식시스템의 개념을 설명하기 위한 도면,

도 2는 본 발명의 제1 실시예에 따른 분산 음성인식시스템의 구성을 나타낸 블록도,

도 3은 본 발명의 제2 실시예에 따른 분산 음성인식시스템의 구성을 나타낸 블록도,

도 4는 본 발명에 따른 분산 음성인식시스템에 있어서 기준패턴과 인식심볼시퀀스에 대한 매칭의 일예를 나타내는 도면, 및

도 5는 본 발명에 따른 분산 음성인식시스템과 기존 방법에 따른 분산 음성인식시스템에 있어서 송수신 데이터량을 비교한 그래프이다.

본 발명은 분산 음성인식에 관한 것으로서, 보다 구체적으로는 단말기와 서버간에 송수신되는 데이터량을 대폭 감소시키면서 음성인식 성능을 높일 수 있는 분산 음성인식시스템 및 방법과 분산 음성인식을 위한 단말기 및 서버에 관한 것이다.

휴대폰 혹은 PDA(Personal Digital Assiatant)와 같은 단말기는 탑재된 프로세서의 성능 혹은 메모리의 용량 등의 제한으로 인하여 자체에서 대용량 음성인식을 수행하는데 한계가 있다. 따라서, 이와 같은 단말기에서는 서버와 연동하여 분산 음성인식(distributed speech recognition)을 통하여 대용량 음성인식의 성능 및 정확도를 보장하고 있다.

이와 같은 분산 음성인식을 위하여 종래방법의 일예에 따르면, 단말기에서는 입력된 음성신호를 녹음한 다음, 녹음된 음성신호를 서버로 전송한다. 서버에서는 전송된 음성신호에 대하여 대용량 음성인식을 수행하고, 인식결과를 단말기로 전송한다. 이 경우, 단말기로부터 서버로 음성파형 자체를 전송함으로써 초당 약 32 Kbytes 정도로 전송 데이터량이 증가하여 채널효율이 현저히 떨어지고, 서버의 부담이 커지는 단점이 있다.

한편, 전송 데이터량을 감소시키기 위한 종래방법의 다른 예에 따르면, 단말기에서는 입력된 음성신호로부터 특징벡터를 추출한 다음, 추출된 특징벡터를 서버로 전송한다. 서버에서는 전송된 특징벡터에 대하여 대용량 음성인식을 수행하고, 인식결과를 단말기로 전송한다. 이 경우, 단말기로부터 서버로 특징벡터를 전송함으로써 초당 약 16 Kbytes 정도로 전송 데이터량은 감소하나 채널 효율은 여전히 떨어지며, 서버의 부담이 여전히 큰 단점이 있다.

본 발명이 이루고자 하는 기술적 과제는 단말기와 서버간에 송수신되는 데이터량을 대폭 감소시키면서 음성인식 성능을 높일 수 있는 분산 음성인식시스템 및 방법을 제공하는데 있다.

본 발명이 이루고자 하는 다른 기술적 과제는 분산 음성인식을 위한 단말기 및 서버를 제공하는데 있다.

상기 기술적 과제를 해결하기 위하여 본 발명에 따른 분산 음성인식시스템은 입력되는 음성신호에 대하여 추출되는 특징벡터를 인식된 음소열로 디코딩하는 단말기; 및 상기 단말기로부터 제공되는 인식된 음소열에 대하여 심볼 매칭을 수행하여 최종 인식결과를 상기 단말기로 전송하는 서버를 포함하여 이루어진다.

상기 기술적 과제를 해결하기 위하여 본 발명에 따른 분산 음성인식시스템은 입력되는 음성신호에 대하여 추출되는 특징벡터를 인식된 음소열로 디코딩하고, 외부로부터 전송되는 후보리스트에 대하여 리스코어링을 수행하여 최종 인식결과를 생성하는 단말기; 및 상기 단말기로부터 제공되는 인식된 음소열에 대하여 심볼 매칭을 수행하여 상기 후보리스트를 생성하고, 리스코어링을 위하여 상기 후보 리스트를 상기 단말기로 전송하는 서버를 포함하여 이루어진다.

상기 기술적 과제를 해결하기 위하여 본 발명에 따른 분산 음성인식방법은 단말기에서 입력되는 음성신호에 대하여 추출되는 특징벡터를 인식된 음소열로 디코딩하는 단계; 서버에서 상기 인식된 음소열을 수신하여, 상기 인식된 음소열에 대하여 심볼 매칭을 수행하여 최종 인식결과를 생성하는 단계; 및 상기 서버에서 생성된 상기 최종 인식결과를 상기 단말기에서 수신하는 단계를 포함하여 이루어진 다.

상기 기술적 과제를 해결하기 위하여 본 발명에 따른 분산 음성인식방법은 단말기에서 입력되는 음성신호에 대하여 추출되는 특징벡터를 인식된 음소열로 디코딩하는 단계; 서버에서 상기 인식된 음소열을 수신하여, 상기 인식된 음소열에 대하여 심볼 매칭을 수행하여 후보리스트를 생성하는 단계; 및 상기 서버에서 생성된 상기 후보 리스트를 상기 단말기에서 리스코어링하여 최종 인식결과를 생성하는 단계를 포함하여 이루어진다.

상기 다른 기술적 과제를 해결하기 위하여 본 발명에 따른 분산음성인식을 위한 단말기는 입력되는 음성신호로부터 특징벡터를 추출하는 특징추출부; 상기 추출된 특징벡터를 음소열로 디코딩하고, 디코딩된 음소열을 서버로 제공하는 음소 디코딩부; 및 상기 서버로부터 제공되는 최종 인식결과를 수신하는 수신부를 포함하여 이루어진다.

상기 다른 기술적 과제를 해결하기 위하여 본 발명에 따른 분산음성인식을 위한 단말기는 입력되는 음성신호로부터 특징벡터를 추출하는 특징추출부; 상기 추출된 특징벡터를 음소열로 디코딩하고, 디코딩된 음소열을 서버로 제공하는 음소 디코딩부; 및 상기 서버로부터 제공되는 상기 후보 리스트에 대하여 리스코어링을 수행하는 상세매칭부를 이루어진다.

상기 다른 기술적 과제를 해결하기 위하여 본 발명에 따른 분산 음성인식을 위한 서버는 단말기로부터 인식된 음소열을 수신하고, 상기 인식된 음소열과 어휘목록에 등록된 음소열간의 매칭을 수행하는 심볼매칭부; 및 상기 심볼매칭부에서의 매칭결과에 대한 매칭스코어에 따라서 최종 인식결과를 생성하고, 상기 최종 인식결과를 상기 단말기로 제공하는 계산부를 포함하여 이루어진다.

상기 다른 기술적 과제를 해결하기 위하여 본 발명에 따른 분산 음성인식을 위한 서버는 단말기로부터 인식된 음소열을 수신하고, 상기 인식된 음소열과 어휘목록에 등록된 음소열간의 매칭을 수행하는 심볼매칭부; 및 상기 심볼매칭부에서의 매칭결과에 대한 매칭스코어에 따라서 후보 리스트를 생성하고, 리스코링을 위하여 상기 후보리스트를 상기 단말기로 제공하는 계산부를 포함하여 이루어진다.

상기 분산 음성인식방법은 바람직하게는 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체로 구현될 수 있다.

이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예에 대하여 상세하게 설명하기로 한다.

도 1은 본 발명에 따른 분산 음성인식시스템의 개념을 설명하기 위한 도면으로서, 클라이언트(110), 네트워크(130), 및 서버(150)를 포함하여 이루어진다. 여기서, 클라이언트(110)는 휴대폰 혹은 PDA 등을 포함하는 단말기를 의미하며, 네트워크(130)는 유선 혹은 무선을 통한 네트워크를 의미한다. 서버(150)는 홈 서버, 차량 서버, 혹은 웹 서버 등을 포함한다.

도 1을 참조하면, 클라이언트(110)에서는 입력된 음성신호로부터 추출되는 특징벡터를 음소열로 디코딩하고, 음소열을 네트워크(130)를 통하여 서버(150)로 전송한다. 이때, 음소열로 디코딩시 사용되는 음향모델로는 화자적응형 음향모델 혹은 환경적응형 음향모델이 바람직하다. 서버(150)에서는 전송된 음소열에 대하여 대용량 음성인식을 수행하고, 인식결과 하나의 단어를 네트워크(130)를 통하여 단말기(110)로 전송한다. 다른 실시예에 따르면, 서버(150)에서는 전송된 음소열에 대하여 대용량 음성인식을 수행하고, 인식된 복수의 단어로 구성되는 후보 리스트를 네트워크(130)를 통하여 단말기(110)로 전송한다. 단말기(110)는 전송된 후보 리스트에 대하여 상세 매칭을 수행하고, 최종 인식결과를 생성한다.

도 2는 본 발명의 제1 실시예에 따른 분산 음성인식시스템의 구성을 나타낸 블록도로서, 클라이언트(110)는 특징추출부(210), 음소 디코딩부(230), 및 수신부(250)를 포함하고, 서버(150)는 심볼매칭부(270) 및 계산부(290)를 포함하여 이루어진다.

도 2를 참조하면, 클라이언트(110)에 있어서 특징추출부(210)는 사용자로부터 음성쿼리 즉, 음성신호를 입력받으면, 음성신호에 대한 특징벡터를 추출한다. 즉, 특징추출부(210)는 사용자로부터 입력되는 음성신호의 배경잡음을 억제하고, 사용자의 음성신호 중 음성구간을 검출한 후, 검출된 음성구간에서 음성인식에 사용될 특징벡터를 추출한다.

음소 디코딩부(230)는 특징추출부(210)로부터 제공되는 특징벡터를 음소열로 디코딩한다. 이때, 음소 디코딩부(230)는 프레임마다 활성화된 모든 스테이트의 관측확률(state log-likelihood)을 계산하고, 관측확률을 이용하여 음소열 디코딩을 수행한다. 음소 디코딩부(230)에서 출력되는 음소열은 복수개일 수 있으며, 각 음소열에 포함되는 음소에 대하여 가중치를 설정하는 것도 가능하다. 즉, 음소 디 코딩부(230)는 추출된 특징벡터를 음소 또는 트라이폰(tri-phone) 음향모델을 사용하여 단일 혹은 복수개의 음소열로 변환하는 디코딩을 수행한다. 음소 디코딩부(230)는 추출된 특징 벡터를 음소열로 변환할 때 음소레벨문법(phone-level grammar)를 적용하여 음소열에 구속장(constraints)를 부가한다. 또한, 음소 디코딩부(230)는 트라이폰 음향모델을 사용하는 경우 문맥(context)간의 연결성을 적용할 수 있다. 음소 디코딩부(230)에서 사용되는 음향모델은 화자 혹은 환경 적응형 음향모델을 사용할 수 있다.

수신부(250)는 서버(150)로부터 제공되는 인식결과를 수신하여, 클라이언트(110)에서 음성쿼리에 대하여 미리 설정된 동작, 예를 들면, 모바일 웹 검색, 서버에 내장된 대용량 음악음색 등과 같은 동작을 수행하도록 제공된다.

한편, 서버(150)에 있어서 심볼매칭부(270)는 인식된 음소열과 데이터베이스(미도시)에 등록된 인식대상 어휘목록의 음소열을 매칭한다. 이때, 심볼매칭부(270)는 동적 프로그래밍(dynamic programming) 기법에 근거하여, 인식된 음소열 즉, 인식심볼시퀀스와 등록된 음소열 즉, 기준패턴을 음소 혼동 매트릭스(phone confusion matrix) 및 언어 구속장(linguistic constraints)에 의해 도 4에 도시된 것과 같은 최적경로 검색에 대한 매칭을 수행한다. 또한, 심볼매칭부(270)는 어느 지점에서든지 매칭동작이 시작되거나 끝날 수 있도록 허용 가능하며, 단어 또는 어절 경계와 같은 언어적 지식에 근거하여 매칭동작의 시작 혹은 끝 부분을 제한할 수 있다. 한편, 음소 혼동 매트릭스에서 사용되는 심볼 세트로는 인식 심볼세트와 기준 심볼세트가 있다. 인식 심볼세트는 음소 디코딩부(230)에서 사용되는 음소세 트이다. 기준 심볼세트는 심볼매칭부(270)에서 사용되는 인식대상 어휘목록의 음소열 즉, 기준패턴을 표현하는데 사용되는 음소세트이다. 여기서, 인식 심볼세트와 기준 심볼세트는 동일하거나 다를 수 있다. 음소 혼동 매트릭스는 인식 혹은 기준 심볼들 사이의 혼동 정도를 확률값으로 표현하며, 이때 인식 심볼의 삽입 확률값과 기준 심볼의 삭제 확률값이 사용된다.

계산부(290)는 심볼매칭부(270)에서의 매칭결과에 따른 매칭스코어를 계산하여, 매칭스코어에 따른 인식결과 즉, 인식된 단어의 발음(lexicon) 정보를 클라이언트(110)의 수신부(250)로 제공한다. 이때, 계산부(290)는 가장 높은 매칭스코어를 갖는 하나의 단어를 출력하거나, 매칭스코어의 순서에 따른 복수개의 단어를 출력할 수 있다. 이때, 계산부(290)는 매칭결과에 따른 매칭스코어를 음소 혼동 매트릭스의 확률값을 사용하여 계산한다. 또한, 계산부(290)는 음소의 삽입(insertion)과 삭제(deletion) 확률도 고려하여 매칭스코어를 계산한다.

요약하면, 클라이언트(110)에서는 인식대상 어휘목록과는 독립적으로 인식된 음소열을 서버(150)로 제공하고, 서버(150)에서는 인식된 음소열에 대하여 인식대상 어휘목록에 종속적인 심볼매칭을 수행하여 인식결과를 클라이언트(110)로 제공한다.

도 3은 본 발명의 제2 실시예에 따른 분산 음성인식시스템의 구성을 나타낸 블록도로서, 클라이언트(110)는 특징추출부(310), 음소 디코딩부(330), 및 상세매칭부(350)를 포함하고, 서버(150)는 심볼매칭부(370) 및 계산부(390)를 포함하여 이루어진다. 여기서, 특징추출부(310), 음소 디코딩부(330), 심볼매칭부(370) 및 계산부(390)의 동작은 제1 실시예에서와 동일하므로 그 상세한 설명은 생략하기로하고, 주된 차이점인 상세매칭부(350)에 대하여 세부적으로 설명하기로 한다.

도 3을 참조하면, 상세매칭부(350)는 서버(150)로부터 제공되는 후보리스트에 포함되는 매칭된 음소 세그먼트를 리스코어링한다. 상세매칭부(350)는 비터비 알고리즘을 사용하며, 음소 디코딩부(330)에서와 마찬가지로 화자 혹은 환경 적응형 음향모델을 사용할 수 있다. 이때, 인식단위에 대한 관측확률값은 음소 디코딩부(330)에서 음소열을 생성할 때 사용한 값을 다시 사용하며, 인식단위 후보를 수개 내지 수십개로 줄인 상태이므로 계산량은 매우 작아진다.

요약하면, 클라이언트(110)에서는 인식대상 어휘목록과는 독립적으로 인식된 음소열을 서버(150)로 제공하고, 서버(150)에서는 인식대상 어휘목록에 종속적인 심볼매칭을 수행하여 인식결과 즉, 인식된 단어들의 발음(lexicon) 정보를 포함하는 후보리스트를 클라이언트(110)로 제공한다. 그러면, 클라이언트(110)에서는 인식결과로 제공되는 후보 리스트에 대하여 리스코어링을 수행하여 최종 인식결과를 출력한다.

도 4는 본 발명에 따른 분산 음성인식시스템에 있어서 기준패턴과 인식심볼시퀀스에 대한 매칭의 일예를 나타내는 도면이다.

도 4를 참조하면, 가로축은 음소 디코딩부(230, 330)의 출력인 인식심볼시퀀스(recognition symbol sequence)의 일례로서 "샤랑에"를 나타내고, 세로축은 인식대상 어휘목록(word list)의 기준패턴(reference pattern)의 일례로서 "널 사랑해"를 나타낸다. 본 발명에 따른 분산 음성인식시스템은 기준패턴에서 "널(nvL)" 부 분이 인식심볼시퀀스와 매칭되지 않으므로 인식심볼시퀀스와 매칭되는 "사랑해" 부분부터 매칭시킨다.

한편, 본 발명에 따른 분산 음성인식방법과 종래기술에 따른 분산 음성인식방법의 성능을 비교하면 다음과 같다.

일반적으로 단말기는 39차의 특징벡터를 10 msec 단위로 분석 윈도우를 슬라이딩시켜가면서 추출하여 서버로 전송한다. 사용자가 "사랑해" 라고 발성하였을 때, 샘플링 레이트가 16 KHz이고, 음성검출기에서 검출한 음성의 크기를 1초라고 가정한 경우 각 방법에 따른 전송 데이터량은 다음과 같이 산출할 수 있다.

먼저, 단말기로부터 서버로 음성파형을 전송하는 경우(기존방법 1), 단말기에서 서버로 전송되는 데이터량 즉, 1초 음성을 표현하기 위한 Bytes 수는 32,000 Kbytes (= 16,000 X 2)가 된다. 한편, 서버로부터 단말기로 전송되는 데이터량은 "사랑해" 에 대응되는 6 Bytes가 된다. 따라서, 분산 음성인식을 위한 송수신 데이터량은 총 32,006 Bytes가 된다.

다음, 단말기로부터 서버로 특징벡터를 전송하는 경우(기존방법 2), 단말기에서 서버로 전송되는 데이터량 즉, 1초 음성을 표현하기 위한 Bytes 수는 프레임수 X 프레임당 소요 Bytes수로서 15,600 Kbytes (= 100 X 156)가 된다. 여기서, 프레임수는 1000 msec/10 msec로부터 얻어지고, 프레임당 소요 Bytes수는 39 X 4 로부터 얻어진다. 서버로부터 단말기로 전송되는 데이터량은 "사랑해" 에 대응되는 6 Bytes가 된다. 따라서, 분산 음성인식을 위한 송수신 데이터량은 총 15,606 Bytes가 된다.

한편, 본 발명의 제1 실시예(본 발명 2)의 경우, 45개의 음소세트를 사용하는 음소 디코딩부(230)에 "사랑해"를 입력한 경우 추출되는 음소열은 "s ya r a 0 e"이다. 이때, 각 음소를 표현하기 위해서는 6 비트를 필요로 하며, 다국어 확장성을 고려하여 8 비트로 표현하는 경우 6개의 음소이므로 6 bytes가 소요된다. 한편, 서버로부터 단말기로 전송되는 데이터량은 하나의 단어에 해당하는 평균 6 bytes 가 된다. 따라서, 분산 음성인식을 위한 송수신 데이터량은 총 12 Bytes가 된다.

본 발명의 제2 실시예(본 발명 1)의 경우, 상세 매칭부(350)로 제공되는 후보 리스트를 평균 6 Bytes 단어 100개로 구성할 경우, 서버로부터 단말기로 전송되는 데이터량은 약 600 Bytes가 된다. 따라서, 분산 음성인식을 위한 송수신 데이터량은 총 606 Bytes가 된다.

상기한 본 발명에 따른 분산 음성인식시스템과 기존 방법에 따른 분산 음성인식시스템에 있어서 송수신 데이터량은 도 5에 도시되어 있다. 이에 따르면, 본 발명의 경우 음성인식 성능은 저하되지 않으면서 제1 실시예의 경우 1500 배, 제2 실시예의 경우 30 배로 송수신 데이터량을 감축시켜 통신채널 효율을 증가시킬 수 있다. 또한, 단말기에서 화자 혹은 환경 적응형 음향모델을 사용할 경우 음성인식 성능을 대폭 향상시킬 수 있다. 즉, 단말기 사용자 측면에서 본다면, 단말기와 서버간 송수신 데이터량의 감축으로 인하여 분산 음성인식에 소요되는 시간이 줄어들게 되어 분산 음성인식 서비스 비용을 절약할 수 있다. 한편, 서버 측면에서 본다면, 종래에는 특징벡터에 대하여 음향모델의 관측확률을 계산하므로 계산량이 많은 반면, 본 발명에서는 음소열에 대한 심볼매칭을 수행하므로 계산량이 대폭 감소되어 서버의 부담을 줄일 수 있다. 따라서, 하나의 서버에서 동시에 제공할 수 있는 서비스 용량을 증가시킬 수 있다.

또한 본 발명에 따른 분산 음성인식방법은 다양한 컴퓨터로 구현되는 동작을 수행하기 위한 프로그램 명령을 포함하는 컴퓨터 판독 가능 매체를 포함한다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 상기 매체는 프로그램 명령, 데이터 구조 등을 지정하는 신호를 전송하는 반송파를 포함하는 광 또는 금속선, 도파관 등의 전송 매체일 수도 있다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.

상술한 바와 같이 본 발명에 따르면, 단말기와 서버를 연동시킨 분산 음성인식시스템에 있어서 음성인식 성능의 저하없이 단말기와 서버간 송수신 데이터량을 대폭 감소시킬 수 있으므로 통신채널의 효율을 증대시킬 수 있다.

또한, 서버에서 음소열에 대한 심볼매칭을 수행한 후 얻어지는 후보 리스트를 단말기로 전송하면, 단말기에서 미리 계산된 관측확률값을 이용하여 후보 리스트에 대한 상세매칭을 수행함으로써 서버의 부담을 대폭 감소시킬 수 있어 서버에서 동시에 제공할 수 있는 서비스 용량을 증대시킬 수 있다.

또한, 단말기에서 음소열 디코딩 및 상세매칭시 화자 혹은 환경 적응형 음향모델을 사용함으로써, 음성인식 성능을 대폭 향상시킬 수 있다.

본 발명에 대해 상기 실시예를 참고하여 설명하였으나, 이는 예시적인 것에 불과하며, 본 발명에 속하는 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서 본 발명의 진정한 기술적 보호범위는 첨부된 특허청구범위의 기술적 사상에 의해 정해져야 할 것이다.

Claims

삭제
삭제
삭제
삭제
현재 입력되는 음성신호에 대하여 추출되는 특징벡터를 인식된 음소열로 디코딩하고, 외부로부터 전송되며 상기 현재 입력되는 음성신호의 1차 인식결과에 해당하는 후보리스트를 수신하고, 상기 수신된 후보리스트에 대하여 리스코어링을 수행하여 최종 인식결과를 생성하는 단말기; 및

상기 단말기로부터 제공되는 인식된 음소열에 대하여 심볼 매칭을 수행하여 상기 현재 입력되는 음성신호의 1차 인식결과에 해당하는 후보리스트를 생성하고, 최종 인식결과를 생성하기 위한 리스코어링을 위하여 상기 후보리스트를 상기 단말기로 전송하는 서버를 포함하는 것을 특징으로 하는 분산 음성인식시스템.
제5 항에 있어서, 상기 단말기는 화자 혹은 환경 적응형 음향모델을 사용하여 상기 음소열 디코딩을 수행하는 것을 특징으로 하는 분산 음성인식시스템.
제5 항에 있어서, 상기 단말기는

상기 음성신호로부터 특징벡터를 추출하는 특징추출부;

상기 추출된 특징벡터를 음소열로 디코딩하고, 디코딩된 음소열을 상기 서버로 제공하는 음소 디코딩부; 및

상기 서버로부터 제공되는 상기 후보리스트에 대하여 리스코어링을 수행하는 상세매칭부를 포함하여 이루어지는 것을 특징으로 하는 분산 음성인식시스템.
제5 항에 있어서, 상기 서버는

상기 단말기로부터 제공되는 인식된 음소열과 어휘목록에 등록된 음소열간의 매칭을 수행하는 심볼매칭부; 및

상기 심볼매칭부에서의 매칭결과에 대한 매칭스코어를 계산하고, 상기 매칭스코어에 따른 후보 리스트를 상기 단말기로 제공하는 계산부를 포함하는 것을 특징으로 하는 분산 음성인식시스템.
삭제
삭제
현재 입력되는 음성신호로부터 특징벡터를 추출하는 특징추출부;

상기 추출된 특징벡터를 음소열로 디코딩하고, 디코딩된 음소열을 서버로 제공하는 음소 디코딩부; 및

상기 서버에서 현재 입력되는 음성신호에 대한 1차 음성인식을 수행한 결과 생성되는 후보리스트를 수신하고, 상기 수신된 후보리스트에 대하여 리스코어링을 수행하여 최종 인식결과를 생성하는 상세매칭부를 포함하여 이루어지는 것을 특징으로 하는 분산 음성인식을 위한 단말기.
제11 항에 있어서, 상기 음소 디코딩부는 화자 혹은 환경 적응형 음향모델을 사용하는 것을 특징으로 하는 분산 음성인식을 위한 단말기.
삭제
삭제
삭제
삭제
삭제
삭제
단말기에서 현재 입력되는 음성신호에 대하여 추출되는 특징벡터를 인식된 음소열로 디코딩하는 단계;

서버에서 상기 인식된 음소열을 수신하여, 상기 인식된 음소열에 대하여 심볼 매칭을 수행하여 상기 현재 입력되는 음성신호에 대한 1차 인식결과에 해당하는 후보리스트를 생성하는 단계; 및

상기 단말기에서 상기 서버에서 생성된 상기 현재 입력되는 음성신호의 1차 인식결과에 해당하는 후보리스트를 수신하고, 상기 수신된 후보리스트를 리스코어링하여 상기 현재 입력되는 음성신호에 대한 최종 인식결과를 생성하는 단계를 포함하는 것을 특징으로 하는 분산 음성인식방법.
제19 항에 있어서, 상기 단말기는 화자 혹은 환경 적응형 음향모델을 사용하여 상기 음소열 디코딩을 수행하는 것을 특징으로 하는 분산 음성인식방법.
제19 항에 있어서, 상기 음소열 디코딩단계는

상기 현재 입력되는 음성신호로부터 특징벡터를 추출하는 단계; 및

상기 추출된 특징벡터를 음소열로 디코딩하고, 디코딩된 음소열을 상기 서버로 제공하는 단계를 포함하여 이루어지는 것을 특징으로 하는 분산 음성인식방법.
제19 항에 있어서, 상기 후보리스트 생성단계는

상기 단말기로부터 제공되는 인식된 음소열과 어휘목록에 등록된 음소열간의 매칭을 수행하는 단계; 및

상기 매칭결과에 대한 매칭스코어를 계산하고, 상기 매칭스코어에 따른 상기 후보리스트를 상기 단말기로 제공하는 단계를 포함하는 것을 특징으로 하는 분산 음성인식방법.
제19 항 내지 제22 항 중 어느 한 항에 기재된 분산 음성인식방법을 실행할 수 있는 프로그램을 기재한 컴퓨터로 읽을 수 있는 기록매체.